营销神器

 找回密码
 快速注册

QQ登录

只需一步,快速开始

(新版免费无功能限制)营销神器2024版帮助文档已更新到 docs.wzdr.cn 点击进入查阅!非常详细!
返回列表
查看: 3843|回复: 8

[官方免费例程] 论坛标题文章采集例程_刺客

[复制链接]
最佳答案
964 

1万

回帖

1593

好评

3万

达人币

用户组:管理员

为人民服务!

本月灌水之星宣传大使兔年幸运勋章七夕纪念勋章本月灌水之星帅哥勋章春节勋章

发表于 2014-2-16 20:34:37 | 显示全部楼层 |阅读模式
拖动规则到软件首页'列表框'即可快速加载,VIP可免费下载管理员发布的规则。
免责声明:规则仅供学习参考,提高工作效率。请勿发布低俗、违法内容!
最新版规:7天之内,禁止分享重复规则,否则直接删除并扣分!
最新版规:禁止上传含低俗文字截图(如找小jie、bao养等),请涂抹敏感文字!
分享规则必须有软件截图和案例截图,否则会被扣分或版主删除!
每个规则,都可能因网站改版而失效,请重新抓包对比更新!
建议联系作者确定是否有效,再购买! 
规则
规则类型: 采集规则
更新时间: 2018-06-11
编写作者: 刺客
编写版本: 2.872
是否有码: 步兵 (无验证码)
演示网址: http://bbs.tui18.com/forum-15-1.html
规则简介: 采集某板块标题和内容
是否更新: 一个月内失效更新
三天无效退还: 支持
是否开源: 开源
规则使用说明: -
规则用途: 此帖内容仅供POST技术学习研究之用,不得用于商业或者非法用途,否则,一切后果请用户自负。请下载研究后24小时内从您的电脑中彻底删除。 
--需要2.872以上版本支持,2014-02-16刺客
--采集某板块标题和内容



  1. [文章采集]开启[/文章采集]
  2. --采集某板块标题和内容
  3. [采集来源1]http://bbs.zx**.com/thread.php?fid=48&type=262&page={页码}[/采集来源1]
  4. [采集正则1]<a href="read.php\?tid=(.*?)" name="readlink"[/采集正则1] --采集40个帖子的ID号
  5. [采集来源2]http://bbs.zx**.com/read.php?tid={采集正则1}[/采集来源2] --组合成要采集的文章URL
  6. [采集正则2]<title>(.*?)\|.*?</title>[\s\S]*?<div class=".*?" id="read_tpc">([\s\S]*?)</div>[/采集正则2] --正则2是文章采集用的,匹配标题+内容,需要熟悉正则,才知道如何写
  7. [采集页数]1[/采集页数] --请自行修改要采集的页数
  8. [开始页码]1[/开始页码]
  9. [页码频率]1[/页码频率]
  10. [采集延时]100[/采集延时]
  11. [采集编码]gbk[/采集编码]
  12. [保存顺序]0[/保存顺序]
  13. [采集过滤][/采集过滤]
  14. [采集替换]<script[\s\S]*?</script>|<style[\s\S]*?</style>|<[^>]+>|&.{1,8};→[/采集替换] --过滤掉里面的各种代码,在保留纯文本
  15. --[采集库]{采集正则2匹配1}【我只是间隔符。。】{采集正则2匹配2}[/采集库] --文章模式采集库可以不要
复制代码

  1. --4.2.8.5编写,2018-06-11,刺客ok

  2. [文章采集]开启[/文章采集] --文章采集必须加
  3. --采集某板块标题和内容
  4. [采集来源1]http://www.discuz.net/forum-2-{页码}.html[/采集来源1]
  5. [采集正则1]</em> <a href="(.*?)" onclick="atarget\(this\)" class=[/采集正则1] --置顶帖不采集
  6. [采集来源2]http://www.discuz.net/{采集正则1}[/采集来源2] --上面正则提取到的网址是 thread-3841138-1-3.html ,所以这里要补全
  7. [采集正则2]<span id="thread_subject">(.*?)</span>[\s\S]*?<table cellspacing="0" cellpadding="0"><tr><td class="t_f" id="postmessage_.*?">([\s\S]*?)/td></tr></table>[/采集正则2] --正则2是文章采集用的,匹配标题+内容
  8. [采集页数]3[/采集页数] --请自行修改要采集的页数
  9. [开始页码]1[/开始页码]
  10. [页码频率]1[/页码频率]
  11. [采集延时]100[/采集延时]
  12. [采集编码]gbk[/采集编码]
  13. [保存顺序]0[/保存顺序]
  14. [采集过滤][/采集过滤]
  15. --文章采集结果保存在: tools\采集规则\文章
  16. --[采集库]{采集正则2匹配1}【我只是间隔符。。】{采集正则2匹配2}[/采集库] --文章模式不要这个
复制代码



QQ截图20170518212923.png



QQ截图20140216202727.jpg

论坛标题文章采集例程_刺客.wzdr

1.82 KB, 下载次数: 1151

评分

参与人数 1达人币 +5 收起 理由
☆☆小宋☆☆ + 5 很给力!

查看全部评分

提问技巧:先问是不是这样?...再问为什么会这样?

2024定制规则联系作者QQ...如果遇到问题,可以开 向日葵、ToDesk、TeamViewer 配合QQ语音进行远程调试!

bug问题1-2个工作日内处理!QQ不闲聊,请直入主题!
营销神器,感谢支持和理解!
@感谢分享和出售规则的朋友,否则花钱也没地方购买。(100达人币=10元,其他地方定制一个简单功能群发软件大概需要300元)
@有人出售规则是好事,最怕的是想买规则,没人愿意出售。VIP会员可以免费下载官方VIP规则。
@规则发布一段时间后,如果失效(依旧有参考学习的价值),请重新抓包,对比更新,很简单(推荐学习规则编写,1-2天即可学会)
@群发规则定制参考价200元人民币/个
@如果百度收录慢,可以考虑360、搜狗、搜搜等搜索引擎。国外网站对搜索引擎支持也非常好。
回复

使用道具 举报

最佳答案
0 

61

回帖

3

好评

49

达人币

用户组:VIP终身会员

发表于 2014-2-16 21:37:32 | 显示全部楼层
多谢了,哥们
小提示:.wzdr是规则文件,.hwl是数据包文件 / 论坛评分,不扣自身!不用白不用。
回复 支持 反对

使用道具 举报

最佳答案
0 

34

回帖

2

好评

356

达人币

用户组:初级会员

Rank: 2Rank: 2

发表于 2014-3-25 04:18:55 | 显示全部楼层
貌似这个采集规则不能使用吧
回复 支持 反对

使用道具 举报

最佳答案
0 

98

回帖

1

好评

1331

达人币

用户组:初级会员

Rank: 2Rank: 2

发表于 2014-3-25 04:33:22 | 显示全部楼层
这采集失效了吧,麻烦更新下。感谢了
回复 支持 反对

使用道具 举报

最佳答案
0 

135

回帖

0

好评

883

达人币

用户组:金牌会员

Rank: 6Rank: 6

发表于 2014-6-22 17:17:22 | 显示全部楼层
支持及下
回复 支持 反对

使用道具 举报

最佳答案
0 

135

回帖

0

好评

883

达人币

用户组:金牌会员

Rank: 6Rank: 6

发表于 2014-7-8 21:13:18 | 显示全部楼层
失效了,麻烦更新下    谢谢
回复 支持 反对

使用道具 举报

最佳答案
56 

3454

回帖

18

好评

2万

达人币

用户组:VIP终身会员

VIP赞助会员兔年幸运勋章七夕纪念勋章忠实粉丝帅哥勋章羊年幸运勋章土豪勋章10周年纪念勋章快乐勋章春节勋章圣诞勋章

发表于 2015-5-16 10:22:58 | 显示全部楼层
失效了,修改了下,正则工具能采集到第二个内容,神器里采集不到,只有标题
回复 支持 反对

使用道具 举报

最佳答案
56 

3454

回帖

18

好评

2万

达人币

用户组:VIP终身会员

VIP赞助会员兔年幸运勋章七夕纪念勋章忠实粉丝帅哥勋章羊年幸运勋章土豪勋章10周年纪念勋章快乐勋章春节勋章圣诞勋章

发表于 2015-5-16 10:23:28 | 显示全部楼层
代码如下:--需要2.872以上版本支持,2014-02-16刺客
--采集某板块标题和内容
[采集来源1]http://bbs.tui18.com/forum-15-{页码}.html[/采集来源1]
[采集正则1]</em> <a href="(.*?)" onclick="atarget\(this\)" class="s xst">[/采集正则1] --置顶帖不采集
[采集来源2]{采集正则1}[/采集来源2]
[采集正则2]<span id="thread_subject">(.*?)</span></a>[\s\S]*?x</span>
</div>
  ([\s\S]*?)
<div id="download_explain">[/采集正则2] --正则2是文章采集用的,匹配标题+内容
[采集页数]3[/采集页数] --请自行修改要采集的页数
[开始页码]1[/开始页码]
[页码频率]1[/页码频率]
[采集延时]2[/采集延时]
[采集编码]gbk[/采集编码]
[保存顺序]0[/保存顺序]
[采集过滤][/采集过滤]
[采集库]{采集正则2匹配1}【我只是间隔符。。】{采集正则2匹配2}[/采集库]
回复 支持 反对

使用道具 举报

最佳答案
0 

147

回帖

0

好评

247

达人币

用户组:初级会员

Rank: 2Rank: 2

发表于 2017-2-3 23:07:40 | 显示全部楼层
谢谢!!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

抢沙发||关于我们|手机版|营销神器 (蜀ICP备14013818号)

GMT+8, 2024-4-27 08:18

Powered by 营销神器论坛 Discuz!X3.4

© 2007-2024 营销工具

快速回复 返回顶部 返回列表