找回密码
 快速注册

QQ登录

只需一步,快速开始

搜索
微自动2025 AutoMini(免费无功能限制,营销神器全新重构版)   a.wzdr.cn 长久更新营销神器2024(新版免费无功能限制)在线帮助文档 docs.wzdr.cn
查看: 4245|回复: 8

[官方免费例程] 论坛标题文章采集例程_刺客

[复制链接]
最佳答案
975 

1万

回帖

1605

好评

3万

达人币

用户组:管理员

为人民服务!

本月灌水之星宣传大使兔年幸运勋章七夕纪念勋章本月灌水之星帅哥勋章春节勋章

发表于 2014-2-16 20:34:37 | 显示全部楼层 |阅读模式
--需要2.872以上版本支持,2014-02-16刺客
--采集某板块标题和内容



  1. [文章采集]开启[/文章采集]
  2. --采集某板块标题和内容
  3. [采集来源1]http://bbs.zx**.com/thread.php?fid=48&type=262&page={页码}[/采集来源1]
  4. [采集正则1]<a href="read.php\?tid=(.*?)" name="readlink"[/采集正则1] --采集40个帖子的ID号
  5. [采集来源2]http://bbs.zx**.com/read.php?tid={采集正则1}[/采集来源2] --组合成要采集的文章URL
  6. [采集正则2]<title>(.*?)\|.*?</title>[\s\S]*?<div class=".*?" id="read_tpc">([\s\S]*?)</div>[/采集正则2] --正则2是文章采集用的,匹配标题+内容,需要熟悉正则,才知道如何写
  7. [采集页数]1[/采集页数] --请自行修改要采集的页数
  8. [开始页码]1[/开始页码]
  9. [页码频率]1[/页码频率]
  10. [采集延时]100[/采集延时]
  11. [采集编码]gbk[/采集编码]
  12. [保存顺序]0[/保存顺序]
  13. [采集过滤][/采集过滤]
  14. [采集替换]<script[\s\S]*?</script>|<style[\s\S]*?</style>|<[^>]+>|&.{1,8};→[/采集替换] --过滤掉里面的各种代码,在保留纯文本
  15. --[采集库]{采集正则2匹配1}【我只是间隔符。。】{采集正则2匹配2}[/采集库] --文章模式采集库可以不要
复制代码

  1. --4.2.8.5编写,2018-06-11,刺客ok

  2. [文章采集]开启[/文章采集] --文章采集必须加
  3. --采集某板块标题和内容
  4. [采集来源1]http://www.discuz.net/forum-2-{页码}.html[/采集来源1]
  5. [采集正则1]</em> <a href="(.*?)" onclick="atarget\(this\)" class=[/采集正则1] --置顶帖不采集
  6. [采集来源2]http://www.discuz.net/{采集正则1}[/采集来源2] --上面正则提取到的网址是 thread-3841138-1-3.html ,所以这里要补全
  7. [采集正则2]<span id="thread_subject">(.*?)</span>[\s\S]*?<table cellspacing="0" cellpadding="0"><tr><td class="t_f" id="postmessage_.*?">([\s\S]*?)/td></tr></table>[/采集正则2] --正则2是文章采集用的,匹配标题+内容
  8. [采集页数]3[/采集页数] --请自行修改要采集的页数
  9. [开始页码]1[/开始页码]
  10. [页码频率]1[/页码频率]
  11. [采集延时]100[/采集延时]
  12. [采集编码]gbk[/采集编码]
  13. [保存顺序]0[/保存顺序]
  14. [采集过滤][/采集过滤]
  15. --文章采集结果保存在: tools\采集规则\文章
  16. --[采集库]{采集正则2匹配1}【我只是间隔符。。】{采集正则2匹配2}[/采集库] --文章模式不要这个
复制代码



QQ截图20170518212923.png



QQ截图20140216202727.jpg

论坛标题文章采集例程_刺客.wzdr

1.82 KB, 下载次数: 1260

评分

参与人数 1达人币 +5 收起 理由
☆☆小宋☆☆ + 5 很给力!

查看全部评分

提问技巧:先问是不是这样?...再问为什么会这样?

2024定制规则联系作者QQ...如果遇到问题,可以开 向日葵、ToDesk、TeamViewer 配合QQ语音进行远程调试!

bug问题1-2个工作日内处理!QQ不闲聊,请直入主题!
营销神器,感谢支持和理解!
回复

使用道具 举报

最佳答案
0 

61

回帖

3

好评

49

达人币

用户组:VIP终身会员

发表于 2014-2-16 21:37:32 | 显示全部楼层
多谢了,哥们
回复

使用道具 举报

最佳答案
0 

34

回帖

2

好评

357

达人币

用户组:初级会员

发表于 2014-3-25 04:18:55 | 显示全部楼层
貌似这个采集规则不能使用吧
回复

使用道具 举报

最佳答案
0 

98

回帖

1

好评

1331

达人币

用户组:初级会员

发表于 2014-3-25 04:33:22 | 显示全部楼层
这采集失效了吧,麻烦更新下。感谢了
回复

使用道具 举报

最佳答案
0 

135

回帖

0

好评

883

达人币

用户组:金牌会员

发表于 2014-6-22 17:17:22 | 显示全部楼层
支持及下
回复

使用道具 举报

最佳答案
0 

135

回帖

0

好评

883

达人币

用户组:金牌会员

发表于 2014-7-8 21:13:18 | 显示全部楼层
失效了,麻烦更新下    谢谢
回复

使用道具 举报

最佳答案
56 

3967

回帖

18

好评

2万

达人币

用户组:VIP终身会员

VIP赞助会员兔年幸运勋章七夕纪念勋章忠实粉丝帅哥勋章羊年幸运勋章土豪勋章10周年纪念勋章快乐勋章春节勋章圣诞勋章

发表于 2015-5-16 10:22:58 | 显示全部楼层
失效了,修改了下,正则工具能采集到第二个内容,神器里采集不到,只有标题
回复

使用道具 举报

最佳答案
56 

3967

回帖

18

好评

2万

达人币

用户组:VIP终身会员

VIP赞助会员兔年幸运勋章七夕纪念勋章忠实粉丝帅哥勋章羊年幸运勋章土豪勋章10周年纪念勋章快乐勋章春节勋章圣诞勋章

发表于 2015-5-16 10:23:28 | 显示全部楼层
代码如下:--需要2.872以上版本支持,2014-02-16刺客
--采集某板块标题和内容
[采集来源1]http://bbs.tui18.com/forum-15-{页码}.html[/采集来源1]
[采集正则1]</em> <a href="(.*?)" onclick="atarget\(this\)" class="s xst">[/采集正则1] --置顶帖不采集
[采集来源2]{采集正则1}[/采集来源2]
[采集正则2]<span id="thread_subject">(.*?)</span></a>[\s\S]*?x</span>
</div>
  ([\s\S]*?)
<div id="download_explain">[/采集正则2] --正则2是文章采集用的,匹配标题+内容
[采集页数]3[/采集页数] --请自行修改要采集的页数
[开始页码]1[/开始页码]
[页码频率]1[/页码频率]
[采集延时]2[/采集延时]
[采集编码]gbk[/采集编码]
[保存顺序]0[/保存顺序]
[采集过滤][/采集过滤]
[采集库]{采集正则2匹配1}【我只是间隔符。。】{采集正则2匹配2}[/采集库]
回复

使用道具 举报

最佳答案
0 

147

回帖

0

好评

247

达人币

用户组:初级会员

发表于 2017-2-3 23:07:40 | 显示全部楼层
谢谢!!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

抢沙发||关于我们|手机版|营销神器 (蜀ICP备14013818号)

GMT+8, 2025-12-5 19:33

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表