- 积分
- 25119
- 注册时间
- 2007-3-16
- 激情
- 17679
- 居住地
- 中国 重庆市 江津市
- 在线时间
- 57944 小时
- 最佳答案
- 975

用户组:管理员
为人民服务!
      
|
--需要2.872以上版本支持,2014-02-16刺客
--采集某板块标题和内容
- [文章采集]开启[/文章采集]
- --采集某板块标题和内容
- [采集来源1]http://bbs.zx**.com/thread.php?fid=48&type=262&page={页码}[/采集来源1]
- [采集正则1]<a href="read.php\?tid=(.*?)" name="readlink"[/采集正则1] --采集40个帖子的ID号
- [采集来源2]http://bbs.zx**.com/read.php?tid={采集正则1}[/采集来源2] --组合成要采集的文章URL
- [采集正则2]<title>(.*?)\|.*?</title>[\s\S]*?<div class=".*?" id="read_tpc">([\s\S]*?)</div>[/采集正则2] --正则2是文章采集用的,匹配标题+内容,需要熟悉正则,才知道如何写
- [采集页数]1[/采集页数] --请自行修改要采集的页数
- [开始页码]1[/开始页码]
- [页码频率]1[/页码频率]
- [采集延时]100[/采集延时]
- [采集编码]gbk[/采集编码]
- [保存顺序]0[/保存顺序]
- [采集过滤][/采集过滤]
- [采集替换]<script[\s\S]*?</script>|<style[\s\S]*?</style>|<[^>]+>|&.{1,8};→[/采集替换] --过滤掉里面的各种代码,在保留纯文本
- --[采集库]{采集正则2匹配1}【我只是间隔符。。】{采集正则2匹配2}[/采集库] --文章模式采集库可以不要
复制代码
- --4.2.8.5编写,2018-06-11,刺客ok
- [文章采集]开启[/文章采集] --文章采集必须加
- --采集某板块标题和内容
- [采集来源1]http://www.discuz.net/forum-2-{页码}.html[/采集来源1]
- [采集正则1]</em> <a href="(.*?)" onclick="atarget\(this\)" class=[/采集正则1] --置顶帖不采集
- [采集来源2]http://www.discuz.net/{采集正则1}[/采集来源2] --上面正则提取到的网址是 thread-3841138-1-3.html ,所以这里要补全
- [采集正则2]<span id="thread_subject">(.*?)</span>[\s\S]*?<table cellspacing="0" cellpadding="0"><tr><td class="t_f" id="postmessage_.*?">([\s\S]*?)/td></tr></table>[/采集正则2] --正则2是文章采集用的,匹配标题+内容
- [采集页数]3[/采集页数] --请自行修改要采集的页数
- [开始页码]1[/开始页码]
- [页码频率]1[/页码频率]
- [采集延时]100[/采集延时]
- [采集编码]gbk[/采集编码]
- [保存顺序]0[/保存顺序]
- [采集过滤][/采集过滤]
- --文章采集结果保存在: tools\采集规则\文章
- --[采集库]{采集正则2匹配1}【我只是间隔符。。】{采集正则2匹配2}[/采集库] --文章模式不要这个
复制代码
|
评分
-
查看全部评分
|