|
|
本帖最后由 laibalaibalaya1 于 2015-9-24 13:45 编辑
--3.136编写 2015-02-02刺客
--先采集第一页帖子号,然后组合成帖子网址,继续采集发帖人UID和回帖人UID
--采集完成后,继续采集第二页,采集页数可以自行设置
--视频参考:http://www.wzdr.cn/forum-194-1.html 视频53-55
[清除Cookie][/清除Cookie]
[采集来源1]http://bbs.smartisan.com/?{页码}[/采集来源1] --采集列表帖子ID,这个网址是按照最新发帖顺序排序的
[采集正则1]<title>(.*?)的个人资料[/采集正则1] --采集 11088483这样的帖子ID号
[采集正则2]<a href=".*?;gid=(.*?)" target="_blank">[/采集正则2]
[采集页数]10[/采集页数] --请自行修改要采集的页数
[开始页码]1[/开始页码]
[页码频率]1[/页码频率]
[采集延时]100[/采集延时]
[采集编码]gbk[/采集编码]
[保存顺序]0[/保存顺序]
[采集库]{{采集正则1}{采集正则2匹配1}[/采集库]
这里采集不到 采集正则2
jiong|2 - [清除Cookie][/清除Cookie]
- [采集来源1]http://bbs.smartisan.com/?{页码}[/采集来源1]
- [采集正则1]<title>(.*?)的个人资料[\s\S]*?<a href=".*?;gid=(.*?)" target="_blank">[/采集正则1]
- [采集页数]10[/采集页数] --请自行修改要采集的页数
- [开始页码]1[/开始页码]
- [页码频率]1[/页码频率]
- [采集延时]100[/采集延时]
- [采集编码]utf8[/采集编码]
- [保存顺序]0[/保存顺序]
- [采集库]{采集正则1匹配1}|{采集正则1匹配2}[/采集库]
复制代码
结果:
美貌大王|11
JustLin|12
astnd|2
355ml|2
Handsup|11
BG2RHY|1
webmaster|1
|
|