- 积分
- 25122
- 注册时间
- 2007-3-16
- 激情
- 17683
- 居住地
- 中国 重庆市 江津市
- 在线时间
- 57944 小时
- 最佳答案
- 975

用户组:管理员
为人民服务!
      
|
发表于 2014-9-20 18:06:53
|
显示全部楼层
本楼为最佳答案
先采集成N多文档文件,如.txt格式,然后使用 文章- 文档模式 来发布
参考我一直用的一个例程:
- --3.0.1.4测试可用2014-09-20
- --采集某板块标题和内容
- [文章采集]开启[/文章采集]
- [采集来源1]http://bbs.tui18.com/forum-15-{页码}.html[/采集来源1]
- [采集正则1]</em> <a href="(.*?)" onclick="atarget\(this\)" class="s xst"[/采集正则1] --置顶帖不采集
- [采集来源2]{采集正则1}?1[/采集来源2]
- [采集正则2]id="thread_subject">(.*?)</span></a>[\s\S]*?this.parentNode.style.display='none'">x</span>([\s\S]*?)<div id="download_explain">[/采集正则2]
- --正则2是文章采集用的,匹配标题+内容
- [采集页数]100[/采集页数] --请自行修改要采集的页数
- [开始页码]150[/开始页码]
- [页码频率]1[/页码频率]
- [采集延时]100[/采集延时]
- [采集编码]gbk[/采集编码]
- [保存顺序]0[/保存顺序]
- [采集替换]<br />→{分隔符}</div>→{分隔符} → [/采集替换]
- [采集库][/采集库]
复制代码 |
|