|
|
需要采集很多网址,所以就用{词库1},但是://这种符号变编码成了%3A%2F%2F,不知道怎么替换。如本来网址是这样的:http://baa.bitauto.com/fujian/thread-6091487,运行后变成这样了:http%3A%2F%2Fbaa.bitauto.com%2Ffujian%2Fthread-6091487。怎么办呢。还有,采集结果怎么可以想保存网址一样,累计在一个文件中,怎么写规则。谢谢指教了
--规则如下
{编码}utf8{/编码}
[采集来源1]{词库1}-{页码}.html[/采集来源1]
[采集正则1]<div class="user_name">\r*\s*<a class="mingzi" href="http://i.qichetong.com/.*/"\r*\s*target="_blank">\r*\s*(.*?)</a>[/采集正则1]
[采集页数]5[/采集页数] --请自行修改要采集的页数
[开始页码]1[/开始页码]
[页码频率]1[/页码频率]
[采集延时]100[/采集延时]
[采集编码]utf8[/采集编码]
[保存顺序]1[/保存顺序]
[采集过滤][/采集过滤]
[采集库]{采集正则1匹配1}[/采集库] --保存采集后的3个子匹配文本 |
|