|
如下规则,是用来参数1和采集1
[发布提交网址1]http://www.587766.com/e/DoInfo/ListInfo.php?page={循环递增数字=1,20,1}&mid=24&totalnum=80[/发布提交网址1]
[发布提交1采集1]<a href="(.*?)">一键重发[/发布提交1采集1]
[发布提交1参数1]<a href="(.*?)">一键重发[/发布提交1参数1]
[发布提交1采集1顺序]0[/发布提交1采集1顺序]
[发布成功特征1]>===页面正常打开![/发布成功特征1] --成功了才会保存,新版也可以不用成功标签
[发布成功保存1]H:\1.txt==={发布提交1采集1}[/发布成功保存1]
返回网页为(截取部分)
<strong style="font-size:14px;">现货供应DED194Q-4K41J带开关量输出乏尔网络电力仪表A</strong>
</a>
<br>
栏目:<a href='/yiqiyibiao/' target='_blank'>仪表仪器</a> > <a href='/yiqiyibiao/yiqiyibiao/' target='_blank'>仪器仪表</a>
</div></td>
<td height="25"> <div align="center">2016-12-19</div></td>
<td><div align="center"><a href="../pl/?id=660725&classid=595" title="查看评论" target=_blank><u>0</u></a></div></td>
<td><div align="center">
<font color=red>已审核</font> </div></td>
<td height="25"><div align="center">
<a href="guwang..php?enews=MRefreshInfo&classid=595&id=660725&mid=24">一键重发</a> | <a href="AddInfo.php?enews=MEditInfo&classid=595&id=660725&mid=24">修改</a> | <a href="guwang..php?enews=MDelInfo&classid=595&id=660725&mid=24" onclick="return confirm('确认要删除?');">删除</a>
</div></td>
</tr>
<script>
function PushInfoToSp(form)
{
var id='';
id=GetSelectId(form);
if(id=='')
{
alert('请选择要推送的信息');
return false;
}
window.open('sp/PushToSp.php?classid=595&id='+id,'PushToSp','width=560,height=500,scrollbars=yes,left=300,top=150,resizable=yes');
}
function checkOther(name)
{
var el = document.getElementsByTagName('input');
var len = el.length;
for(var i=0; i<len; i++)
{
if((el.type=="checkbox") && (-1 != el.name.indexOf(name)))
{
if(el.checked) el.checked = false;
else el.checked = true;
}
}
}
</script>
<tr style="border-bottom:solid 1px #ccc;" bgcolor="#ffffff" onmouseout="this.style.backgroundColor=#ffffff" onmouseover="this.style.backgroundColor=#EBF3FC" id="news660722">
<td><input name="id[]" type="checkbox" id="id[]" value="660722"><input type="hidden" name="rid[]" value="660722|595|24"></td>
<td height="25"> <div align="left">
<a href='http://pc.587766.com/p/2016-12-17/91e94bd2776cc519afb715f71d43417a.jpg' title='预览标题图片' target=_blank><img src='../data/images/showimg.gif' border=0></a> <a href="/yiqiyibiao/yiqiyibiao/660722.html" target=_blank title="现货供应FL-2高精度直流电表75A/75mV电阻器型号大全">
<strong style="font-size:14px;">现货供应FL-2高精度直流电表75A/75mV电阻器型号大全</strong>
</a>
<br>
栏目:<a href='/yiqiyibiao/' target='_blank'>仪表仪器</a> > <a href='/yiqiyibiao/yiqiyibiao/' target='_blank'>仪器仪表</a>
</div></td>
<td height="25"> <div align="center">2016-12-19</div></td>
<td><div align="center"><a href="../pl/?id=660722&classid=595" title="查看评论" target=_blank><u>0</u></a></div></td>
<td><div align="center">
<font color=red>已审核</font> </div></td>
<td height="25"><div align="center">
<a href="guwang..php?enews=MRefreshInfo&classid=595&id=660722&mid=24">一键重发</a> | <a href="AddInfo.php?enews=MEditInfo&classid=595&id=660722&mid=24">修改</a> | <a href="guwang..php?enews=MDelInfo&classid=595&id=660722&mid=24" onclick="return confirm('确认要删除?');">删除</a>
</div></td>
</tr>
会有15个红色的链接,运行后。
规则报告如下:
■■■■■■■■[11:04:51] 发布提交1参数1 【正则 处理前】: <a href="(.*?)">一键重发
■■■■■■■■[11:04:51] 发布提交1参数1 【正则 处理后】: <a href="(.*?)">一键重发
■■■■■■■■[11:04:51] 发布提交1参数1 【正则 结果】: guwang..php?enews=MRefreshInfo&classid=595&id=660725&mid=24
■■■■■■■■[11:04:51] 发布提交1采集1 【正则 处理前】: <a href="(.*?)">一键重发
■■■■■■■■[11:04:51] 发布提交1采集1 【正则 处理后】: <a href="(.*?)">一键重发
■■■■■■■■[11:04:51] 发布提交1采集1 【正则 结果】: guwang..php?enews=MRefreshInfo&classid=595&id=660725&mid=24
■■■■■■■■[11:04:51] 发布成功特征1 【处理前】: >===页面正常打开!
■■■■■■■■[11:04:51] 发布成功特征1 【处理后】: >===页面正常打开!
■■■■■■■■[11:04:51] 发布成功保存1 【处理前】: H:\1.txt==={发布提交1采集1}
■■■■■■■■[11:04:51] 发布成功保存1 【处理后】: H:\1.txt===guwang..php?enews=MRefreshInfo&classid=595&id=660725&mid=24
■■■■■■■■[11:04:51] 发布成功保存1 【保存】: guwang..php?enews=MRefreshInfo&classid=595&id=660725&mid=24
打开H盘的1.txt,发现只保存了一个结果,就是匹配到的第一个链接。
而且我发现一个很奇怪的现象,如果把发布提交1参数1删掉,只保留发布提交1采集1,运行后,在规则报告中,直接没有这个采集1的返回。如下:
■■■■■■■■[11:14:16] 发布提交1采集1 【正则 处理前】: <a href="(.*?)">一键重发
■■■■■■■■[11:14:16] 发布提交1采集1 【正则 处理后】: <a href="(.*?)">一键重发
■■■■■■■■[11:14:17] 发布成功特征1 【处理前】: >===页面正常打开!
■■■■■■■■[11:14:17] 发布成功特征1 【处理后】: >===页面正常打开!
■■■■■■■■[11:14:17] 发布成功保存1 【处理前】: H:\1.txt==={发布提交1采集1}
■■■■■■■■[11:14:17] 发布成功保存1 【处理后】: H:\1.txt===
查看1.TXT文件,为空。
版本3.7.2.9,@刺客,看下是我写错,还是这个标签有问题。
另外发现一个采集的问题,当使用[采集库]中间加自定义的目录是,比如[采集库]H:\1.txt==={采集正则1匹配1}[/采集库],运行后,会发现会一直卡在第一页的采集上,不会再进行采集。如果改成[采集库]{采集正则1匹配1}[/采集库],将会很顺利的运行下去,也可以很好的采集到。
所以算2个问题了
|
|