营销神器

 找回密码
 快速注册

QQ登录

只需一步,快速开始

(新版免费无功能限制)营销神器2024版帮助文档已更新到 docs.wzdr.cn 点击进入查阅!非常详细!
查看: 1959|回复: 1

求助一下采集页面内容部分的正则表达式

[复制链接]
最佳答案
0 

91

回帖

0

好评

100

达人币

用户组:初级会员

Rank: 2Rank: 2

发表于 2014-6-17 14:01:52 | 显示全部楼层 |阅读模式
本帖最后由 seoflower 于 2014-6-17 14:11 编辑

http://r.gbicom.cn/wz/31725.html,就比如这个页面吧!

我用神器已经获取了采集来源网址了。但是内容部分总是获取不全啊。一共有600多条,只能采集到80多条。求大神答疑解惑,搞了几天了搞不定。

  1. [采集来源1]http://r.gbicom.cn/lb/cjwt/index_{页码}.html[/采集来源1]
  2. [采集正则1]<li><a href="(.*?)">[/采集正则1]

  3. [采集来源2]{采集正则1}[/采集来源2]
  4. [采集正则2]</span></h2>
  5.                         (.*?)
  6.                     </div>[/采集正则2]



  7. [采集页数]28[/采集页数] --请自行修改要采集的页数
  8. [开始页码]1[/开始页码]
  9. [页码频率]1[/页码频率]
  10. [采集延时]100[/采集延时]
  11. [采集编码]utf8[/采集编码]
  12. [保存顺序]0[/保存顺序]
  13. [采集过滤][/采集过滤]
  14. [采集库][/采集库]
复制代码
回复

使用道具 举报

最佳答案
964 

1万

回帖

1593

好评

3万

达人币

用户组:管理员

为人民服务!

本月灌水之星宣传大使兔年幸运勋章七夕纪念勋章本月灌水之星帅哥勋章春节勋章

发表于 2014-6-17 14:35:40 | 显示全部楼层
[采集正则2]</h2>([\s\S]*?)</div>[/采集正则2]

评分

参与人数 1好评 +1 达人币 +1 收起 理由
seoflower + 1 + 1 很给力!

查看全部评分

提问技巧:先问是不是这样?...再问为什么会这样?

2024定制规则联系作者QQ...如果遇到问题,可以开 向日葵、ToDesk、TeamViewer 配合QQ语音进行远程调试!

bug问题1-2个工作日内处理!QQ不闲聊,请直入主题!
营销神器,感谢支持和理解!
小提示:.wzdr是规则文件,.hwl是数据包文件 / 论坛评分,不扣自身!不用白不用。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

抢沙发||关于我们|手机版|营销神器 (蜀ICP备14013818号)

GMT+8, 2024-4-27 14:30

Powered by 营销神器论坛 Discuz!X3.4

© 2007-2024 营销工具

快速回复 返回顶部 返回列表