营销神器

 找回密码
 快速注册

QQ登录

只需一步,快速开始

(新版免费无功能限制)营销神器2024版帮助文档已更新到 docs.wzdr.cn 点击进入查阅!非常详细!
查看: 1510|回复: 5

请大神帮忙修改下采集正则

[复制链接]
最佳答案
0 

4

回帖

0

好评

90

达人币

用户组:新手上路

Rank: 1

发表于 2016-12-2 00:34:01 | 显示全部楼层 |阅读模式
*求助技巧:规则求助时,请提供“规则报告.txt”、“帐号密码“、”.hwl数据包“、”.wzdr规则“等,否则可能无法给您满意答案!
*大家也有自己的事情要做,所以尽量详细,有助于更快得到大家的答复。拒绝伸手党!
*如果此求助信息不详细,或者有答案不采纳的,将会被移动灌水版块。
*规则报告内容太多,请保存为.txt文件上传,否则违规文本,会被系统禁止,无法发帖成功。
本帖最后由 gao15678 于 2017-1-13 00:58 编辑

原代码:function utf8_to_gbk($str_caiji){
    return mb_convert_encoding($str_caiji, 'gbk', 'utf-8');
    }
if(stristr($moban, '{apineirong}')){
    $str_caiji = file_get_contents('http://www.chinanews.com/china.shtml?qq-pf-to=pcqq.c2c');←这里是采集的网址
    $reg_caiji = '/<div class="\w+"><a.*?>\s*(.*?)\s*<\/a>.*?/';←这里是采集设置的正则
    preg_match_all($reg_caiji, $str_caiji, $out_caiji);
    $str_caiji = '';
    foreach($out_caiji[0] as $v_caiji){
        $str_caiji .= $v_caiji;
        }
    $reg_caiji = '/(\/(\d|\w)+\-*(\d|\w)+)+.shtml/i';←这里是采集设置的正则
    preg_match_all($reg_caiji, $str_caiji, $out_caiji);
    $num = count($out_caiji[0]);
    if($out_caiji[0][mt_rand(0, $num)-1]){
        $link = 'http://www.chinanews.com' . $out_caiji[0][mt_rand(0, $num)];←网址
        $html = file_get_html($link);
        $title = $html -> find('h1', 0) -> innertext;
        $body = utf8_to_gbk($html -> find('div[class=left_zw]', 0) -> outertext) ;←这里是采集设置的正则
        $body = preg_replace("/<(\/)?a .*?>/si", '', $body);←这里是采集设置的正则
        $body = preg_replace("/<\/a>/si", '', $body);←这里是采集设置的正则
        $body = preg_replace("/(\/\w+\/\d+\/\d+\/\d+\.\w+)/", 'http://www.chinanews.com' . '\1', $body);←这里是采集设置的正则和网址
        $moban = str_replace('{apibiaoti}', $title, $moban);
        $moban = str_replace('{apineirong}', $body, $moban);
        echo $moban;
        }else{
        echo $moban;
        }
}


我想改为采集这个网址的:http://roll.blog.sina.com.cn/list/other/index_1.shtml  不知道怎么改,小白请各路大神、超神帮忙改下。小白磕头感谢!!!!
@感谢分享和出售规则的朋友,否则花钱也没地方购买。(100达人币=10元,其他地方定制一个简单功能群发软件大概需要300元)
@有人出售规则是好事,最怕的是想买规则,没人愿意出售。VIP会员可以免费下载官方VIP规则。
@规则发布一段时间后,如果失效(依旧有参考学习的价值),请重新抓包,对比更新,很简单(推荐学习规则编写,1-2天即可学会)
@群发规则定制参考价200元人民币/个
@如果百度收录慢,可以考虑360、搜狗、搜搜等搜索引擎。国外网站对搜索引擎支持也非常好。
回复

使用道具 举报

最佳答案
65 

3538

回帖

717

好评

679

达人币

用户组:VIP终身会员

VIP赞助会员乐于助人兔年幸运勋章忠实粉丝

发表于 2016-12-2 10:22:47 | 显示全部楼层
用火车头吧,好点
规则订制,多 线 程软件(走量必备),关键词代发,收录排名有保障,咨询Q:250016745
小提示:.wzdr是规则文件,.hwl是数据包文件 / 论坛评分,不扣自身!不用白不用。
回复 支持 反对

使用道具 举报

最佳答案
964 

1万

回帖

1593

好评

3万

达人币

用户组:管理员

为人民服务!

本月灌水之星宣传大使兔年幸运勋章七夕纪念勋章本月灌水之星帅哥勋章春节勋章

发表于 2016-12-2 12:12:57 | 显示全部楼层
楼主希望采集相应页面的哪些信息? 标题和内容吗?

ps:营销神器的采集功能很弱,建议使用火车头等专业采集器。
提问技巧:先问是不是这样?...再问为什么会这样?

2024定制规则联系作者QQ...如果遇到问题,可以开 向日葵、ToDesk、TeamViewer 配合QQ语音进行远程调试!

bug问题1-2个工作日内处理!QQ不闲聊,请直入主题!
营销神器,感谢支持和理解!
回复 支持 反对

使用道具 举报

最佳答案
0 

4

回帖

0

好评

90

达人币

用户组:新手上路

Rank: 1

 楼主| 发表于 2016-12-2 21:25:22 | 显示全部楼层
刺客 发表于 2016-12-2 12:12
楼主希望采集相应页面的哪些信息? 标题和内容吗?

ps:营销神器的采集功能很弱,建议使用火车头等专业 ...

采集标题和内容,我的是php程序不是软件,我要改为采集另一个网站的标题和内容,不知道怎么写正则,原来采集的网站:http://www.chinanews.com/china.shtml?qq-pf-to=pcqq.c2c 设置的这个正则: $reg_caiji = '/<div class="\w+"><a.*?>\s*(.*?)\s*<\/a>.*?/';  匹配的是这里:<div class="dd_bt"><a href="/gn/2016/12-02/8082290.shtml">中古友谊历久弥坚 双边关系迈向多元</a></div>。然后这个正则: $reg_caiji = '/(\/(\d|\w)+\-*(\d|\w)+)+.shtml/i';  匹配是这:/gn/2016/12-02/8082290.shtml。这里: $link = 'http://www.chinanews.com' . $out_caiji[0][mt_rand(0, $num)]; 好象是提取后加到这里/gn/2016/12-02/8082290.shtml(也就是这样:http://www.chinanews.com/gn/2016/12-02/8082290.shtml。不知道是不是)。
这里是标题:$title = $html -> find('h1', 0) -> innertext;匹配这里:<h1 style="display:block; position:relative; text-align:center; clear:both">
      中古友谊历久弥坚 双边关系迈向多元
      </h1>

这里都是内容: $body = utf8_to_gbk($html -> find('div[class=left_zw]', 0) -> outertext) ;我只知道这里匹配:<div class="left_zw" style="position:relative">  
下面的就不知道匹配哪里了
        $body = preg_replace("/<(\/)?a .*?>/si", '', $body);←这里是采集设置的正则
        $body = preg_replace("/<\/a>/si", '', $body);←这里是采集设置的正则
        $body = preg_replace("/(\/\w+\/\d+\/\d+\/\d+\.\w+)/", 'http://www.chinanews.com' . '\1', $body);


我现在想改为采集这个网站的:http://roll.blog.sina.com.cn/list/other/index_1.shtml

像原来的一样先采集这里面的<ul class="list_009">
                        <li><span style=""><a  target="_blank">李光斗</a>  (12月02日 17:59)</span> 采集这条链接<a href="http://blog.sina.com.cn/s/blog_483476660102wtl3.html" target="_blank">特朗普告诉你:网红是怎样练成的</a></li>

采集这标题:<h2 id="t_483476660102wtl3" class="titName SG_txta">超级网红特朗普</h2>

采集这内容:<!-- 正文开始 -->
                <div id="sina_keyword_ad_area2" class="articalContent   newfont_family">
                        <p STYLE="text-indent: 24pt; line-height: 150%;">
<span STYLE="font-family: 宋体; line-height: 150%; font-size: 12pt;"><font FACE="宋体">如今,网红已经不单单是一个词语,网红代表的


我就是不知道怎么写正则,所以请大神们帮忙写写
回复 支持 反对

使用道具 举报

最佳答案
57 

2410

回帖

27

好评

4482

达人币

用户组:VIP终身会员

宣传大使美女勋章忠实粉丝VIP赞助会员10周年纪念勋章

发表于 2016-12-4 18:12:30 | 显示全部楼层
不太懂,帮你顶一下
回复 支持 反对

使用道具 举报

最佳答案
0 

4

回帖

0

好评

90

达人币

用户组:新手上路

Rank: 1

 楼主| 发表于 2016-12-27 08:55:30 | 显示全部楼层
没人懂吗?这个是动态JSC程序里面自动获取新闻源标题和内容的代码
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

抢沙发||关于我们|手机版|营销神器 (蜀ICP备14013818号)

GMT+8, 2024-4-26 07:35

Powered by 营销神器论坛 Discuz!X3.4

© 2007-2024 营销工具

快速回复 返回顶部 返回列表