请大神帮忙修改下采集正则

gao15678 · 发表于 2016-12-2 00:34:01

本帖最后由 gao15678 于 2017-1-13 00:58 编辑

原代码：function utf8_to_gbk($str_caiji){
return mb_convert_encoding($str_caiji, 'gbk', 'utf-8');
}
if(stristr($moban, '{apineirong}')){
$str_caiji = file_get_contents('http://www.chinanews.com/china.shtml?qq-pf-to=pcqq.c2c');←这里是采集的网址
$reg_caiji = '/<div class="\w+"><a.*?>\s*(.*?)\s*<\/a>.*?/';←这里是采集设置的正则
preg_match_all($reg_caiji, $str_caiji, $out_caiji);
$str_caiji = '';
foreach($out_caiji[0] as $v_caiji){
      $str_caiji .= $v_caiji;
      }
$reg_caiji = '/(\/(\d|\w)+\-*(\d|\w)+)+.shtml/i';←这里是采集设置的正则
preg_match_all($reg_caiji, $str_caiji, $out_caiji);
$num = count($out_caiji[0]);
if($out_caiji[0][mt_rand(0, $num)-1]){
      $link = 'http://www.chinanews.com' . $out_caiji[0][mt_rand(0, $num)];←网址
      $html = file_get_html($link);
      $title = $html -> find('h1', 0) -> innertext;
      $body = utf8_to_gbk($html -> find('div[class=left_zw]', 0) -> outertext) ;←这里是采集设置的正则
      $body = preg_replace("/<(\/)?a .*?>/si", '', $body);←这里是采集设置的正则
      $body = preg_replace("/<\/a>/si", '', $body);←这里是采集设置的正则
      $body = preg_replace("/(\/\w+\/\d+\/\d+\/\d+\.\w+)/", 'http://www.chinanews.com' . '\1', $body);←这里是采集设置的正则和网址
      $moban = str_replace('{apibiaoti}', $title, $moban);
      $moban = str_replace('{apineirong}', $body, $moban);
      echo $moban;
      }else{
      echo $moban;
      }
}

我想改为采集这个网址的：http://roll.blog.sina.com.cn/list/other/index_1.shtml  不知道怎么改，小白请各路大神、超神帮忙改下。小白磕头感谢！！！！

源帅 · 发表于 2016-12-2 10:22:47

用火车头吧，好点

刺客 · 发表于 2016-12-2 12:12:57

楼主希望采集相应页面的哪些信息？标题和内容吗？

ps：营销神器的采集功能很弱，建议使用火车头等专业采集器。

gao15678 · 发表于 2016-12-2 21:25:22

刺客发表于 2016-12-2 12:12
楼主希望采集相应页面的哪些信息？标题和内容吗？

ps：营销神器的采集功能很弱，建议使用火车头等专业 ...

采集标题和内容，我的是php程序不是软件，我要改为采集另一个网站的标题和内容，不知道怎么写正则，原来采集的网站：http://www.chinanews.com/china.shtml?qq-pf-to=pcqq.c2c 设置的这个正则： $reg_caiji = '/<div class="\w+"><a.*?>\s*(.*?)\s*<\/a>.*?/';  匹配的是这里：<div class="dd_bt"><a href="/gn/2016/12-02/8082290.shtml">中古友谊历久弥坚双边关系迈向多元</a></div>。然后这个正则： $reg_caiji = '/(\/(\d|\w)+\-*(\d|\w)+)+.shtml/i';  匹配是这：/gn/2016/12-02/8082290.shtml。这里： $link = 'http://www.chinanews.com' . $out_caiji[0][mt_rand(0, $num)]; 好象是提取后加到这里/gn/2016/12-02/8082290.shtml（也就是这样：http://www.chinanews.com/gn/2016/12-02/8082290.shtml。不知道是不是）。
这里是标题：$title = $html -> find('h1', 0) -> innertext;匹配这里：<h1 style="display:block; position:relative; text-align:center; clear:both">
   中古友谊历久弥坚双边关系迈向多元
   </h1>

这里都是内容： $body = utf8_to_gbk($html -> find('div[class=left_zw]', 0) -> outertext) ;我只知道这里匹配：<div class="left_zw" style="position:relative">
下面的就不知道匹配哪里了
      $body = preg_replace("/<(\/)?a .*?>/si", '', $body);←这里是采集设置的正则
      $body = preg_replace("/<\/a>/si", '', $body);←这里是采集设置的正则
      $body = preg_replace("/(\/\w+\/\d+\/\d+\/\d+\.\w+)/", 'http://www.chinanews.com' . '\1', $body);

我现在想改为采集这个网站的：http://roll.blog.sina.com.cn/list/other/index_1.shtml

像原来的一样先采集这里面的<ul class="list_009">
<li><span style=""><a  target="_blank">李光斗</a>  (12月02日 17:59)</span> 采集这条链接<a href="http://blog.sina.com.cn/s/blog_483476660102wtl3.html" target="_blank">特朗普告诉你：网红是怎样练成的</a></li>

采集这标题：<h2 id="t_483476660102wtl3" class="titName SG_txta">超级网红特朗普</h2>

采集这内容：
<div id="sina_keyword_ad_area2" class="articalContent newfont_family">
<p STYLE="text-indent: 24pt; line-height: 150%;">
<span STYLE="font-family: 宋体; line-height: 150%; font-size: 12pt;"><font FACE="宋体">如今，网红已经不单单是一个词语，网红代表的

我就是不知道怎么写正则，所以请大神们帮忙写写

a627817191 · 发表于 2016-12-4 18:12:30

不太懂，帮你顶一下

gao15678 · 发表于 2016-12-27 08:55:30

没人懂吗？这个是动态JSC程序里面自动获取新闻源标题和内容的代码

		自动登录	找回密码
密码			快速注册

请大神帮忙修改下采集正则

VIP赞助会员

乐于助人

兔年幸运勋章

忠实粉丝

本月灌水之星

宣传大使

七夕纪念勋章

帅哥勋章

春节勋章

美女勋章

10周年纪念勋章