php自动采集新闻内容脚本

自动采集获取新lang的文章内容,自动分行。获取后自动保存采集好的句子文本到zylou文件夹里面。

header('Content-type:text/html; charset=utf-8');  
// www.zylou.cn  资源楼  
function sina()  
{  
    $html = file_get_contents('http://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2510&k=&num=300&page=1');  
    preg_match_all("/\"url\":\"(.*?)\",/", $html, $urls);  
    foreach ($urls['1'] as $url) {  
        $wz_url = str_replace('https', 'http', $url);  
        $wz_url = str_replace('\\', '', $wz_url);  
        $html = file_get_contents($wz_url);  
        preg_match("/<h1 class=\"main-title\">(.*?)<\/h1>/", $html, $titles);  
        preg_match("/<div class=\"article\" id=\"article\">.*?<p class=\"show_author\">/s", $html, $contents);  
        preg_match_all("/<p>(.*?)<\/p>/", $contents['0'], $juzis);  
        foreach ($juzis['1'] as $juzi)  
        {  
            $wz_juzi = ltrim($juzi, " ");  
            $wz_juzi = preg_replace("/<.*?>/", '', $wz_juzi);  
            if (!strstr($juzi, '原标题')) {  
                if (mb_strlen($wz_juzi, 'UTF-8') > 60) {  
                    file_put_contents(str_replace('\\','/',__DIR__).'/zylou/'. date("Ymd") . '.txt', $juzi . PHP_EOL, FILE_APPEND);  
                }  
            }  
        }  
  
        echo $titles['1'] . " >>> 采集完成" . "<br>";  
    }  
}  
  
  
sina();  

之前分享过采集热点关键词的,也可以看一看。php脚本自动采集获取新闻实时热点

常见问题FAQ

源码/软件是否可以正常使用?
本站所有资源均由站长亲测,保证可正常使用!如发现资源失效,可联系站长无理由退款并获取告知奖金!
关于售后服务
如果软件、源码的确不会用,教程的确看不懂,可加站长QQ,提出详细的问题,博主将在第一时间为您解答!
提问格式:我在网站购买的XX源码,链接是XX,搭建时候提示XX错误
关于退款问题
1.如下载链接失效的,付款24小时内未得到解决,无理由退款并免费赠送原需购买的物品;
2.如果资源确实不可用,可在付款三日内,加博主QQ,说明详细原因并附上交易记录,核实后全额退款,并另附付款费用10至20%作为告知奖金。

发表评论

加入会员,免费下载全站资源!

立即加入 咨询客服