php自动采集新闻内容脚本

自动采集获取新lang的文章内容,自动分行。获取后自动保存采集好的句子文本到zylou文件夹里面。

<?php
header('Content-type:text/html; charset=utf-8');  
// www.zylou.cn  资源楼  
function sina()  
{  
    $html = file_get_contents('http://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2510&k=&num=300&page=1');  
    preg_match_all("/\"url\":\"(.*?)\",/", $html, $urls);  
    foreach ($urls['1'] as $url) {  
        $wz_url = str_replace('https', 'http', $url);  
        $wz_url = str_replace('\\', '', $wz_url);  
        $html = file_get_contents($wz_url);  
        preg_match("/<h1 class=\"main-title\">(.*?)<\/h1>/", $html, $titles);  
        preg_match("/<div class=\"article\" id=\"article\">.*?<p class=\"show_author\">/s", $html, $contents);  
        preg_match_all("/<p>(.*?)<\/p>/", $contents['0'], $juzis);  
        foreach ($juzis['1'] as $juzi)  
        {  
            $wz_juzi = ltrim($juzi, " ");  
            $wz_juzi = preg_replace("/<.*?>/", '', $wz_juzi);  
            if (!strstr($juzi, '原标题')) {  
                if (mb_strlen($wz_juzi, 'UTF-8') > 60) {  
                    file_put_contents(str_replace('\\','/',__DIR__).'/zylou/'. date("Ymd") . '.txt', $juzi . PHP_EOL, FILE_APPEND);  
                }  
            }  
        }  
  
        echo $titles['1'] . " >>> 采集完成" . "<br>";  
    }  
}  
  
  
sina();  
?>

之前分享过采集热点关键词的,也可以看一看。

php脚本自动采集获取新闻实时热点

这个php脚本运行能获取百度的民生、体育、娱乐、搜狗的七天内3页、电影、电视剧、动漫、小说、音乐、游戏、汽车、
SEO辅助软件常用代码

php脚本自动采集获取新闻实时热点

2020-2-3 16:37:29

常用代码

分享一段js识别手机端还是电脑端跳转代码

2020-2-5 16:30:51

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索