使用PHP巧妙提取微信公众号文章内容标题等信息精髓 ...

我们以同步阅读”，“香落尘外”，“神州文艺”等微信公众号为例子！其他有用第三方编辑器的微信公众号请在正则里面继续添加规则！此代码良好适配默认的微信公众号发布平台！
[ol]

'mmbiz.qpic.cn',

'Connection' => 'keep-alive',

'Pragma' => 'no-cache',

'Refererr'=>'http://www.qq.com/',

'Cache-Control' => 'no-cache',

'Accept' => 'textml,application/xhtml+xml,application/xml;q=0.9,image/webp,/;q=0.8',

'User-Agent' => 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.89 Safari/537.36',

'Accept-Encoding' => 'gzip, deflate, sdch',

'Accept-Language' => 'zh-CN,zh;q=0.8,en;q=0.6,zh-TW;q=0.4'

);

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL,$url);

curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0);

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0);

curl_setopt($ch, CURLOPT_HTTPHEADER,$headers);

$result= curl_exec($ch);

curl_close($ch);

preg_match_all('/meta name="author" content="(.*?)"/', $result, $m);

$nickname = $m[1][0];//公众号昵称

preg_match_all('/property="og:title" content="(.*?)"/', $result, $m);

$title = $m[1][0];//公众号文章标题

preg_match_all('/property="og:image" content="(.*?)"/', $result, $m);

$titlepic = $m[1][0];//公众号文章标题图片

preg_match_all('/name="description" content="(.*?)"/', $result, $m);

$smalltext = $m[1][0];//公众号文章简介

preg_match_all('/var round_head_img = "(.*?)";/si',$result,$m);

$head_img = $m[1][0];//公众号头像

if (!extension_loaded('dom')) {

die('DOMDocument扩展未加载，请检查PHP配置文件。');

}

$dom = new DOMDocument();

try {

$dom->loadHTML($result);

} catch (Exception $e) {

die('加载HTML时出错：' . $e->getMessage());

}

foreach ($dom->getElementsByTagName('*') as $tag) {

if ($tag->hasAttribute('style')) {

$tag->removeAttribute('style');

}

$newstext = '';

$divtext = $dom->getElementById('js_content');

foreach ($divtext->childNodes as $child) {

$newstext .=$child->ownerDocument->saveHTML($child);

}

$newstext=strip_tags($newstext, "';

},$newstext);

$replacement = ']*style="[^"]*"/i', $replacement, $newnewstext);

$newHtml = preg_replace('/]*style\s*=\s*"\s*[^"]*"\s*>(.*?)/i', '$2', $newHtml);

$newHtml= str_replace(array("
", "
"), '', $newHtml);

$content = [

'status' => 200,

'msg' => "采集成功",

'newstext' => $wechattext,

'nickname' => $nickname,

'title' => $title,

'url' => $url,

'titlepic' => $titlepic,

'smalltext' => $smalltext,

'head_img' => $head_img,

'time' => date("Y-m-d H:i:s"),

'api_source' => "".$public_r['sitename']."官网地址:".$public_r['add_pcurl'].""

];

$Json=json_encode($content,JSON_PRETTY_PRINT|JSON_UNESCAPED_UNICODE);

echo stripslashes($Json); [/ol]复制代码以上就是用代码抓取获取微信公众号文章的相关信息！此举是为了指定目标采集或者搬迁到第三方有可用接口的平台！鉴于小编只是测试并没有深究这个正则式！某些微信公众号利用其他三方发布到微信公账号的文章或许采集或带来不愉快的体验！请在相关注释的地方进行正则匹配！还是那句老话自己动身丰衣足食！本教程都是免费的，只是给不会的小伙伴提供一个范例！如果有好的写法也可以跟我们联系哦！

公众, 正则

使用PHP巧妙提取微信公众号文章内容标题等信息精髓

相关帖子

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则