爬虫之你需要知道的隔夜全球要闻

业余爱好者，好久没写爬虫了，近期世界经济变化莫测，
突然看到一篇“你需要知道的隔夜全球要闻”，忍不住写个爬虫把它爬下来每天看看。

WX20230314-205640.png (205.56 KB, 下载次数: 0)
下载附件
2023-3-14 20:57 上传

第一步找到通用接口

WX20230314-205134.png (506.92 KB, 下载次数: 0)
下载附件
2023-3-14 20:59 上传

WX20230314-205150.png (406.33 KB, 下载次数: 0)
下载附件
2023-3-14 20:59 上传

WX20230314-205208.png (466.16 KB, 下载次数: 0)
下载附件
2023-3-14 21:00 上传

第二步测试接口

WX20230314-205327.png (290.33 KB, 下载次数: 0)
下载附件
2023-3-14 21:00 上传

第三步尝试编写代码，反复测试
[Python] 纯文本查看复制代码import requests
import json
import re
import time
from lxml import etree
if __name__ == '__main__':
url = 'https://www.cls.cn/api/sw?app=CailianpressWeb&os=web&sv=7.7.5&sign=bf0f367462d8cd70917ba5eab3853bce'
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/110.0"}
data = {"type":"telegram","keyword":"你需要知道的隔夜全球要闻","page":0,"rn":20,"os":"web","sv":"7.7.5","app":"CailianpressWeb"}
response = requests.post(url=url,headers=headers,data=data)
news = json.loads(response.text)['data']['telegram']['data'][0]['descr']
timeStamp = json.loads(response.text)['data']['telegram']['data'][0]['time']
timeArray = time.localtime(timeStamp)
formatTime = time.strftime("%Y年%m月%d日", timeArray)
news = re.split(r'\d+、',news)
title = ''.join(etree.HTML(news[0]).xpath('//text()'))[1:-2]
print(formatTime,title)
for i in range(1, len(news)):
new = '%s、%s'%(i,news)
print(new)

WX20230314-204801.png (295.92 KB, 下载次数: 0)
下载附件
2023-3-14 21:04 上传

存在问题，本想通过正则表达式在"。数字、"数字前面通过正则替换内容替换新增换行，没想到输出的时候数字被\d+替换了。
感谢大神@Arcticlyc指点，优化正则替换。
如有不足，欢迎大家提出意见。
[Python] 纯文本查看复制代码import requests
import json
import re
import time
from lxml import etree
if __name__ == '__main__':
url = 'https://www.cls.cn/api/sw?app=CailianpressWeb&os=web&sv=7.7.5&sign=bf0f367462d8cd70917ba5eab3853bce'
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/110.0"}
data = {"type":"telegram","keyword":"你需要知道的隔夜全球要闻","page":0,"rn":20,"os":"web","sv":"7.7.5","app":"CailianpressWeb"}
response = requests.post(url=url,headers=headers,data=data)
news = json.loads(response.text)['data']['telegram']['data'][0]['descr']
timeStamp = json.loads(response.text)['data']['telegram']['data'][0]['time']
timeArray = time.localtime(timeStamp)
formatTime = time.strftime("%Y年%m月%d日", timeArray)
news = re.sub(r'(\d+、)', r'\n\1', news)
formatNews = ''.join(etree.HTML(news).xpath('//text()'))
print(formatTime,formatNews)

WX20230314-230214.png (300.55 KB, 下载次数: 0)
下载附件
2023-3-14 23:02 上传

下载次数, 下载附件

爬虫之你需要知道的隔夜全球要闻

相关帖子

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

爬虫之你需要知道的隔夜全球要闻

相关帖子

热门主题

最近收BA的人很多 交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了 建了一个群 想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

最近收BA的人很多交易了要立刻取消BA 教训

折腾 homelab 挺长时间了建了一个群想不

在 Yoo趣儿投放广告