写了一个获取中国新闻网的资讯归档爬虫 ...

作者：hoochanlon 发布时间：2023-5-2 04:00:16

这主要是受csdn-Python爬取新闻信息，分词统计并画词云启发，中途也写了百度热搜的爬虫，对繁杂的新闻条目进行精细分类，涉及到AI与机械学习方面，我试了试，觉得工程量还是太大了，还不如用这个中国新闻网现成的分类。再考虑到上述文章的源码不大易读，以及附加了词云之类的库，要想跨平台还是有些不便，就自己写一个吧。
本地测试，效果如图：

（注：Windows多半是要注释掉 r.encoding='utf-8' ，保存路径多半是家目录或c:/Windows/System32）
在线测试
python -c "$(curl -fsSL https://ghproxy.com/https://raw.githubusercontent.com/hoochanlon/ihs-simple/main/d-python/get_chinanews.py)"

附源码：https://github.com/hoochanlon/ihs-simple/blob/main/d-python/get_chinanews.py
import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook
from datetime import datetime
# -----参考文档，三件套-------
# https://docs.python-requests.org/en/latest/
# https://www.crummy.com/software/BeautifulSoup/bs4/doc/
# https://openpyxl.readthedocs.io/en/stable/
# https://docs.python.org/3/library/stdtypes.html#str.strip （切片）
# -----参考文档，三件套-------
# 5.1 新增时间格式规范化输出文件名
# 获取当前时间
now = datetime.now()
# 将时间格式化为指定的字符串格式
formatted_time = now.strftime('%Y-%-m-%-d')
# 创建一个Workbook对象，用于Excel的读写
wb = Workbook()
# 添加一个Sheet页，并且指定Sheet名称
sheet = wb.active
sheet.title = 'Sheet1'
# 定义变量row，用于循环时控制每一行的写入位置
row = 1
# 添加表头
sheet['A1'] = '栏目'
sheet['B1'] = '标题'
sheet['C1'] = '时间'
# 遍历页码1从2页
for page_num in range(1,3):
# f-string
url = f"https://www.chinanews.com.cn/scroll-news/news{page_num}.html"
# 反爬通用套码
headers = {
      'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
r = requests.get(url, headers=headers)
r.encoding='utf-8'
soup = BeautifulSoup(r.text, 'html.parser')
# 遍历栏目、标题和时间
dangdu_lanmu = soup.find_all('div', class_='dd_lm')
dangdu_biaoti = soup.find_all('div', class_='dd_bt')
dangdu_time = soup.find_all('div', class_='dd_time')
# 追加具体数据
for news_num in range(len(dangdu_lanmu)):
      sheet.append([dangdu_lanmu[news_num].text.strip('[]'), dangdu_biaoti[news_num].text, dangdu_time[news_num].text])
      # row=row+1
      row += 1
# 保存Excel文件
wb.save("chinanews_{}.xlsx".format(formatted_time))
配合一些大数据分析的论文食用更佳：

许诺、唐锡晋 -《基于百度热搜新闻词的社会风险事件5W提取研究》（中国科学院、中国科学院大学，《系统工程理论与实践》，Vol.40, No.2, Feb., 2020）

毛贺祺 -《大数据背景下微博热搜的新闻阅读服务功能》（吉林大学文学院, 2017年3月）

王小新 -《当前我国受众网络新闻的阅读倾向——以百度热搜词为例》（上海理工大学，《今传媒》2013年第9期）

喻国明 -《大数据分析下的中国社会舆情总体态势与结构性特征》（中国人民大学，中国人民大学学报，2013年第5期）

举例来说，就是简单的数据对比与分析：

爬虫, 时间

相关帖子

hoochanlon

OP

2023-5-2 04:01:16

编码过程
01 simple demo（标题遍历）
简单试手遍历新闻标题，如图div部分，“lm”、“time”，都能进行简单的遍历。

01 simple demo 源码
import requests
from bs4 import BeautifulSoup
# ---- 常规操作 -------
url = 'https://www.chinanews.com.cn/scroll-news/news1.html'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
r = requests.get(url, headers=headers)
r.encoding='utf-8'
soup = BeautifulSoup(r.text, 'html.parser')
# ----- 遍历 ---------
dangdu_biaoti = soup.find_all('div', class_='dd_bt')
for div in dangdu_biaoti:
print(div.text)
效果如下

02 simple demo（页码遍历）
https://www.chinanews.com.cn/scroll-news/news1.html ，做个遍历链接，再遍历内容也是可行的。

02 simple demo 源码
import requests
from bs4 import BeautifulSoup
# ---- 遍历页码从1到10 -------
for i in range(1, 11):
# f-string
url = f"https://www.chinanews.com.cn/scroll-news/news{i}.html"
# 反爬通用套码
headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
r = requests.get(url, headers=headers)
r.encoding='utf-8'
soup = BeautifulSoup(r.text, 'html.parser')
# ----- 遍历标题（dd_time dd_lm 已测可行） ---------
dangdu_biaoti = soup.find_all('div', class_='dd_bt')
for div in dangdu_biaoti:
      print(div.text)
03 simple demo（debug）
不恰当的for循环逻辑，导致各列各项“错位”
错误演示demo
# 错位了
# 遍历栏目
dangdu_lanmu = soup.find_all('div', class_='dd_lm')
for div in dangdu_lanmu:
      # 将标题文本写入第2列（即A列），第row+1行中
      sheet.write(row, 0, div.text)
      row += 1  # 写入下一行
# 遍历标题（dd_time dd_lm 已测可行）
dangdu_biaoti = soup.find_all('div', class_='dd_bt')
for div in dangdu_biaoti:
      # 将标题文本写入第2列（即B列），第row+1行中
      sheet.write(row, 1, div.text)
      row += 1  # 写入下一行
# 遍历时间
dangdu_time = soup.find_all('div', class_='dd_time')
for div in dangdu_time:
      # 将标题文本写入第2列（即C列），第row+1行中
      sheet.write(row, 2, div.text)
      row += 1  # 写入下一行
A、B、C列发生了偏移

将A、B、C列的项目并排齐头的二种方式
方式一：先把表头占据，2起步。
# 添加表头
sheet['A1'] = '栏目'
sheet['B1'] = '标题'
sheet['C1'] = '时间'
# 定义变量row，用于循环时控制每一行的写入位置
row = 2
# 遍历栏目、标题和时间
dangdu_lanmu = soup.find_all('div', class_='dd_lm')
dangdu_biaoti = soup.find_all('div', class_='dd_bt')
dangdu_time = soup.find_all('div', class_='dd_time')
for j in range(len(dangdu_lanmu)):
      # 将栏目、标题和时间分别写入第1列、第2列和第3列，第j+row行中
      sheet.cell(row=row, column=1, value=dangdu_lanmu[j].text)
      sheet.cell(row=row, column=2, value=dangdu_biaoti[j].text)
      sheet.cell(row=row, column=3, value=dangdu_time[j].text)
同理于
# 添加表头
sheet.write(0, 0, '栏目')
sheet.write(0, 1, '标题')
sheet.write(0, 2, '时间')
# 定义变量row，用于循环时控制每一行的写入位置
row = 1
# 遍历栏目、标题和时间
dangdu_lanmu = soup.find_all('div', class_='dd_lm')
dangdu_biaoti = soup.find_all('div', class_='dd_bt')
dangdu_time = soup.find_all('div', class_='dd_time')
for j in range(len(dangdu_lanmu)):
      # 将栏目、标题和时间分别写入第1列、第2列和第3列，第j+row行中
      sheet.cell(row=row, column=1, value=dangdu_lanmu[j].text)
      sheet.cell(row=row, column=2, value=dangdu_biaoti[j].text)
      sheet.cell(row=row, column=3, value=dangdu_time[j].text)
方式二：使用append，精简化
# 定义变量row，用于循环时控制每一行的写入位置
row = 1
# 添加表头
sheet['A1'] = '栏目'
sheet['B1'] = '标题'
sheet['C1'] = '时间'
# 遍历栏目、标题和时间
dangdu_lanmu = soup.find_all('div', class_='dd_lm')
dangdu_biaoti = soup.find_all('div', class_='dd_bt')
dangdu_time = soup.find_all('div', class_='dd_time')
# 追加具体数据
for news_num in range(len(dangdu_lanmu)):
      sheet.append([dangdu_lanmu[news_num].text, dangdu_biaoti[news_num].text, dangdu_time[news_num].text])
      # row=row+1
      row += 1
效果如图

03 simple demo
import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook
# -----参考文档，三件套-------
# https://docs.python-requests.org/en/latest/
# https://www.crummy.com/software/BeautifulSoup/bs4/doc/
# https://openpyxl.readthedocs.io/en/stable/
# -----参考文档，三件套-------
# 创建一个Workbook对象，用于Excel的读写
wb = Workbook()
# 添加一个Sheet页，并且指定Sheet名称
sheet = wb.active
sheet.title = 'Sheet1'
# 定义变量row，用于循环时控制每一行的写入位置
row = 1
# 添加表头
sheet['A1'] = '栏目'
sheet['B1'] = '标题'
sheet['C1'] = '时间'
# 遍历页码从1到2
for page_num in range(1,2):
# f-string
url = f"https://www.chinanews.com.cn/scroll-news/news{page_num}.html"
# 反爬通用套码
headers = {
      'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
r = requests.get(url, headers=headers)
r.encoding='utf-8'
soup = BeautifulSoup(r.text, 'html.parser')
# 遍历栏目、标题和时间
dangdu_lanmu = soup.find_all('div', class_='dd_lm')
dangdu_biaoti = soup.find_all('div', class_='dd_bt')
dangdu_time = soup.find_all('div', class_='dd_time')
# 追加具体数据
for news_num in range(len(dangdu_lanmu)):
      sheet.append([dangdu_lanmu[news_num].text.strip('[]'), dangdu_biaoti[news_num].text, dangdu_time[news_num].text])
      # row=row+1
      row += 1
# 保存Excel文件
wb.save('output.xlsx')
做统计饼图遇到的问题
01 数据格式
代码生成的output.xlsx清除内容做了简单的数据统计测试，出现了饼图“不显示”的问题，但新建的Excel表填入一样数据，测试后却并没问题。
问题如图所示

中途发现：知乎专栏-用原生的方式操作Excel，Python玩转Excel神器xlsxwriter详解！、csdn-python实现——处理Excel表格（超详细）；最后参考这篇csdn-excel无法做图，是因为数据格式的原因解决的，我推测这个问题是我复制了表头，随手粘贴连同属性也一块复制进去了，所造成的。

02 筛选统计
无意间点到数据透视图，如下图以标题对应着栏目数，查了 microsoft-设计数据透视表的布局和格式对“轴”与“值”的说明，我觉得其类似于键值对的设计，当做统计汇总时，“轴”相当于分组和分类的列、"值"相当于的统计的数目的列。

问及人资同事有关于报表方面的制作，他让我去找在线图表的，于是试了下水，确实从使用上确实简单了不少，算是意外发现了。

阿杰曾爱 2023-5-2 04:02:03

中不孬

雾都孤尔 2023-5-2 04:02:50

支持原创，感谢分享。

clarkdavid 2023-5-2 04:03:39

不错，学习了

exnet 2023-5-2 04:04:33

感谢分享。

写了一个获取中国新闻网的资讯归档爬虫

相关帖子

浏览过的版块

热门主题

陈年旧事之小米是我成年之后第一个教训

特朗普政府悄悄补缴WTO会费

阿里通义千问客户端：Qwen Chat 1.0.3

兄弟们啊，做站养不活自己，焦虑的睡不着咋

某安全网站fr**buf 网络安全攻防实验室值

在58同城想发个广告，发不出去，也不提示哪

域名摆在重要位置！

求赐名，女宝，姓王，预产 1 月中旬蛇宝

听说现在杭州医院都不配原研药了

可乐当水喝会有什么问题？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

写了一个获取中国新闻网的资讯归档爬虫

相关帖子

浏览过的版块

热门主题

陈年旧事之小米是我成年之后第一个教训

特朗普政府悄悄补缴WTO会费

阿里通义千问客户端：Qwen Chat 1.0.3

兄弟们啊，做站养不活自己，焦虑的睡不着咋

某安全网站fr**buf 网络安全攻防实验室 值

在58同城想发个广告，发不出去，也不提示哪

域名摆在重要位置！

求赐名，女宝，姓王，预产 1 月中旬 蛇宝

听说现在杭州医院都不配原研药了

可乐当水喝 会有什么问题？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

某安全网站fr**buf 网络安全攻防实验室值

求赐名，女宝，姓王，预产 1 月中旬蛇宝

可乐当水喝会有什么问题？

在 Yoo趣儿投放广告