【爬虫】爬取CCHO历年试卷及解析

作者：icer233 发布时间：2024-10-24 04:14:35

目标网站：https://ccho.eduzhixin.com/archives/tag/csst
网站总共有3页：https://ccho.eduzhixin.com/archives/tag/csst/page/1
问题：个别详情页面结构不同，大部分的答案是pdf，个别的是图片或者没有，我直接跳过了，程序会提示哪个页面不行，需要手动处理
源码如下
[Python] 纯文本查看复制代码# -*- coding:utf-8 -*-
import requests
from lxml import etree
import os
from multiprocessing.dummy import Pool
# 创建储存目录
if not os.path.exists('./ccho'):
os.makedirs('./ccho')
url = 'https://ccho.eduzhixin.com/archives/tag/csst/page/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36 Edg/128.0.0.0'
}
for i in range(1,4):
# 创建文件目录实例
purl = url + str(i)
response = requests.get(url=purl, headers=headers).text
tree = etree.HTML(response)
# 解析div列表
div_list = tree.xpath('/html/body/div[1]/div[4]/div/div/div[1]/div')
def down(div):
      detail_url = div.xpath('./article/a[1]/@href')[0] # 获取详情页链接
      name = div.xpath('./article/a[1]/@title')[0]  # 获取文件名
      ans_path = './ccho/' + name +'.pdf' # 生成文件路径
      detail_page = requests.get(url=detail_url, headers=headers).text
      detail_tree = etree.HTML(detail_page)
      try:
         down_url = detail_tree.xpath('//div[@class="row"]/div/article/div/div/div//strong/a/@href')[0]
         data = requests.get(url=down_url, headers=headers).content
         with open(ans_path, 'wb') as fp:
            fp.write(data)
         print(name, 'is downloaded')
      except:
         print('Unable to download', name, ' , url:', detail_url)
pool = Pool(5)
pool.map(down, div_list)
pool.close()
pool.join()
欢迎大家指正错误

爬虫, 历年

相关帖子

weixinzr99968 2024-10-24 04:15:16

weixinzr99968 发表于 2024-9-24 17:56
# -*- coding:utf-8 -*-
import requests
from lxml import etree
      1.       修复了 url 拼接错误，确保循环时请求正确的页面。
      2.       添加了非法字符过滤，确保文件名不会因为非法字符而报错。
      3.       提取下载链接时增加了检查，避免 IndexError。
      4.       为 requests.get() 添加了异常处理，避免程序崩溃。
      5.       在多线程下载中改进了错误处理和日志输出。

icer233

OP

2024-10-24 04:16:11

爬虫思路见https://www.52pojie.cn/thread-1957905-1-1.html

baihedengge 2024-10-24 04:16:43

学习了，真厉害。

zk1126853389 2024-10-24 04:17:35

感谢分享

woshizhj0451 2024-10-24 04:18:13

本来是想学习下爬虫编程的，结果发现这个网站是真不错，在上面答了一会儿题

nxyclf 2024-10-24 04:19:09

虽然试题都作不出来，但是我看透了本质：如果我掌握了X，我就会作Y

msmvc 2024-10-24 04:19:41

完蛋看不懂啊小白一个

W8826 2024-10-24 04:20:40

感谢大佬分享

stars666 2024-10-24 04:21:14

感谢分享

【爬虫】爬取CCHO历年试卷及解析

相关帖子

热门主题

收台CloudCone的2C2G120G的机器，欢迎代价P

T 推荐买 M4 还是 M5 MacBook AIR?

QQ都没人用了.企业QQ准备要全线下架了

100出nocix老10刀 240GB SSD +8G+ 2 TB HDD

大内存的 mac 本地跑 ai 有什么好的应用吗

如果 AI 杀死了 app、互联网服务商、内容。

弱电箱单线到阳台，求教如何在不改动现有拓

如何获取及下载 YouTube 的音视频

阿里千问负责人林俊旸千问离职

过年几天给 5 岁女儿写了个益智游戏----(续

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

【爬虫】爬取CCHO历年试卷及解析

相关帖子

热门主题

收台CloudCone的2C2G120G的机器，欢迎代价P

T 推荐买 M4 还是 M5 MacBook AIR?

QQ都没人用了.企业QQ准备要全线下架了

100出nocix老10刀 240GB SSD +8G+ 2 TB HDD

大内存的 mac 本地跑 ai 有什么好的应用吗

如果 AI 杀死了 app、互联网服务商、内容。

弱电箱单线到阳台，求教如何在不改动现有拓

如何获取及下载 YouTube 的音视频

阿里千问负责人林俊旸千问离职

过年几天给 5 岁女儿写了个益智游戏----(续

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

在 Yoo趣儿投放广告