初学者对于 Python 爬虫的小疑惑

查看 219|回复 8

作者：Henrysun 发布时间：2024-12-23 14:02:00

最近在学习 python 爬虫：使用 pyrequests 对一个文档中的 url 逐行进行前端数据爬取，再通过 Beautifulisoup 简单处理后输出到本地 txt 中。
但是在执行过程中发现平均 3s-5s 才能处理完成一个 url,是因为我的脚本流程问题，还是其他原因？希望有大佬可以解答一下，非常感谢

NessajCN 2024-12-23 14:02:30

爬虫这种典型的重 io 任务当然应该开多 threading 或协程一起跑
你是这么爬的吗

Henrysun

2024-12-23 14:03:00

@NessajCN 我没有使用 threading 或协程，所以其实是因为我的脚本在进行大量重复的 io 任务，才拖慢了脚本的运行速度吗

Outclass 2024-12-23 14:03:55

应该访问 URL 需要时间吧，尝试多线程处理

CassianAndor 2024-12-23 14:04:28

多线程 req 不会被风控吗...

me007 2024-12-23 14:05:23

初学就这样挺好的。你如果加快那么基本出发风控，初学解决不了，直接任何信息都获取不到

Emi1 2024-12-23 14:06:23

“文档中的 url ” 是一个域名下面的吗，那就别多线程，最好加 sleep

coderluan 2024-12-23 14:07:09

你加个时间戳啊，哪个步骤慢哪个步骤有问题。

NoOneNoBody 2024-12-23 14:08:06

正常的
“再通过 Beautifulisoup 简单处理后输出到本地 txt 中”
这部份不到 0.5 秒，就是说 2.5s 完成网络请求算快的了
不急着需要的话，单线程也没所谓，我很多时候为了防反爬，还要 sleep 几秒呢

初学者对于 Python 爬虫的小疑惑

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

初学者对于 Python 爬虫的小疑惑

热门主题

最近收BA的人很多 交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了 建了一个群 想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

最近收BA的人很多交易了要立刻取消BA 教训

折腾 homelab 挺长时间了建了一个群想不

在 Yoo趣儿投放广告