首页
论坛
Yoo趣儿
›
Geek
›
程序员
›
爬虫怎么能把整个网站给爬下来
爬虫怎么能把整个网站给爬下来
查看
465
|
回复
23
作者:
gaoyangang
发布时间:2024-8-2 19:03:36
如题:
有什么办法可以把整个网站都爬下来,包括二级页面和各种 tab, 里面包括递归和 JS 渲染,想想都头大,各位彦祖集思广益,想想办法。
weixind
2024-8-2 19:04:10
爬虫爬的好,牢饭吃得饱。
crocoBaby
2024-8-2 19:04:46
直接爬路由
hanierming
2024-8-2 19:05:16
抓取页面中的所有连接,爬到一个页面就继续访问里面的链接,无限递归。
高级一点的就是分析 URL 结构,自己拼接 URL 抓。
FengMubai
2024-8-2 19:05:52
试试 idm
erquren
2024-8-2 19:06:30
是不是为了合规
gaoyangang
OP
2024-8-2 19:07:15
@weixind 国外网站,不慌
D0n9
2024-8-2 19:07:49
https://www.httrack.com/
iyiluo
2024-8-2 19:08:37
做个链接去重不就行了,链接去重后塞进队列里面慢慢爬,不过你爬虫爬的时候小心有人敲门
gaoyangang
OP
2024-8-2 19:09:29
@hanierming 有些 tab 要点击,才能加载出来
下一页 »
1
2
3
/ 3 页
下一页
返回列表
您需要登录后才可以回帖
登录
|
立即注册
发表回复
浏览过的版块
二手交易
优惠信息
分享发现
搜索
热门主题
zblog站群批量发布软件有没有
小县城有什么能养家的生计吗?
自适应站点怎么设置布局位置?
昨天涨了52粉,今天到现在涨了51粉
当公务员有些合法腐败行为论坛里很多人不知
兄弟们,办理POS收款码被骗399后续来了
30岁程序员的出路在哪里
Windows11_24H2_26100.4349_X64_无更新[极
国内有没有区块链技术相关的产业
男子造谣自己困电梯3小时被约谈
热门板块
问与答
分享发现
分享创造
奇思妙想
分享邀请码
商业推广
优惠信息
Python
PHP
Java
JavaScript
Node.js
Go语言
C++
HTML
公告
网站帮助 - Yoo趣儿
2022-03-27
我们的愿景
2022-03-27
在 Yoo趣儿 投放广告
2022-03-27
Yoo趣儿网站用户应遵守规则
2022-03-24
返回顶部