首页
论坛
Yoo趣儿
›
Geek
›
程序员
›
爬虫怎么能把整个网站给爬下来
爬虫怎么能把整个网站给爬下来
查看
637
|
回复
23
作者:
gaoyangang
发布时间:2024-8-2 19:03:36
如题:
有什么办法可以把整个网站都爬下来,包括二级页面和各种 tab, 里面包括递归和 JS 渲染,想想都头大,各位彦祖集思广益,想想办法。
weixind
2024-8-2 19:04:10
爬虫爬的好,牢饭吃得饱。
crocoBaby
2024-8-2 19:04:46
直接爬路由
hanierming
2024-8-2 19:05:16
抓取页面中的所有连接,爬到一个页面就继续访问里面的链接,无限递归。
高级一点的就是分析 URL 结构,自己拼接 URL 抓。
FengMubai
2024-8-2 19:05:52
试试 idm
erquren
2024-8-2 19:06:30
是不是为了合规
gaoyangang
OP
2024-8-2 19:07:15
@weixind 国外网站,不慌
D0n9
2024-8-2 19:07:49
https://www.httrack.com/
iyiluo
2024-8-2 19:08:37
做个链接去重不就行了,链接去重后塞进队列里面慢慢爬,不过你爬虫爬的时候小心有人敲门
gaoyangang
OP
2024-8-2 19:09:29
@hanierming 有些 tab 要点击,才能加载出来
下一页 »
1
2
3
/ 3 页
下一页
返回列表
您需要登录后才可以回帖
登录
|
立即注册
发表回复
搜索
热门主题
刚刚发现网站打不开被拦截了,才发现阿里把
Ai的答案,瞎给,扬言答案不正确赔偿10w,
在阿里BA的域名不要用阿里的免费CDN啊,会
支付宝碰一下支付
看到别人收钱,眼红了,如何才能加上GG 广
【出】冲10送5 giffgaff 英国实体手机卡 可
是谁在囤积黄金?为何囤积黄金?
如果想找发帖宣传的人 在哪个平台找
干卵ganluan.com,81元注册。50出有人接盘
兄弟们,你们平时健身吗?站长娱乐是什么
热门板块
问与答
分享发现
分享创造
奇思妙想
分享邀请码
商业推广
优惠信息
Python
PHP
Java
JavaScript
Node.js
Go语言
C++
HTML
公告
网站帮助 - Yoo趣儿
2022-03-27
我们的愿景
2022-03-27
在 Yoo趣儿 投放广告
2022-03-27
Yoo趣儿网站用户应遵守规则
2022-03-24
返回顶部