首页
论坛
Yoo趣儿
›
Geek
›
程序员
›
爬虫怎么能把整个网站给爬下来
爬虫怎么能把整个网站给爬下来
查看
578
|
回复
23
作者:
gaoyangang
发布时间:2024-8-2 19:03:36
如题:
有什么办法可以把整个网站都爬下来,包括二级页面和各种 tab, 里面包括递归和 JS 渲染,想想都头大,各位彦祖集思广益,想想办法。
weixind
2024-8-2 19:04:10
爬虫爬的好,牢饭吃得饱。
crocoBaby
2024-8-2 19:04:46
直接爬路由
hanierming
2024-8-2 19:05:16
抓取页面中的所有连接,爬到一个页面就继续访问里面的链接,无限递归。
高级一点的就是分析 URL 结构,自己拼接 URL 抓。
FengMubai
2024-8-2 19:05:52
试试 idm
erquren
2024-8-2 19:06:30
是不是为了合规
gaoyangang
OP
2024-8-2 19:07:15
@weixind 国外网站,不慌
D0n9
2024-8-2 19:07:49
https://www.httrack.com/
iyiluo
2024-8-2 19:08:37
做个链接去重不就行了,链接去重后塞进队列里面慢慢爬,不过你爬虫爬的时候小心有人敲门
gaoyangang
OP
2024-8-2 19:09:29
@hanierming 有些 tab 要点击,才能加载出来
下一页 »
1
2
3
/ 3 页
下一页
返回列表
您需要登录后才可以回帖
登录
|
立即注册
发表回复
浏览过的版块
服务器
分享发现
问与答
优惠信息
二手交易
站长
Windows
Google
社会资讯
搜索
热门主题
bwg这个怎么样??标注部分啥意思?
LLM 控制 Drawio 生成流程图的网站更新了
别做国内站了。做海外站吧
# 搬瓦工特价机型 MINICHICKEN 重新上架 |
RackNerd 2025 黑色星期五,结账时随机折扣
有图比开始有俄罗斯广告了
RackNerd 2025 黑色星期五!全新优惠、全新
RackNerd2025黑色星期五VPS促销套餐上线,
flapjacks落地解锁移动快乐电信延迟低
b站投币和钱之间的关系?
热门板块
问与答
分享发现
分享创造
奇思妙想
分享邀请码
商业推广
优惠信息
Python
PHP
Java
JavaScript
Node.js
Go语言
C++
HTML
公告
网站帮助 - Yoo趣儿
2022-03-27
我们的愿景
2022-03-27
在 Yoo趣儿 投放广告
2022-03-27
Yoo趣儿网站用户应遵守规则
2022-03-24
返回顶部