首页
论坛
Yoo趣儿
›
Geek
›
程序员
›
爬虫怎么能把整个网站给爬下来
爬虫怎么能把整个网站给爬下来
查看
705
|
回复
23
作者:
gaoyangang
发布时间:2024-8-2 19:03:36
如题:
有什么办法可以把整个网站都爬下来,包括二级页面和各种 tab, 里面包括递归和 JS 渲染,想想都头大,各位彦祖集思广益,想想办法。
weixind
2024-8-2 19:04:10
爬虫爬的好,牢饭吃得饱。
crocoBaby
2024-8-2 19:04:46
直接爬路由
hanierming
2024-8-2 19:05:16
抓取页面中的所有连接,爬到一个页面就继续访问里面的链接,无限递归。
高级一点的就是分析 URL 结构,自己拼接 URL 抓。
FengMubai
2024-8-2 19:05:52
试试 idm
erquren
2024-8-2 19:06:30
是不是为了合规
gaoyangang
OP
2024-8-2 19:07:15
@weixind 国外网站,不慌
D0n9
2024-8-2 19:07:49
https://www.httrack.com/
iyiluo
2024-8-2 19:08:37
做个链接去重不就行了,链接去重后塞进队列里面慢慢爬,不过你爬虫爬的时候小心有人敲门
gaoyangang
OP
2024-8-2 19:09:29
@hanierming 有些 tab 要点击,才能加载出来
下一页 »
1
2
3
/ 3 页
下一页
返回列表
您需要登录后才可以回帖
登录
|
立即注册
发表回复
浏览过的版块
服务器
优惠信息
IOS/macOS
分享发现
通讯人
Android
二手交易
问与答
Apple
搜索
热门主题
想转播世界杯?没解说怎么办,LiveCC大模型
一个基于1panel的服务器状态页面
有迪士尼disneyplus 或者是Netflix的稳定车
给 V2EX 加了个「主题关键词屏蔽」,大家不
Codex 现在该咋买?
我的 GPT 女友,看看你们的?
开薅!卡牌大师精品推荐+1 !!!,Gate Card
vibecoding 的前提下,对编程语言的选择是
iOS 26.5 新增“彩虹流光”壁纸挺好看,梦
手指腱鞘炎怎么办呢。用鼠过度。轨迹球鼠标
热门板块
问与答
分享发现
分享创造
奇思妙想
分享邀请码
商业推广
优惠信息
Python
PHP
Java
JavaScript
Node.js
Go语言
C++
HTML
公告
网站帮助 - Yoo趣儿
2022-03-27
我们的愿景
2022-03-27
在 Yoo趣儿 投放广告
2022-03-27
Yoo趣儿网站用户应遵守规则
2022-03-24
返回顶部