首页
论坛
Yoo趣儿
›
Geek
›
程序员
›
爬虫怎么能把整个网站给爬下来
爬虫怎么能把整个网站给爬下来
查看
361
|
回复
23
作者:
gaoyangang
发布时间:2024-8-2 19:03:36
如题:
有什么办法可以把整个网站都爬下来,包括二级页面和各种 tab, 里面包括递归和 JS 渲染,想想都头大,各位彦祖集思广益,想想办法。
weixind
2024-8-2 19:04:10
爬虫爬的好,牢饭吃得饱。
crocoBaby
2024-8-2 19:04:46
直接爬路由
hanierming
2024-8-2 19:05:16
抓取页面中的所有连接,爬到一个页面就继续访问里面的链接,无限递归。
高级一点的就是分析 URL 结构,自己拼接 URL 抓。
FengMubai
2024-8-2 19:05:52
试试 idm
erquren
2024-8-2 19:06:30
是不是为了合规
gaoyangang
OP
2024-8-2 19:07:15
@weixind 国外网站,不慌
D0n9
2024-8-2 19:07:49
https://www.httrack.com/
iyiluo
2024-8-2 19:08:37
做个链接去重不就行了,链接去重后塞进队列里面慢慢爬,不过你爬虫爬的时候小心有人敲门
gaoyangang
OP
2024-8-2 19:09:29
@hanierming 有些 tab 要点击,才能加载出来
下一页 »
1
2
3
/ 3 页
下一页
返回列表
您需要登录后才可以回帖
登录
|
立即注册
发表回复
搜索
热门主题
计算机辅助翻译工具memoQ 11.2.8 专业译员
TS视频合并简捷方便
Only Apple can do 苹果的傻 X 逻辑,自己
Tai v5.0.6 电脑软件使用时间查看器
私服违法吗?怎么现在到处都能看到广告,明
Zgo 黑五在售机型:日本大阪 IIJ 线路机(
帮忙配个电脑
阿里弄的那个知识图谱藏经阁现在怎么样了
[2024 年度音乐回顾] Apple Music 可以开始
现在卖链接,那个平台卖得多
热门板块
问与答
分享发现
分享创造
奇思妙想
分享邀请码
商业推广
优惠信息
Python
PHP
Java
JavaScript
Node.js
Go语言
C++
HTML
公告
网站帮助 - Yoo趣儿
2022-03-27
我们的愿景
2022-03-27
在 Yoo趣儿 投放广告
2022-03-27
Yoo趣儿网站用户应遵守规则
2022-03-24
返回顶部