Yoo趣儿 › Geek › 程序员 › 爬虫怎么能把整个网站给爬下来

爬虫怎么能把整个网站给爬下来

查看 754|回复 23

wysnxzm 2024-8-2 19:10:19

爬虫小寄巧

hanierming 2024-8-2 19:10:53

@gaoyangang 那应该是会调接口的吧？你直接请求接口？

whoosy 2024-8-2 19:11:38

https://github.com/projectdiscovery/katana
这种开源库应该能满足你需求吧

linhongjun 2024-8-2 19:12:10

以前我记得还有那种网站下载的软件就是下载整站。。。。后来就没用过了

xiangyuecn 2024-8-2 19:13:01

无头浏览器直接正常访问渲染，想要什么数据就读什么数据，管他乱七八糟的

150530 2024-8-2 19:13:35

http://wget.oiweb.cn/ 这种可以全站爬取

justwe7 2024-8-2 19:14:34

楼上老哥正解，单纯为了抓页面结构展示界面的话直接 https://pptr.dev/ 加延时等待渲染后拿代码

luolw1998 2024-8-2 19:15:29

@gaoyangang #6 国外网站直接读他们的 sitemap.xml, https://www.semrush.com/sitemap.xml

Mechanical 2024-8-2 19:16:13

Teleport Ultra

tool2dx 2024-8-2 19:17:08

@linhongjun 以前相关页面数据都是写在 index.html 里的。现在 index 里啥都没有，数据都是 ajax 动态读取的。

123 / 3 页下一页

返回列表

公告

返回顶部

爬虫怎么能把整个网站给爬下来

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

爬虫怎么能把整个网站给爬下来

热门主题

最近收BA的人很多 交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了 建了一个群 想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

最近收BA的人很多交易了要立刻取消BA 教训

折腾 homelab 挺长时间了建了一个群想不

在 Yoo趣儿投放广告