Yoo趣儿 › Geek › 程序员 › 爬虫怎么能把整个网站给爬下来

爬虫怎么能把整个网站给爬下来

查看 728|回复 23

yulgang 2024-8-2 19:17:53

Offline Explorer

ma836323493 2024-8-2 19:18:50

@gaoyangang #9 #9 那在加个 playwright 模拟点击

vituralfuture 2024-8-2 19:19:48

用 scrapy 轻轻松松，之前有个课设就是做这个，我用 rust 手搓 http 协议，通过 flutter-rust-bridge 接到 dart ，dart 再用正则，xpath 等解析，把 vuejs.org 爬下来了
当然动态资源不容易爬取

vituralfuture 2024-8-2 19:20:47

@vituralfuture 简单来说就是一个广度优先遍历，把出现在 HTML 中的链接统统加入队列，之后去爬，还要处理一下 css 中的链接

1 23 / 3 页

AD1

热门主题

热门板块

问与答分享发现分享创造奇思妙想分享邀请码商业推广优惠信息 Python PHP Java JavaScript Node.js Go语言 C++HTML

公告

返回顶部