爬虫怎么能把整个网站给爬下来

查看 289|回复 23
yulgang   
Offline Explorer
ma836323493   
@gaoyangang #9 #9 那在加个 playwright 模拟点击
vituralfuture   
用 scrapy 轻轻松松,之前有个课设就是做这个,我用 rust 手搓 http 协议,通过 flutter-rust-bridge 接到 dart ,dart 再用正则,xpath 等解析,把 vuejs.org 爬下来了
当然动态资源不容易爬取
vituralfuture   
@vituralfuture 简单来说就是一个广度优先遍历,把出现在 HTML 中的链接统统加入队列,之后去爬,还要处理一下 css 中的链接
您需要登录后才可以回帖 登录 | 立即注册

返回顶部