爬虫怎么能把整个网站给爬下来

查看 365|回复 23
wysnxzm   
爬虫小寄巧
hanierming   
@gaoyangang 那应该是会调接口的吧?你直接请求接口?
whoosy   
https://github.com/projectdiscovery/katana
这种开源库应该能满足你需求吧
linhongjun   
以前我记得还有那种网站下载的软件 就是下载整站。。。。后来就没用过了
xiangyuecn   
无头浏览器直接正常访问渲染,想要什么数据就读什么数据,管他乱七八糟的
150530   
http://wget.oiweb.cn/ 这种可以全站爬取
justwe7   
楼上老哥正解,单纯为了抓页面结构展示界面的话直接 https://pptr.dev/ 加延时等待渲染后拿代码
luolw1998   
@gaoyangang #6 国外网站直接读他们的 sitemap.xml, https://www.semrush.com/sitemap.xml
Mechanical   
Teleport Ultra
tool2dx   
@linhongjun 以前相关页面数据都是写在 index.html 里的。现在 index 里啥都没有,数据都是 ajax 动态读取的。
您需要登录后才可以回帖 登录 | 立即注册

返回顶部