爬虫怎么能把整个网站给爬下来

查看 288|回复 23
作者:gaoyangang   
如题:
有什么办法可以把整个网站都爬下来,包括二级页面和各种 tab, 里面包括递归和 JS 渲染,想想都头大,各位彦祖集思广益,想想办法。
weixind   
爬虫爬的好,牢饭吃得饱。
crocoBaby   
直接爬路由
hanierming   
抓取页面中的所有连接,爬到一个页面就继续访问里面的链接,无限递归。
高级一点的就是分析 URL 结构,自己拼接 URL 抓。
FengMubai   
试试 idm
erquren   
是不是为了合规
gaoyangang
OP
  
@weixind 国外网站,不慌

D0n9   
https://www.httrack.com/
iyiluo   
做个链接去重不就行了,链接去重后塞进队列里面慢慢爬,不过你爬虫爬的时候小心有人敲门
gaoyangang
OP
  
@hanierming 有些 tab 要点击,才能加载出来
您需要登录后才可以回帖 登录 | 立即注册

返回顶部