无招胜有招!实战教学,没有翻页采透网站的技巧

查看 94|回复 6
作者:罗胖子   
第一步:整理路由规则,如下
/shuzhibaogao/
/gongzuobaogao/
/shijianbaogao/
/cizhibaogao/
第二步:找到最大的ID值,3300000
第三步:将这些ID按序组合成链接,如下
/shuzhibaogao/3300000.html
/gongzuobaogao/3300000.html
/shijianbaogao/3300000.html
/cizhibaogao/3300000.html
第四步:获取这些链接ID的状态码,返回200,则记录下来
第五步:将整理200状态码的链接采集下来

链接, 翻页

罗胖子
OP
  


image.png (71.28 KB, 下载次数: 0)
下载附件
保存到相册
半小时前 上传

不会写脚本,用现成的API即可
KPF8yy   
你这教程小白看不懂 老手不需要
罗胖子
OP
  
KPF8yy 发表于 2023-3-27 21:12
你这教程小白看不懂 老手不需要

教懂小白,才能把 采集事业 做大做强,让天下没有难采的网站
小可爱是你么   
几百万千万的ID 你跑到什么时候。。
罗胖子
OP
  
小可爱是你么 发表于 2023-3-27 21:35
几百万千万的ID 你跑到什么时候。。

循环ID,获取HTTP状态码,基本上30分钟就可以跑50万左右
不然,这种不带分页或ID随机、加密的网站如何采集更高效,请大佬支招?
32333   
sitemap.xml
您需要登录后才可以回帖 登录 | 立即注册

返回顶部