求个网站的采集方法,这个站的列表页只显示前10页,其它的都没有显示

查看 71|回复 4
作者:一路向前   
求个网站的采集方法,这个站的列表页只显示前10页,10页之后的都没有显示,
https://www.wenshubang.com/shijianbaogao/list_10.html
之前在4414上有个大哥说可以按ID循环来做,但具体怎么做,请问各大指点一下!


360截图20230327202219277.jpg (17.43 KB, 下载次数: 0)
下载附件
保存到相册
半小时前 上传

或者有其它什么办法可以采集的?
谢谢!

只显示, 方法

爱说说   
不发金币,很难打字啊。。
一路向前
OP
  
爱说说 发表于 2023-3-27 20:42
不发金币,很难打字啊。。

有悬赏的
罗胖子   
第一步:整理路由规则,如下
/shuzhibaogao/
/gongzuobaogao/
/shijianbaogao/
/cizhibaogao/
第二步:找到最大的ID值,3300000
第三步:将这些ID按序组合成链接,如下
/shuzhibaogao/3300000.html
/gongzuobaogao/3300000.html
/shijianbaogao/3300000.html
/cizhibaogao/3300000.html
第四步:获取这些链接ID的状态码,返回200,则记录下来
第五步:将整理200状态码的链接采集下来
罗胖子   


image.png (71.28 KB, 下载次数: 0)
下载附件
保存到相册
31秒前 上传

不会写脚本的,用现成的API
您需要登录后才可以回帖 登录 | 立即注册

返回顶部