求个网站的采集方法,这个站的列表页只显示前10页,10页之后的都没有显示, https://www.wenshubang.com/shijianbaogao/list_10.html 之前在4414上有个大哥说可以按ID循环来做,但具体怎么做,请问各大指点一下! 360截图20230327202219277.jpg (17.43 KB, 下载次数: 0) 下载附件 保存到相册 半小时前 上传 或者有其它什么办法可以采集的? 谢谢! 只显示, 方法
第一步:整理路由规则,如下 /shuzhibaogao/ /gongzuobaogao/ /shijianbaogao/ /cizhibaogao/ 第二步:找到最大的ID值,3300000 第三步:将这些ID按序组合成链接,如下 /shuzhibaogao/3300000.html /gongzuobaogao/3300000.html /shijianbaogao/3300000.html /cizhibaogao/3300000.html 第四步:获取这些链接ID的状态码,返回200,则记录下来 第五步:将整理200状态码的链接采集下来