【求助】百度抓取问题

查看 96|回复 7
作者:么么踹   
网站只有2个目录A目录和B目录,这个时候生成了一个页面,给他的id是111,并且分配到A目录,这个时候https:/XXXX/A/111.html打开是正常的,百度蜘蛛过来抓取也是正常的;但是百度蜘蛛也顺道自己抓取了一个https:/XXXX/B/111.html,因为这个页面的id只分配到了A目录,百度蜘蛛如果抓取到B目录,B目录是没有这个id的,势必会导致百度蜘蛛过来抓取的B目录的111.html是404
如果再在A目录产生了一个页面id是222
百度蜘蛛会抓取https:/XXXX/A/222.html还有https:/XXXX/B/222.html(因为B目录没有id222,所以这个页面百度蜘蛛过来抓取是404)
类推就是产生了10个页面,蜘蛛会抓取20次,A目录抓取10次,B目录抓取10次, 但是在B目录的都是抓取的404.
这种有没有大佬可以解决的啊!

目录, 蜘蛛

笨蛋天才   
没碰到过呢
Believe   
看不懂。
制心一处   
你难为住我了,我想我语文老师了
bailu   
为什么会抓取b目录?这个顺道是顺的什么道?不想让他抓取b目录 直接robots禁止不就行了?
胖子   
主要是百度蜘蛛为什么会爬到B/111.HTML?检查一下哪里的问题
小蝌蚪   
不用管  给不同目录整上相同的id就行了  泛目录 就这个原理
缪斯的情人   
不用管的,蜘蛛只会去
您需要登录后才可以回帖 登录 | 立即注册

返回顶部