关于蜘蛛抓取问题

查看 97|回复 8
作者:zbchina   
我网站是https的,并且在站长平台做了https认证。看了一下网站日志,发现大量抓取http的然后301到https,请问是什么原因导致蜘蛛大量抓取http的呢

蜘蛛, 看了

缪斯的情人   
帮顶一下。
笨蛋天才   
加不加https都没啥区别
Believe   
反正我是没认证
nixi2021   
这很正常吧,你是不是做了301?
颤抖的大白兔   
301,到HTTPS.  然后站长后台认证,然后等就行了
zbchina
OP
  
nixi2021 发表于 2023-11-14 13:20
这很正常吧,你是不是做了301?

是的,但是为什么蜘蛛不是直接抓取https的链接,而是去抓取http的,并且网站内部也没有http的链接出现
制心一处   
原因可能有几个:
    历史遗留问题:可能你的网站在早期使用的是HTTP,因此一些外部链接和爬虫仍然使用HTTP来访问你的网站。随着时间的推移,这些链接可能会继续保持HTTP版本,即使你的网站已经切换到HTTPS。
    站内链接问题:如果你的网站内部有一些链接使用的是HTTP协议而不是HTTPS,蜘蛛在爬取这些链接时就会遇到这个问题。为了解决这个问题,你需要确保你的网站内部链接全部使用HTTPS。
    用户代理:蜘蛛在请求时可能会发送特定的用户代理字符串,以表明它们的身份和功能。有些用户代理可能不支持HTTPS,或者在处理HTTPS请求时遇到问题。在这种情况下,蜘蛛可能会默认使用HTTP来抓取内容。
    服务器配置:如果你的服务器配置或反向代理设置不正确,可能会导致一些请求被错误地重定向到HTTP版本。这可能是由于某些错误的配置或插件引起的。
    DNS缓存:有时候,由于DNS缓存的原因,可能会暂时出现大量的HTTP请求。当用户或蜘蛛尝试访问你的网站时,他们的DNS解析可能仍然指向HTTP版本,而不是HTTPS。
要解决这个问题,你可以尝试以下方法:
    确保你的所有内部和外部链接都使用HTTPS。
    检查你的服务器配置和反向代理设置,确保它们正确地重定向到HTTPS版本。
    更新你的站长平台的认证信息,确保它们与你的网站当前使用的协议(HTTPS)相匹配。
    联系你的域名注册商或DNS提供商,确保DNS缓存正确地指向HTTPS版本。
    监控你的网站日志,找出哪些用户代理在抓取HTTP版本的内容,并试图解决它们的问题。
已认证阳光丶   
强制重定向除了在服务器上配置301重定向之外,你还可以通过代码方式强制重定向所有HTTP请求到HTTPS。具体操作需根据你的网站所使用的技术和平台来确定。
您需要登录后才可以回帖 登录 | 立即注册

返回顶部