客户端在请求一个文件的时候,发现自己缓存的文件有 Last Modified ,那么在请求中会包含 If Modified Since ,这个时间就是缓存文件的 Last Modified 。因此,如果请求中包含 If Modified Since,就说明已经有缓存在客户端。服务端只要判断这个时间和当前请求的文件的修改时间就可以确定是返回 304 还是 200 。 第二次抓取同一个页面 就是304的状态码 如果第二次抓取同一个页面 页面内容发生的变化 就是 200的状态码
小李0005 发表于 2023-3-20 09:14 客户端在请求一个文件的时候,发现自己缓存的文件有 Last Modified ,那么在请求中会包含 If Modified Since ,这个时间就是缓存文件的 Last Modified 。因此,如果请求中包含 If Modified Since,就说明已经有缓存在客户端。服务端只要判断这个时间和当前请求的文件的修改时间就可以确定是返回 304 还是 200 。 第二次抓取同一个页面 就是304的状态码 如果第二次抓取同一个页面 页面内容发生的变化 就是 200的状态码 就是蜘蛛发现页面没变化就不来抓了
就跟这个你写的帖子一样。首次被百度收录 百度第一次抓取时候就是 200状态码 过了几天你又修改的帖子内容。 百度再次抓取 对比之前百度收录的内容发生了变化 状态码 也是200。 百度再次抓取你没有修改内容就是 304