百度蜘蛛抓取网站时返回304状态码怎么办?

小Y 0

经常遇到站长抱怨蜘蛛爬行返回码一直是304,爬行次数越来越少。 为了自身的用户体验,搜索引擎会尽力提高检索调用率、准确率和新鲜度,这将导致搜索引擎不得不将精力集中在具有高质量内容来源的网站上。 只有这样,搜索结果的质量才能更符合搜索者的体验。由此我们认为:搜索引擎爬虫会偏爱内容来源频繁的网站。 通过一定时间内爬取网站返回的状态码来调整爬取网站的频率。 如果网站在一段时间内一直处于【304:无变化】状态,引擎爬虫可能会减少对网站的爬取次数。 相反,如果网站变化的频率非常快,每次爬取都能得到一个新的版本,那么随着时间的推移,爬虫的回访率也会增加。

百度蜘蛛304状态码

不管是少爬取还是304,这都是现象,不是问题的原因。 假设网站全部返回200,能否达到提升排名和带来流量的目的? 相比之下,我们应该想想304的原因是什么? 更改 304 对网站目标有什么影响? 你不能忽视总体目标,强调过程细节,为了200而解决304。

304状态是怎么产生的?


为了提高网站访问速度,服务器对之前访问过的一些页面开发了缓存机制。 当客户端在这里请求这些页面时,服务器会根据缓存的内容判断页面是否和之前一样。 如果相同,则直接返回304。此时,客户端缓存的内容在客户端调用,无需二次下载。 可以说304在一定程度上起到了降低服务器带宽、提高蜘蛛爬虫效率的作用。

304状态的原因是什么?


  • 页面更新周期长或不更新

  • 纯静态页面或强制生成静态html

304状态处理思路?


  • 首先细分304页。 哪种类型的页面返回 304? 这些页面应该返回 304 吗?

  • 这些页面是如何生成的? 有更新机制吗? 更新机制是否符合蜘蛛对网站的抓取频率?

  • 页面更新区的位置是否合理? 是否位于页面主要内容的宿主区域?

过多的304状态码会导致以下问题:


  • 网站快照停止

  • 减少收录

  • 权重下降

那么如何减少304返回码呢?


据我所知,内容更新首先要迎合百度蜘蛛。 分析日志,记录蜘蛛访问时间。 可以大致得到蜘蛛访问的频率。 然后在此基础上更新文章:一定是原创转载。 不能纯粹收集。 转载也需要最新最优质的资源。 让蜘蛛来这里吃饭。 因此,返回了更多 200 个正常代码。

其次,最好增加一个互动部分。 现在大网站基本都做到了,比如评论、留言等。大网站更新的时候可能变化很小,但是通过这些交互,用户会在上面发布一些内容。,网站会有很多新的东西。 如seowhy,会将最新的回复和问题放在重要位置。

本期我们重点解决了频繁返回304状态和抓取次数少的问题,目的让网站被完全抓取。 除了以上专家分析的原因,小编觉得引擎蜘蛛也会参考网站的综合权重,权重高的网站的爬取频率会非常频繁。 例如,Google 可能会参考 PR 值来确定网站的抓取频率。推荐阅读文章>>>网站日志分析工具-简单易操作

快来发表您的意见吧!
  • 全部评论(0
    还没有评论,快来抢沙发吧!