“抓取统计信息”报告(网站)

抓取统计信息”报告(仅针对网站)会提供与您的网站在最近 90 天内的 Googlebot 活动相关的信息。这些统计信息会将我们下载的所有内容类型(如 CSS、JavaScript、Flash、PDF 文件和图片)纳入统计范围。

打开“抓取统计信息”报告

我们只针对经过验证的网站提供抓取统计信息。

理解数据

抓取数没有“优劣”之分,但是随着网站规模的扩大,图表中数据随时间增长的趋势应该是相对平稳的。如果您发现骤降或骤增的现象,请继续阅读下文。

我的抓取速度为什么出现了下降?

一般情况下,Google 抓取速度在一两个星期的时间范围内应该是相对稳定的;如果出现骤降的现象,则可能是以下几种原因造成的:

  • 您添加了新的(或非常宽泛的)robots.txt 规则。请务必只屏蔽需要屏蔽的资源。如果 Google 需要依靠特定的资源(如 CSS 或 JavaScript)才能理解相应内容,请确保您没有禁止 Googlebot 访问这些资源。
  • 您的网页上有损坏的 HTML 或不受支持的内容:如果 Googlebot 无法解析网页上的内容,则可能是因为该网页使用了不受支持的媒体类型,或者是该网页上只有图片,所以 Googlebot 无法进行抓取。使用 Google 抓取方式可查看 Googlebot 看到的您网页的样子。
  • 如果您的网站对各种请求的响应速度缓慢,Googlebot 将限制自己发出的请求,以免导致您的服务器超载。请查看“抓取统计信息”报告,看看您网站的响应速度是否下降了。
  • 如果您的服务器错误率上升,Googlebot 将会限制请求的数量,以免导致您的服务器超载。请查看抓取错误报告,看看服务器连接错误是否增多。
  • 确保您没有降低首选抓取速度上限
  • 如果网站上存在更改频率较低或质量欠佳的信息,我们可能就不会频繁地抓取该网站。请诚实地审视您的网站、向与您的网站没有关联的人征求公正中立的反馈意见,并认真思考您的网站怎样才能(或有哪些地方可以)实现整体改进。

我的抓取速度为什么出现了猛增?

如果您的网站上发布了一批新信息或存在一些非常实用的信息,系统对您网站的抓取频率就有可能略高于您的期望值。如果您发现自己的服务器不堪重负的话,可以参考下列提示来管理 Googlebot 对您网站的抓取速度。

  • 查看“抓取统计信息”报告并在日志中检查相应的用户代理,以确认 Googlebot 访问的是您的网站,而不是其他请求者。
  • 如果您急需禁止 Googlebot 进行抓取,请针对相应请求返回 503 HTTP 结果代码。
  • 微调您的 robots.txt 文件,以屏蔽不应被调用的网页。
  • 作为暂时的解决方案,您可以在 Search Console 中设置首选抓取速度上限。但我们不建议长期使用此设置,因为它并未使您明确告诉我们您希望(以及不希望)系统抓取哪些网页或资源。
  • 确保您没有允许系统抓取含有“未设限”结果的网页,例如未设置期限的日历或未设置限制条件的搜索页。请使用 robots.txt 或 nofollow 标记禁止系统访问它们。
  • 如果网址不复存在或已转移,请务必返回正确的响应代码:若网址已不复存在或无效,请使用 404 或 410 代码;若网址已被永久替换为其他网址,请使用 301 重定向(若非永久性替换,请使用 302 代码);对于临时按计划停机,请使用 503 代码;确保服务器在发现自己无法处理的问题时返回 500 错误。

 

本文是否对您有帮助?
您有什么改进建议?