“抓取统计信息”报告会显示有关 Google 对您网站的抓取历史记录的统计信息。例如,发出的请求数和发出请求的时间、服务器响应内容以及遇到的所有可访问性问题。您可以使用此报告检测 Google 在抓取您的网站时是否遇到了呈现方面的问题。
此报告面向高级用户。如果您的网站包含不到 1000 个网页,您应该不需要使用此报告,也不用担心这种级别的抓取详情。
C<span/>rawl Budget and the Crawl Stats report - Google Search Console Training
预备知识
在使用此报告之前,您应该了解以下信息:
- Google 搜索的工作方式
- 面向高级用户的主题,尤其是抓取和索引编制以及站点地图主题。
- 与管理网站访问权限相关的各种主题,包括 robots.txt 中的屏蔽规则设置。
- 如果您的网站很大(包含数十万个网页),可以参阅本指南,了解如何管理抓取预算并对其进行问题排查。
数据简介
- 系统显示并统计的所有网址都是 Google 请求的实际网址;与某些其他报告不同,系统不会将数据分配给规范网址。
- 如果网址包含服务器端重定向,则重定向链中的每个请求都将计为一个单独的请求。因此,如果 page1 会重定向至 page2,page2 又会重定向至 page3,而 Google 请求了 page1,您会看到 page1(返回 301/302)、page2(返回 301/302)和 page3(可能返回 200)各对应一个单独的请求。请注意,报告中仅显示当前网域中的网页。重定向响应的文件类型为“其他文件类型”。客户端重定向不会计入在内。
- 系统考虑过执行、但因 robots.txt 不可用而未执行的抓取操作会计入抓取总数中,但报告中关于此类抓取尝试的详细信息可能比较有限。了解详情
- 资源和范围:
- 所有数据均以当前选定的网域为限。系统不会显示对其他网域的请求。这包括对托管在当前资源之外的任何网页资源(例如图片)的请求。因此,如果您的网页 example.com/mypage 包含图片 google.com/img.png,对 google.com/img.png 的请求不会显示在资源 example.com 的“抓取统计信息”报告中。
- 同样,对同级网域(en.example 和 de.example)的请求也不会显示在报告中。例如,如果您查看的是 en.example 的“抓取统计信息”报告,对 de.example 上的图片的请求就不会显示在报告中。
- 不过,子网域间的请求会显示在父网域的报告中。例如,如果您查看的是 example.com 的数据,则可以看到对 example.com、en.example、de.example.com 以及 example.com 下任何级别的其他子网域的所有请求。
- 与此相反,如果另一个网域中的网页使用了您网域资源中的资源,您可能会看到与托管网页相关的抓取请求,但报告中不会提供任何背景信息,您无法得知该资源之所以被抓取,是因为另一个网域中的网页使用了它(也就是说,您无法获知图片 example.com/imageX.png 被抓取是因为它被添加到了网页 anotherexample.com/mypage 中)。
- 抓取数据涵盖 http 和 https 协议,即使是网址前缀资源也是如此。这意味着 http://example.com 的“抓取统计信息”报告同时包含对 http://example.com 和 https://example.com 的请求。不过,网址前缀资源的示例网址只能采用为该资源定义的协议(http 或 https)。
浏览报告
点击任意表格条目可获取该条目的详细视图,包括示例网址列表;点击网址可获取该特定抓取请求的详细信息。例如,在按类型分组显示响应的表格中,点击 HTML 行可查看从您网站上抓取的所有 HTML 网页的汇总抓取信息,以及一系列示例网址的抓取时间、响应代码、响应大小等详细信息。
主机和子网域
如果您的资源位于网域级别(example.com、http://example.com、https://m.example.com),并且包含两个或更多子网域(例如 fr.example.com 和 de.example.com),您可以查看父级网域的数据,其中包括所有子网域的数据,但您也可以将查看范围限定为单个子网域。
若要查看范围限定为特定子网域的报告,请在父级网域的着陆页上点击主机列表中的子网域。系统仅会显示过去 90 天内获得了流量的前 20 个子网域。
示例网址
您可以点击进入任意一组数据类型条目(响应、文件类型、目的、Googlebot 类型),以查看该类型对应的示例网址列表。
示例网址并不全面,只作为代表性例子。在列表中找不到某个网址,并不意味着我们没有请求该网址。示例数量可能按天加权调整,因此您可能会发现某些类型的请求包含比其他类型更多的示例。但从长期来看,各个请求类型的示例数量是均衡的。
抓取请求总数
针对您网站上的网址发出的抓取请求总数,无论成功与否。包括针对网页所使用的资源的请求(如果这些资源在您的网站上);对托管在您网站外部的资源发出的请求不会被统计在内。针对同一网址的重复请求会被分别统计。如果您的 robots.txt 文件不充分可用,系统会统计可能的抓取操作。
会统计的不成功请求如下:
- 因 robots.txt 文件不充分可用而从未进行过的抓取操作。
- 因 DNS 解析问题而失败的抓取操作
- 因服务器连接问题而失败的抓取操作
- 因重定向循环而放弃的抓取操作
下载内容总大小
在指定的时间段内,在抓取期间从您的网站下载的字节总数。如果 Google 缓存了一项被多个网页使用的网页资源,由于系统在收到第一次请求后已将该资源缓存,因此只需请求该资源一次。
平均响应时间
在指定的时间段内,从您的网站抓取的所有资源的平均响应时间。系统会将与网页关联的每项资源计为单独的响应。
托管状态
托管状态说明了 Google 在尝试抓取您的网站时是否遇到了可访问性问题。具体状态可以是以下值之一:
Google 在过去 90 天内未在您的网站上遇到任何严重的抓取可访问性问题 - 太棒了!在此状态下,您无需采取任何其他措施。
在过去 90 天内,Google 在您的网站上至少遇到一个严重的抓取可访问性问题,但这个问题是在一个多星期以前出现的。该错误可能是暂时性问题,或者可能已得到解决。您应该检查响应表格,了解问题所在,并决定是否需要采取任何措施。
在过去一周内,Google 在您的网站上至少遇到一个严重的抓取可访问性问题。由于该错误是最近发生的,因此您应尝试确定这是否为周期性问题。请检查响应表格,了解问题所在,并决定是否需要采取任何措施。
理想情况下,您的托管状态应显示为绿色。如果您的可访问性状态显示为红色,点击即可查看 robots.txt 可用性、DNS 解析和主机连接的可访问性详情。
托管状态详情
下面列出了主机可访问性状态的评估类别。任一类别的严重错误都可能会导致可访问性状态降级。点击报告中的类别可获取更多详情。
对于每个类别,您会看到相应时间段内的抓取数据图表。图表中有一条红色虚线;如果相应类别对应的指标在虚线之上(例如,如果指定日期有超过 5% 的请求的 DNS 解析失败),则认为此类别存在问题,并且状态将反映最后一个问题的新近度。
- robots.txt 抓取
图表会显示抓取期间 robots.txt 请求的失败率。Google 会经常请求此文件,如果请求没有返回有效文件(已填充或为空)或 404(文件不存在)响应,Google 会减慢对您网站的抓取速度或停止抓取该网站,直到能获得可接受的 robots.txt 响应为止。(如需了解详情,请参阅下文) - DNS 解析
图表会显示抓取期间 DNS 服务器未识别您的主机名或未响应的情况。如果您看到错误,请与您的注册商联系,确保您的网站设置正确且您的服务器已连接到互联网。 - 服务器连接
图表会显示抓取期间服务器无响应或未提供针对网址的完整响应的情况。如需了解如何修正此类错误,请参阅服务器错误。
下文进一步详细说明了 Google 在抓取您的网站时如何检查(并依赖于)robots.txt 文件。
您的网站并非必须要有 robots.txt 文件,但必须在需要提供此文件时返回成功的响应(定义见下文),否则 Google 可能会停止抓取您的网站。
- 成功的 robots.txt 响应
- 以下任意情况都会被视为成功的响应:
- HTTP 200 和 robots.txt 文件(该文件可以为有效、无效状态或为空)。如果该文件包含语法错误,请求仍会被视为成功,但 Google 可能会忽略所有存在语法错误的规则。
- HTTP 403/404/410(该文件不存在)。您的网站不需要提供 robots.txt 文件。
- 失败的 robots.txt 响应
- HTTP 429/5XX(连接问题)
下面介绍了 Google 在抓取网站时如何请求和使用 robots.txt 文件:
- Google 在抓取您的网站之前,会先检查近期是否有成功的 robots.txt 请求(未超过 24 小时)。
- 如果 Google 在过去 24 小时内获得成功的 robots.txt 响应,那么 Google 会在抓取您的网站时使用该 robots.txt 文件。(请注意,“404 未找到”是成功的响应,表示没有 robots.txt 文件,这意味着 Google 可以抓取网站上的任何网址。)
- 如果上一次响应失败或到现在已超过 24 小时,Google 会请求您的 robots.txt 文件:
- 如果请求成功,就会开始抓取。
- 如果不成功:
- 在前 12 个小时内,Google 会停止抓取您的网站,但会继续请求 robots.txt 文件。
- 在 12 小时至 30 天期间,Google 将使用上次成功抓取的 robots.txt 文件,同时仍请求您的 robots.txt 文件。
- 30 天后:
- 如果网站首页可访问,Google 将假定不存在 robots.txt 文件,并在不受任何限制的情况下进行抓取。
- 如果网站首页无法访问,Google 会停止抓取该网站。
- 无论是哪种情况,Google 都会继续定期请求您的 robots.txt 文件。
抓取响应
此表格显示了 Google 在抓取您的网站时收到的响应(按响应类型分组,并按占全部抓取响应的百分比形式显示)。数据基于总请求数,而非网址。因此,如果 Google 请求了某个网址两次,第一次收到“服务器错误 (500)”,第二次收到“成功 (200)”,那么响应有 50% 的概率为服务器错误,并有 50% 的概率为成功。
下面是一些常见的响应代码及其处理方式:
良好的响应代码
此类网页是正常的,不会导致出现任何问题。
- 成功 (200):一般情况下,绝大多数响应都应为 200 响应。
- 已永久转移 (301):您的网页会返回 HTTP 301 或 308(已永久转移)响应,这可能符合您的预期。
- 已暂时转移 (302):您的网页会返回 HTTP 302 或 307(已暂时转移)响应,这可能符合您的预期。如果此网页已永久转移,请将其更改为 301。
- 已转移(其他):这是元刷新。
- 未修改 (304):自上次抓取请求后网页未更改。
可能良好的响应代码
此类响应可能没什么问题,但您不妨检查一下,看看这是否是您所期望的。
- 未找到 (404) 错误可能是由您网站内部或外部损坏的链接导致的。要修正您网站上的所有 404 错误,这既无可能,也不值得,更没有必要。返回 404 往往合乎情理(例如,相应网页确实已不存在,并且没有替代网页)。了解如何或是否应修正 404 错误。
不良的响应代码
您应该修正返回以下错误的网页以改进抓取效果。
- robots.txt 不可用:如果您的 robots.txt 文件在某一天不可用,Google 会暂停抓取一段时间,直到它能够收到针对 robots.txt 请求的可接受响应为止。请勿向 Google 伪装您的 robots.txt 文件,也不要通过用户代理更改 robots.txt 网页。
此响应与针对 robots.txt 文件返回“未找到 (404)”不同,后者被视为良好的响应。点击此处可以查看更多 robots.txt 详情。 - 未经授权 (401/407):您应该使用 robots.txt 禁止 Googlebot 抓取这些网页,或者确定是否应该取消屏蔽这些网页。如果这些网页没有安全数据,并且您希望 Google 抓取这些网页,不妨将相关信息转移到非安全网页,或允许 Googlebot 不登录就能访问(但请注意,Googlebot 可能会被假冒,因此允许 Googlebot 访问会给网页带来很大的安全隐患)。
- 服务器错误 (5XX):此类错误会导致可访问性警告,应予以修正(如果可能)。缩略图图表会显示此类错误的大致发生时间;点击即可查看更多详情和确切时间。确定此类错误是属于暂时性问题,还是代表您网站中更深层次的可访问性错误。如果 Google 在过度抓取您的网站,您可以请求降低抓取速度。如果这表明存在严重的可访问性问题,请了解抓取速度猛增现象。如需了解如何修正此类错误,请参阅服务器错误。
- 其他客户端错误 (4XX):此处未指定的其他 4XX(客户端)错误。最好解决这些问题。
- DNS 无响应:您的 DNS 服务器未响应针对您网站上网址的请求。
- DNS 错误:另一种未指定的 DNS 错误。
- 抓取错误:由于端口号、IP 地址有误或响应不可解析,网页无法抓取。
- 无法访问网页:在检索网页时出现的任何其他错误,该错误导致请求从未到达服务器。由于这些请求从未到达服务器,因此它们不会显示在您的日志中。
- 网页超时:网页请求超时。
- 重定向错误:请求重定向错误,例如重定向次数过多、重定向为空或循环重定向。
- 其他错误:不属于上述任何类别的另一种错误。
抓取的文件类型
请求返回的文件类型。每个类型对应的百分比值是该类型的响应次数所占的百分比,而不是该类型的检索到的字节数所占的百分比。
可能的文件类型值:
- HTML
- 图片
- 视频 - 其中一种受支持的视频格式。
- JavaScript
- CSS
- 其他 XML - 一种 XML 文件,不包括 RSS、KML 或基于 XML 构建的其他任何格式。
- JSON
- 联合 - RSS 或 Atom Feed
- 音频
- 地理位置数据 - KML 或其他地理位置数据。
- 其他文件类型 - 此处未指定的其他文件类型。此分组中包含重定向。
- 未知(失败)- 如果请求失败,文件类型则为未知。
抓取目的
- 发现:Google 之前从未抓取过所请求的网址。
- 刷新:重新抓取已知网页。
如果您网页的更改速度很快,而我们重新抓取这些网页的频次不够高,请务必将它们添加到站点地图中。对于更新速度不是很快的网页,您可能需要专门请求重新抓取。如果您最近添加了许多新内容或提交了站点地图,那么在理想情况下,您应该会看到您网站上的发现抓取操作数量有所上升。
Googlebot 类型
用于发出抓取请求的用户代理的类型。Google 拥有许多用户代理,这些用户代理会出于不同原因进行抓取,并且具有不同的行为。
可能的 Googlebot 类型值:
- 智能手机:Googlebot 智能手机版
- 桌面设备:Googlebot 桌面版
- 图片:Googlebot 图片版。如果图片是作为网页资源加载的,系统会将 Googlebot 类型计为网页资源加载,而非图片。
- 视频:Googlebot 视频版。如果视频是作为网页资源加载的,系统会将 Googlebot 类型计为网页资源加载,而非视频。
- 网页资源加载:对您的网页所用资源的辅助抓取。在抓取该网页时,Google 会抓取重要的关联资源(例如图片或 CSS 文件),以便在尝试将该网页编入索引之前呈现它。这是发出此类资源请求的用户代理。
- AdsBot:一种 AdsBot 抓取工具。如果您发现此类请求数量猛增,可能是因为您最近在网站上为动态搜索广告创建了许多新的定位条件。请参阅我的抓取速度为什么出现了猛增现象。AdsBot 大约每 2 周抓取一次网址。
- StoreBot:商品购买抓取工具。
- 其他代理类型:此处未指定的其他 Google 抓取工具。
如果您遇到抓取速度猛增现象,请检查用户代理类型。如果猛增现象似乎是由 AdsBot 抓取工具导致的,请参阅我的抓取速度为什么出现了猛增现象。
问题排查
抓取速度太快
Googlebot 会采用相关算法,防止您的网站在抓取期间负载过重。但如果出于某种原因,您需要限制抓取速度,请点击此处了解如何操作。
我的抓取速度为什么出现了猛增现象?
如果您的网站上发布了一批新信息或存在一些非常实用的信息,我们对您网站的抓取频率就有可能略高于您的期望值。例如:
- 您取消屏蔽了网站上的一个大型版块,以允许 Googlebot 抓取该版块
- 您在网站上添加了一个大型新版块
- 您通过添加新的页面 Feed 或 URL_Equals 规则,为动态搜索广告添加了大量新的定位条件
如果 Google 过于频繁地抓取您的网站,以致您的网站出现可访问性问题,您可以采取以下做法保护网站:
- 确定是哪个 Google 抓取工具在过度抓取您的网站。为此,请查看您的网站日志或参考“抓取统计信息”报告。
- 即时缓解措施:
- 如果您想采取简单的解决方案,可以使用 robots.txt 阻止抓取过于频繁的代理(Googlebot、AdsBot 等)进行抓取。不过,这种做法最长可能需要一天才能生效。切勿阻止太长时间,否则可能会对抓取产生长期影响。
- 如果您的服务器能够动态检测并响应增加的负载,可在接近服务上限时返回 HTTP 503/429。不过,返回 503 或 429 的时间切勿超过 2 到 3 天,否则从长远来看,可能会让 Google 减少对您网站的抓取频率。
- 等待 2 到 3 天,以待 Google 的抓取速度调整完毕。这时,便可移除 robots.txt 屏蔽规则或停止返回 503 或 429 错误代码。
- 如果您的网站因为 AdsBot 抓取而过载,问题可能在于您使用
URL_Equals
或页面 Feed 为您网站上的动态搜索广告创建了过多定位条件。如果您的服务器容量不足以处理这些抓取,您应限制广告定位条件、以更小的批量添加网址,或提高服务容量。请注意,AdsBot 每 2 周就会抓取您的网页,因此您需要修正此问题,否则它会重复出现。
抓取速度似乎太慢
您无法告知 Google 提高抓取速度。但是,您可以详细了解如何管理 Google 对超大型或频繁更新的网站的抓取。
对于中小型网站,如果您发现 Google 没有抓取您网站的全部内容,请尝试更新您网站的站点地图,并确保您没有屏蔽任何网页。
我的抓取速度为什么出现了下降?
一般情况下,Google 抓取速度在一两个星期的时间范围内应该是相对稳定的;如果出现骤降的现象,则可能是以下几种原因造成的:
- 您添加了新的(或非常宽泛的)robots.txt 规则。请务必只屏蔽需要屏蔽的资源。如果 Google 需要依靠特定的资源(如 CSS 或 JavaScript)才能理解相应内容,请确保您没有禁止 Googlebot 访问这些资源。
- 如果您的网站对请求的响应速度很缓慢,Googlebot 将会限制请求的数量,以免您的服务器超载。请查看“抓取统计信息”报告,看看您网站的响应速度是否下降了。
- 如果您的服务器错误率上升,Googlebot 将会限制请求的数量,以免导致您的服务器超载。
- 如果网站上存在更改频率较低或质量欠佳的信息,我们可能就不会频繁地抓取该网站。请诚实地审视您的网站、向与您的网站没有关联的人征求公正中立的反馈意见,并认真思考您的网站可通过哪些方式,或在哪些方面实现整体改进。
报告中的抓取总数远远高于网站服务器日志中的总数
如果此报告中显示的抓取总数远远高于服务器日志中的 Google 抓取请求数,这可能是因为您的 robots.txt 文件长时间不可用,导致 Google 无法抓取您的网站。在这种情况下,Google 会统计若 robots.txt 文件可用的情况下其会执行的抓取操作,但实际上 Google 并未执行此类调用。请检查您的 robots.txt 文件抓取状态,确认是否属于上述问题。