使用网站版 Google 抓取工具

测试 Google 能否抓取您的网页

利用“Google 抓取方式”工具,您可以测试 Google 会如何抓取或呈现您网站上的某个网址。您可以使用“Google 抓取方式”了解 Googlebot 是否可访问您网站上的某个网页、会如何呈现该网页,以及是否已被禁止访问任何网页资源(例如图片或脚本)。该工具会模拟 Google 的常规抓取和呈现流程中所执行的抓取和呈现操作,有助于调试您网站上出现的抓取问题。

打开网站版“Google 抓取方式”工具

执行抓取

  1. 在文本框中,输入您希望 Googlebot 在您网站中抓取的网址的路径部分(与网站根路径的相对路径)。将文本框留空即可抓取网站的根网页。例如,如果当前资源是 http://example.com,则针对 stores/indiana/1234.html 的请求将抓取 http://example.com/stores/indiana/1234.html
    抓取限制:
    • 抓取的网址仅限于当前网站:例如,如果当前的 Search Console 资源是 http://example.com,那么您便无法从 https://example.comhttp://m.example.com 抓取网址。
    • 抓取操作不会发送任何 Cookie、登录信息或其他状态信息。
    • 抓取操作不会跟踪重定向。如果您抓取的网页存在重定向,您将需要手动前往重定向到的网址,详情请参阅下文中关于“已重定向”抓取状态的说明。
  2. (可选)选择您希望用于执行模拟抓取操作的 Googlebot 的类型。 这决定了执行抓取操作的具体抓取工具,以及“抓取并呈现”请求的具体呈现方式。您可从以下类型中进行选择:
    1. 桌面版 [默认] -
      • 对于网站,使用 Googlebot 抓取工具。
      • 对于新闻,使用 Googlebot 抓取工具(不是 Googlebot 新闻抓取工具)。
      • 对于图片,使用 Googlebot 图片抓取工具。
      • 对于视频,使用 Googlebot 视频抓取工具。
      • 对于包含 AdSense 代码的网页,使用 Google AdSense 抓取工具。
      • 对于广告着陆页,使用 Google AdsBot 抓取工具。
    2. 移动版:智能手机
      • 当前的 - 使用当前版本(很快就会被新版本取代)的 Google 智能手机抓取工具。
      • 即将推出的 - 使用最新版本的 Google 智能手机抓取工具。
  3. 点击“抓取”或“抓取并呈现”:
    • 抓取:抓取您网站中的指定网址并显示所收到的 HTTP 响应。不会请求或运行任何关联的网页资源(例如图片或脚本)。这是一种比较简便快捷的操作,可帮助您检查或调试网站的潜在网络问题或安全问题,并了解请求的成败情况。
    • 抓取并呈现:抓取您网站中的指定网址、显示所收到的 HTTP 响应,并根据指定的平台(桌面设备或智能手机)呈现相应网页。此操作会请求并运行网页上的所有资源(例如图片和脚本)。您可以使用此操作来检测 Googlebot 看到的网页外观和用户看到的网页外观之间的差异。
  4. 请求将会被添加到抓取记录表格中,其状态会显示为“待定”。请求处理完毕后,对应的行将会显示请求的成败情况以及一些基本信息。点击该表格中的任意非失败抓取行可查看相应请求的更多详情,包括原始 HTTP 响应标头和数据,以及(对于“抓取并呈现”)禁止抓取的资源列表和呈现的网页视图。
  5. 如果请求成功且截至此刻未超过 4 个小时,您便可告知 Google 重新抓取已抓取的网页并尽可能将其重新编入索引,同时也可让 Google 视需要对已抓取网页所链接到的任意网页执行上述操作。

您每天的抓取操作限额为 10 次

抓取请求的抓取状态

主页面上抓取记录表格中会显示最近的 100 条抓取请求。要查看某条已完成的抓取请求的详情,请点击抓取记录表格中的相应行。系统可以显示以下请求抓取状态:

  • 已完成:Google 成功地与您的网站进行了通信并抓取了您的网页,并且可以获得该网页引用的所有资源。点击表格中的相应行可查看抓取结果的相关详情。
  • 部分完成:虽然 Google 收到了来自您网站的响应并抓取了相应网址,但由于该网页引用的所有资源均遭到 robots.txt 文件的屏蔽,因此 Google 无法访问这些资源。如果这只是抓取操作,请执行抓取并呈现操作。检查呈现的网页中是否有任何重要资源遭到屏蔽,进而导致 Google 无法正确分析该网页的含义。如果有重要资源遭到屏蔽,请使用 robots.txt 文件取消屏蔽归您所有的资源。如果遭到 robots.txt 文件屏蔽的资源不归您所有,请与相应资源的网站所有者联系,让他们取消屏蔽这些资源,以允许 Googlebot 抓取。查看资源抓取错误说明列表
  • 已重定向:服务器以重定向的形式做出了回复。“Google 抓取方式”工具不会跟踪重定向。虽然真正的 Google 抓取工具会跟踪重定向,但“Google 抓取方式”工具不会。您必须手动跟踪重定向:
    • 如果重定向目标位于同一媒体资源中,该工具将会显示一个按钮。点击该按钮后,抓取框中将填入相应的重定向,方便您快速跟踪重定向。
    • 如果网址重定向到您的其他媒体资源,您可以点击“跟踪”以自动填充网址框,然后复制所填入的网址、切换到新网站的视图,并将该网址粘帖到抓取框中。
    您可以查看抓取详情页上的 HTTP 响应,了解重定向详情。找到相应的 HTTP 错误代码以便了解详情。重定向可由服务器触发,也可由相应网页上的元标记或 JavaScript 触发。
  • 具体的错误类型… 任何资源类型抓取错误可能也适用于针对整个网页的抓取请求,并可能会显示在状态列中。例如:未找到无法访问

资源抓取错误

如果抓取请求状态为部分完成,请点击该请求以打开请求详情页。该页上的表格会列出遇到的所有错误。通常,这些错误是由网页上禁止抓取的资源所致。抓取请求中会出现以下资源错误:

资源抓取错误列表
状态 说明 备注和后续步骤

未找到

未找到相应资源(404 或 410 HTTP 响应代码)。

如果发生此错误,那么您在使用浏览器访问您的页面时可能会看到 HTTP 404 错误代码。

未经授权

Googlebot 无权访问相应页面(例如,该页面需要密码)。

如果发生此错误,那么您在使用网络浏览器访问您的页面时可能会看到 HTTP 403 错误代码。

在 DNS 中未找到

由于未找到域名,Google 无法提取相应资源。

请务必输入正确的域名(例如,www.example.com),这样 Google 才能找到您的网站服务器。

已被屏蔽

托管相应资源的主机通过 robots.txt 文件禁止 Googlebot 抓取相应资源。

如果有资源被屏蔽,可能会影响 Google 对网页的解读,以及网页在特定查询对应的搜索结果中的排名。被屏蔽的资源设有严重程度级别,用于估算该资源在确保 Google 正确解读相应网页方面的重要性:

  • :缺少的资源对网页呈现几乎没有影响。
  • :缺少的资源对网页呈现有一定的影响;检查抓取的网页,看看缺少的内容或与实际网页的差异是否足以影响 Google 对相应网页的解读。
  • :缺少的资源会显著影响网页的呈现,并且可能会改变 Google 将您的网页编入索引的方式。
  • --(双破折号):该错误不是因为有资源被屏蔽而导致的。

您可以通过更新 robots.txt 文件来更正此错误。如果您的资源地址位于根网域级别(例如,www.example.com 而非 www.example.com/my_site/),那么您可以使用 robots.txt 测试工具来诊断 Google 无法抓取相应网址的原因。

robots.txt 无法访问

Googlebot 无法访问资源主机的 robots.txt 文件。发生这种情况时,Google 会避免从该主机加载任何资源。

要解决此问题,请参阅帮助中心内的相关文章,了解如何创建和测试 robots.txt 文件

无法访问

资源主机的回应时间过长或拒绝了请求。

请检查您的服务器是否运行正常。

暂时无法访问

1) 由于服务器要过很长时间才能做出回复,因此“Google 抓取方式”工具暂时无法抓取您的网址。

2) Google 抓取方式取消了您的抓取操作,因为服务器连续收到太多不同网址的抓取请求。

请注意,并不是所有 Google 产品都不能访问该网址,只有 Google 抓取方式模拟工具无法访问该网址。

错误

导致 Google 无法完成抓取操作的不明错误。

如果再次遇到此错误,请在我们的网站站长帮助论坛中发布相关帖子。
本文是否对您有帮助?
您有什么改进建议?