搜索
清除搜索查询
关闭搜索框
Google 应用
主菜单

“抓取错误”报告(网站)

针对网站的抓取错误报告会提供 Google 无法成功抓取的网址或返回 HTTP 错误代码的网址的详细信息。

打开“抓取错误”报告

 

在寻找针对应用的“抓取状态”报告

 

该报告包含两个主要部分:

  • 网站错误:报告的这一部分会显示在过去 90 天内导致 Googlebot 无法访问您的整个网站的主要问题(点击任意方框即可显示相应图表)。
     
  • URL 错误:这一部分会列出 Google 在尝试抓取特定的桌面版或手机版网页时遇到的具体错误。“网址错误”报告中的各个主要部分与 Google 用来访问网页的不同抓取机制相对应,其中列出的错误针对的是以下几种网页。

网站错误概览

如果网站运行状况良好,“抓取错误”报告的“网站错误”部分应该不会显示任何错误(我们抓取的绝大多数网站都是如此)。不管您的网站规模如何,只要 Google 检测到一定数量的网站错误,就会尝试通过邮件通知您。

在您首次查看“抓取错误”页时,“网站错误”部分会在以下三种错误类型旁边分别显示一个快速状态代码:DNS、服务器连接以及 robots.txt 抓取。如果代码不是绿色对勾,那么您可以点击相应的方框来查看过去 90 天内的抓取详情图。

错误率高

如果三种类别中有任何一种类别的错误率为 100%,则可能意味着您的网站已停止运行或某方面配置有误。导致这种现象的原因有很多,您可以通过以下方式进行调查:

  • 检查以确定网站重组没有更改网站某一部分的权限。
  • 如果您的网站经过重组,请检查以确定外部链接仍然有效。
  • 审查所有新脚本,确保这些脚本不会重复出错。
  • 确保所有目录都在,且未被意外移动或删除。
如果上述所有情况均不适用于您的网站,那么该错误率可能只是一个瞬时峰值,或是由外部原因(有人链接到不存在的网页)引起的,因此您的网站甚至可能没有问题。在任何情况下,当我们发现您的网站错误异常多时,就会向您发送通知,以便您能展开调查。

错误率低

如果您的网站在任何类别中显示的错误率小于 100%,那么可能表示这只是一种暂时情况,但也可能意味着您的网站超载或配置不当。您可能需要进一步调查这些问题,或者在我们的论坛中发帖提问。即使整体错误率非常低,我们也可能会向您发出提醒,因为根据我们的经验,配置良好的网站不应该存在这些类别的错误。

网站错误类型

该报告的网站部分会列出以下错误:

DNS 错误

什么是 DNS 错误?

DNS 错误是指由于 DNS 服务器停止运行或 DNS 到您网域的路由存在问题,导致 Googlebot 无法与 DNS 服务器通信。尽管大部分 DNS 警告或错误不会影响 Googlebot 对您网站的访问,但它们可能意味着延迟时间过长,而这可能会对您的用户带来负面影响。

修复 DNS 错误

  • 确保 Google 能够抓取您的网站
    对重要网页(例如您的首页)采用 Google 抓取方式。如果它能顺利返回首页内容,那么您就可以认为 Google 能够正常访问您的网站。
  • 对于持续的或反复出现的 DNS 错误,请与您的 DNS 提供商联系
    通常情况下,您的 DNS 提供商即为网站托管服务提供商。
  • 配置您的服务器,使其以 404 或 500 等 HTTP 错误代码对不存在的主机名作出响应
    您可以通过“通配符”DNS 设置来配置网站(例如 example.com),以便响应针对 foo.example.commade-up-name.example.com 以及任何其他子网域的请求。此类配置非常适合包含用户生成的内容且要为每个用户帐户分别提供专有域名 (http://username.example.com) 的网站。不过在某些情况下,此类配置可能会在不同的主机名间产生不必要的重复内容,并对 Googlebot 的抓取造成影响。

DNS 错误列表

错误类型 说明
DNS 超时

Google 未能访问您的网站,因为您的 DNS 服务器无法识别您的主机名(例如,www.example.com)。

您可以使用 Google 抓取方式检查 Googlebot 当前能否抓取您的网站。如果 Google 抓取方式可以顺利返回首页内容,那么您可以认为 Google 在一般情况下可以正常访问您的网站。

请与您的注册商联系,以确保您的网站设置正确且您的服务器已连接到互联网。

DNS 查找

Google 未能访问您的网站,因为您的 DNS 服务器无法识别您的主机名(例如,www.example.com)。

您可以使用 Google 抓取方式检查 Googlebot 当前能否抓取您的网站。如果 Google 抓取方式可以顺利返回首页内容,那么您可以认为 Google 在一般情况下可以正常访问您的网站。

请与您的注册商联系,以确保您的网站设置正确且您的服务器已连接到互联网。

服务器错误

什么是服务器错误?

如果您发现自己的网址出现此类错误,则说明 Googlebot 无法访问您的网址、请求超时或您的网站处于忙碌状态。因此,Googlebot 不得不放弃了请求。Google 无法访问您的网站,因为服务器响应速度太慢,或者您的网站已禁止 Google 访问。因此,Google 不得不放弃了请求。

修复服务器连接错误

  • 改善网页加载时间过长的动态网页请求
    一个网站针对多个网址提供相同的内容即被视为动态提供内容(例如,www.example.com/shoes.php?color=red&size=7www.example.com/shoes.php?size=7&color=red 提供的内容是相同的)。动态网页的响应时间太长,因此会导致超时问题。或者,服务器可能会返回超载状态,以要求 Googlebot 以更缓慢的速度抓取相应网站。一般来说,建议您尽量使用简短的参数,而且要谨慎使用。如果您非常了解参数会如何作用于您的网站,可以告知 Google 如何处理相关参数
  • 确保您网站的托管服务器没有停止运行、超载或配置不当。
    如果连接问题、超时问题或响应问题一再出现,请与您的网络托管服务商联系,并考虑提升您网站处理流量的能力。
  • 确认您没有在无意中禁止 Google 访问
    您可能会由于系统级问题而禁止 Google 访问,例如 DNS 配置问题、防火墙或 DoS 防御系统配置不当、内容管理系统配置问题。防御系统是保证托管服务正常运行的关键因素之一,并且这些系统通常会配置为自动禁止超量的服务器请求。然而,由于 Googlebot 发出的请求通常要比普通用户多,因此会触发这些防御系统,从而导致它们禁止 Googlebot 访问而无法抓取您的网站。要修复此类问题,请找到您网站上禁止 Googlebot 访问的相关基础架构部分,然后取消禁止。如果您没有控制防火墙的权限,就需要与您的托管服务提供商讨论此问题。
  • 审慎地控制搜索引擎对您网站的抓取和编入索引
    有些网站站长会刻意禁止 Googlebot 访问他们的网站(有可能会以上述方式使用防火墙)。在这些情况下,他们的目的通常不是彻底禁止 Googlebot,而是控制自己网站被抓取和编入索引的方式。如果您也属于这种情况,请参阅以下内容: 如果您想要更改 Googlebot 抓取您网站的频率,可以请求更改 Googlebot 的抓取速度。托管服务提供商也可以验证自己 IP 地址的所有权。

服务器连接错误

错误类型 说明
超时

服务器等待请求超时。

您可以使用 Google 抓取方式检查 Googlebot 当前能否抓取您的网站。如果 Google 抓取方式可以顺利返回首页内容,那么您可以认为 Google 在一般情况下可以正常访问您的网站。

您的服务器可能处于超载状态或者配置有误。如果此问题一再出现,请与您的托管服务提供商联系。

标头被截断

Google 可以连接到您的服务器,但该服务器未发送完所有标头就断开了此连接。请稍后再检查。

您可以使用 Google 抓取方式检查 Googlebot 当前能否抓取您的网站。如果 Google 抓取方式可以顺利返回首页内容,那么您可以认为 Google 在一般情况下可以正常访问您的网站。

您的服务器可能处于超载状态或者配置有误。如果此问题一再出现,请与您的托管服务提供商联系。

连接被重置

您的服务器已成功处理 Google 的请求,但没有返回任何内容,因为与该服务器之间的连接已重置。请稍后再检查。

您可以使用 Google 抓取方式检查 Googlebot 当前能否抓取您的网站。如果 Google 抓取方式可以顺利返回首页内容,那么您可以认为 Google 在一般情况下可以正常访问您的网站。

您的服务器可能处于超载状态或者配置有误。如果此问题一再出现,请与您的托管服务提供商联系。

响应被截断

您的服务器在我们收到完整响应前断开了此连接,而且响应正文好像遭到了截断。

您可以使用 Google 抓取方式检查 Googlebot 当前能否抓取您的网站。如果 Google 抓取方式可以顺利返回首页内容,那么您可以认为 Google 在一般情况下可以正常访问您的网站。

您的服务器可能处于超载状态或者配置有误。如果此问题一再出现,请与您的托管服务提供商联系。

连接被拒绝

Google 无法访问您的网站,因为您的服务器拒绝了此连接。您的托管服务提供商可能禁止了 Googlebot 访问,或者防火墙配置可能存在问题。

您可以使用 Google 抓取方式检查 Googlebot 当前能否抓取您的网站。如果 Google 抓取方式可以顺利返回首页内容,那么您可以认为 Google 在一般情况下可以正常访问您的网站。

您的服务器可能处于超载状态或者配置有误。如果此问题一再出现,请与您的托管服务提供商联系。

连接失败

Google 无法连接到您的服务器,因为该网络无法访问或已停用。

您的服务器可能处于超载状态或者配置有误。如果此问题一再出现,请与您的托管服务提供商联系。

您可以使用 Google 抓取方式检查 Googlebot 当前能否抓取您的网站。如果 Google 抓取方式可以顺利返回首页内容,那么您可以认为 Google 在一般情况下可以正常访问您的网站。

连接超时

Google 无法连接到您的服务器。

您可以使用 Google 抓取方式检查 Googlebot 当前能否抓取您的网站。如果 Google 抓取方式在返回您首页的内容时不会遇到任何问题,那么您可以认为 Googlebot 在一般情况下可以正常访问您的网站。

请检查您的服务器是否已连接到互联网。您的服务器也可能处于超载状态或者配置有误。如果此问题仍然存在,请与托管服务提供商联系。

无响应

Google 可以连接到您的服务器,但该服务器尚未发送任何数据就断开了此连接。

您可以使用 Google 抓取方式检查 Googlebot 当前能否抓取您的网站。如果 Google 抓取方式在返回您首页的内容时不会遇到任何问题,那么您可以认为 Googlebot 在一般情况下可以正常访问您的网站。

您的服务器可能处于过载状态或者配置有误。如果此问题仍然存在,请与托管服务提供商联系。

漫游器故障

什么是漫游器故障?

漫游器故障是指在检索网站的 robots.txt 文件时发生错误。在 Googlebot 抓取您的网站之前,Googlebot 会检索您的 robots.txt 文件;在抓取完成后,Googlebot 也会大概每天检索一次此文件;目的是为了确认不应抓取的网页。如果您的 robots.txt 文件存在但无法访问(换言之,如果此文件没有返回 200 或 404 HTTP 状态代码),我们将延迟抓取,而不会冒险抓取您不希望被抓取的网址。如果出现这种情况,Googlebot 会在可以成功访问您的 robots.txt 文件时立即返回您的网站并进行抓取。详细了解漫游器排除协议。

修复 robots.txt 文件错误

  • 您并不总是需要 robots.txt 文件
    只有当您的网站中包含您不想让搜索引擎编入索引的内容时,您才需要使用 robots.txt 文件。如果您希望搜索引擎将网站上的所有内容都编入索引,则不需要 robots.txt 文件(甚至连空的 robots.txt 文件也不需要)。如果您没有 robots.txt 文件,那么您的服务器会在 Googlebot 请求访问该文件时返回 404 状态代码,然后我们就会继续抓取您的网站。这样不会出现任何问题。
  • 确保您的 robots.txt 文件能被 Google 访问。
    在我们尝试检索您的 robots.txt 文件时,您的服务器可能返回了 5xx(无法访问)错误。请确认您的托管服务提供商没有禁止 Googlebot 访问。如果您有防火墙,请确保防火墙的配置没有禁止 Google 访问。

网址错误概览

该报告的“网址错误”部分划分为几个不同的类别,并针对各个类别分别显示了前 1000 个网址错误。虽然您无需关注此部分列出的所有错误,但通过监控此部分来发现会对您的用户和 Google 抓取工具造成负面影响的错误仍然十分重要。我们根据众多因素(例如错误数量和引荐相关网址的网页数量),并按照重要程度从高到低的顺序对问题进行了排序,让您能够更轻松地发现会产生负面影响的错误。具体来说,您需要考虑以下内容:

  • 使用 301 重定向为重要网址修复“未找到”错误。虽然“未找到”(404) 错误很常见,但您仍需为以下网页和网址修复这类错误:其他网站链接到的重要网页、站点地图中已删除的原有旧版网址、拼写错误的重要网页网址或网站上已不存在的热门网页网址。这样,Google 和您网站的访问者就可以轻松访问您重视的信息。
  • 更新站点地图。从站点地图中删除旧网址;如果要添加新的站点地图来替换旧地图,请务必删除旧站点地图(而不是重定向到新站点地图)。
  • 让重定向保持短小精炼。如果您的多个网址按照一定顺序进行重定向(如网页 A > 网页 B > 网页 C > 网页 D),Googlebot 可能难以跟踪和解读相应的顺序。请尽量减少“跳转”次数。详细了解“无法连上”错误

查看网址错误详细信息

您可以通过不同方式查看网址错误:

  • 点击下载即可获取相应抓取工具类型(例如“桌面”、“智能手机”)对应的前 1000 个错误的列表。
  • 使用表格上方的过滤器找到具体网址。
  • 点击各个网址或应用 URI 的链接,即可查看错误详细信息
桌面版或手机版网址错误详细信息中会显示关于相应错误的状态信息、引荐相应网址的网页列表,以及指向 Google 抓取方式的链接(供您排查网址问题)。

将网址错误标记为已修复

如果您已解决了造成某一项错误的问题,就可以从列表中隐藏该项。您可以单独隐藏,也可以批量隐藏。选中相应网址旁的复选框,然后点击标记为已修复。该网址便会从列表中移除。

如果问题仍未解决,那么即使您将其标记为已修复,在 Google 下次抓取您的网站时,该网址仍会再次显示在列表中。

网址错误类型

常见的网址错误
错误类型 说明
服务器错误

如果您发现自己的网址出现此类错误,则说明 Googlebot 无法访问您的网址、请求超时或您的网站处于忙碌状态。因此,Googlebot 不得不放弃了请求。

详细了解服务器连接错误

软 404

通常情况下,当访问者请求访问您网站上不存在的网页时,网络服务器便会返回 404(未找到)错误。此 HTTP 响应代码会明确告知浏览器和搜索引擎:该网页不存在。因此,搜索引擎既不会抓取该网页的内容(如果有),也不会将其编入索引。

如果服务器为您网站上其实并不存在的某个网址返回了实际网页,就会出现软 404 错误。出现这种情况的原因通常是,您的服务器将有故障或不存在的网址处理为“正常”,并将用户重定向到了首页或“自定义的”404 网页等有效网页。

这之所以是个问题,是因为搜索引擎可能会花费大量时间来抓取您网站上不存在的、经常重复的网址并将其编入索引。这可能会对您网站的抓取范围造成负面影响:由于在不存在的网页上花费了时间,Googlebot 可能无法那么快找出实际的唯一网址,或者对这些网址的访问频率可能会下降。

建议您将服务器配置为始终对访问不存在网页的请求返回 404(未找到)或 410(已删除)响应代码。您可以将网站设置为在返回 404 响应代码时显示自定义 404 网页,从而改善访问者的体验。例如,您可以创建包含以下内容的网页:您网站上最热门网页的列表、指向您网站首页的链接或用于提供反馈的链接。但请务必注意,仅创建显示 404 消息的网页是不够的,您还需要返回正确的 404 或 410 HTTP 响应代码。

404

Google 是通过跟踪网页间的链接来查找内容的。一般情况下,当 Googlebot 尝试访问不存在的网页(因为您删除或重命名了网页且没有将旧网址重定向到新网页,或者链接中存在拼写错误)时,系统会返回“未找到”状态错误(通常是 404 HTTP 状态代码)。

处理“未找到”错误

一般来说,404 错误不会影响您的网站在 Google 中的排名,因此您可以放心忽略这些错误。这些错误通常是由于以下原因导致的:拼写有误、配置有误(例如由内容管理系统自动生成的链接)或 Google 加强了识别和抓取 JavaScript 等嵌入内容中的链接的力度。以下几点有助于您展开调查:

  • 通过点击相应网址访问链接自以下网页部分,了解无效链接的来源。
  • 修正或删除来自您自己网站的链接。
  • 通过 301 重定向捕获其他网站上拟关联到您的网站但存在拼写错误的链接所带来的流量。
    例如,当有人尝试关联到您的网站时,可能会因输入错误而将合法网址 www.example.com/redshoes 错拼成 www.example.com/redshuz。在这种情况下,您可以在服务器配置中获取这个存在拼写错误的网址,然后创建 301 重定向以指向正确的网址。您还可以将错误链接告知相应网站的网站站长,并要求其更新或移除该链接。

404 网页在网络中是完全正常的(且在很多方面是必需的)组成部分。您可能永远无法控制指向您网站的所有链接,或解决 Search Console 中列出的所有 404 错误。因此,您应检查出最重要的问题,并尽可能地解决这些问题,然后继续自己的工作。

何时返回 404 状态代码

当您从自己的网站上移除网页时,请考虑一下,您是要将相关内容移到别处,还是要从您的网站上永久地移除此类内容。

  • 如果您要将相关内容移到新网址,请将旧网址重定向到新网址。这样一来,如果用户访问旧网址查找该内容,系统就会自动将他们重定向到与所需内容相关的网址。
  • 如果您要永久地移除此类内容,而不打算以相关的新内容取而代之,请让旧网址返回 404 或 410。目前,Google 对 410(已删除)与 404(未找到)的处理方式相同。

如果针对不存在的网页返回 404 或 410 以外的代码(或将用户重定向至首页等其他网页,而不是返回 404),则可能会出现问题。此类网页被称为软 404 网页,可能会令用户和搜索引擎混乱。

意外的 404 错误

在“抓取错误”中,您有时可能会发现某些 404 错误针对的网址并非来源于您的网站或网络。这些意外网址可能是 Googlebot 尝试跟踪在 JavaScript、Flash 文件或其他嵌入式内容中发现的链接时生成的。

例如,您的网站可能会使用以下代码跟踪 Google Analytics(分析)中下载的文件:

<a href="helloworld.pdf"
  onClick="_gaq.push(['_trackPageview','/download-helloworld']);">
  Hello World PDF</a>

如果 Googlebot 看到上述代码(以此为例),它便可能会尝试抓取网址 http://www.example.com/download-helloworld,即使这并不是一个实际网页。在这种情况下,该链接就可能会在 Search Console 的“抓取错误”功能中显示为 404(未找到)错误。

Google 一直在努力检测并解决此类问题,以使它们不再显示在“抓取错误”功能中。

访问被拒绝

一般情况下,Google 会通过跟踪网页间的链接来查找内容。Googlebot 必须能够访问相应网页才能抓取它。如果您意外地看到了“访问被拒绝”错误,则可能是由于以下几种原因导致的:

  • Googlebot 无法访问您网站上的相关网址,因为您的网站要求用户必须先登录然后才能查看您的全部或部分内容。
  • 您的 robots.txt 文件禁止 Google 访问您的整个网站或个别网址/目录。
  • 您的服务器要求用户使用代理进行身份验证,或者您的托管服务提供商可能禁止 Google 访问您的网站。

要修正该错误,请参考以下建议:

  • 测试以确保您的 robots.txt 运行正常且没有禁止 Google 进行访问。测试 robots.txt 工具可让您了解 Googlebot 究竟会如何解析您 robots.txt 文件的内容。Google 用户代理为 Googlebot。
  • 使用 Google 抓取方式了解您的网站究竟会以何种样貌显示给 Googlebot。对网站内容或网站在搜索结果中的出现率进行问题排查时,此工具非常有用。
无法连上

“无法连上”错误中列出了 Google 无法完全跟踪的网址以及相关原因等信息。下面介绍了导致 Googlebot 无法跟踪您网站上的网址的部分原因:

Flash、JavaScript、动态内容

某些功能(例如 JavaScript、Cookie、会话 ID、框架、DHTML 或 Flash)可能会导致搜索引擎无法轻松地抓取您的网站。请检查以下各项:

  • 使用 Lynx文本浏览器检查您的网站,因为很多搜索引擎和 Lynx 查看网站的方式类似。如果 JavaScript、Cookie、会话 ID、框架、DHTML 或 Flash 等功能导致您无法在文本浏览器中查看整个网站,那么搜索引擎“蜘蛛”程序就可能在抓取您的网站时遇到问题。
  • 使用 Google 抓取方式了解 Google 究竟是以什么方式查看您网站的。
  • 如果您使用了动态网页(例如,网址中包含 ? 字符),请注意并非所有搜索引擎蜘蛛程序都能抓取动态和静态网页。一般来说,我们建议您尽量使用简短的参数,而且要谨慎使用。如果您非常了解参数对您网站的作用,则可告知 Google 应如何处理相关参数

重定向

  • 如果您将一个网页永久重定向到另一个网页,请确保返回正确的 HTTP 状态代码(301 永久转移)。
  • 尽可能使用绝对链接,而不是相对链接(例如,当链接到您网站上的另一个网页时,需链接到 www.example.com/mypage.html,而不是仅链接到 mypage.html)。
  • 尽力确保您网站上的每个网页都至少可通过 1 个静态文本链接访问。一般来说,请尽量减少在网页之间跟踪链接所需的重定向数量。
  • 确保您的重定向指向正确的网页!有时,我们会发现指向自身(导致循环错误)或无效网址的重定向。
  • 不要在您的站点地图中加入重定向的网址。
  • 尽可能使用简短的网址。请确保您没有自动向重定向网址附加信息(如会话 ID)。
  • 确保搜索漫游器在抓取您的网站时不会抓取会话 ID 或那些用于跟踪漫游器的网站访问路径的参数。
DNS 错误

如果您发现网址出现此错误,则意味着 Googlebot 无法与 DNS 服务器通信,或者该服务器中没有与您网站对应的条目。

详细了解 DNS 错误

仅在移动设备上出现的网址错误(智能手机)
错误 说明
错误的重定向

如果发现错误的重定向,系统会将此错误显示在抓取 > 抓取错误页面中智能手机标签下的网址错误部分。

有些网站使用不同的网址为桌面设备用户和智能手机用户提供服务,并会对桌面版网页进行配置,以将智能手机用户定向到移动版网站(例如 m.example.com)。当桌面版网页错误地将智能手机用户重定向到与查询无关的智能手机版网页时,即发生了错误的重定向。一种常见的情况是:无论智能手机用户访问哪个桌面版网页,都被重定向到已针对智能手机优化的网站的首页。在下图中,以红色箭头显示的重定向为错误的重定向:


这种重定向会打断用户的工作流程,并可能会导致他们放弃使用相应网站而改用其他网站。因此,当我们的系统检测到智能手机搜索结果重定向到首页而非相关网址时,会在搜索结果中显示以下提示:

可能会打开网站的首页。

通过点击仍然尝试,用户仍可以访问相应链接。不过,即使用户坚持访问相应链接,并且在已针对智能手机优化的网站上找到了正确的网页,无关的重定向仍会使他们在网速较慢的移动网络上找到您的网页变得更加困难。除了让用户感到失望之外,错误的重定向还可能会导致我们的抓取、索引和排名算法出现问题。

以下提示有助于您打造适合移动设备的搜索体验并避免错误的重定向:

  • 在您的手机上进行一些搜索(或将您的浏览器设为模拟智能手机的行为方式),以了解自己网站的行为方式。
  • 从报告中提供的示例网址着手,准确修正服务器配置中存在问题的地方。
  • 设置服务器,让其将智能手机用户重定向到智能手机版网站上的对应网址。
  • 如果您网站上的某个网页没有对应的智能手机版网页,请让用户停留在该桌面版网页上,而不是将用户重定向到智能手机版网站的首页。在这种情况下,不进行任何重定向总比重定向到无关网页要好。
  • 考虑使用自适应网页设计,为桌面设备用户和智能手机用户提供相同的内容。
  • 最后,请阅读我们提供的建议,了解如何针对桌面设备用户和智能手机用户使用不同的网址
禁止智能手机访问的网址

如果发现“已阻止”错误,系统会在抓取 > 抓取错误页面中“网址错误”部分的“智能手机”标签上显示此错误。如果您网站的网址导致了“已阻止”错误,则意味着您网站的 robots.txt 文件禁止了 Google 的智能手机专用 Googlebot 访问该网址。

这未必是智能手机特有的错误(例如,相应的桌面版网页可能也会被禁止访问)。然而,此错误往往表示您需要修改 robots.txt 文件,以允许系统抓取支持智能手机的网址。如果系统屏蔽了支持智能手机的网址,则无法抓取移动版网页,因此移动版网页可能不会显示在搜索结果中。

如果您网站上的网址出现了“已阻止”智能手机抓取错误,请检查您网站的 robots.txt 文件,确保您未在无意间禁止 Googlebot 为智能手机抓取您网站的某些内容。

要了解详情,请参阅我们的建议

Flash 内容

Flash 内容错误会显示在抓取 > 抓取错误页面上智能手机标签下的网址错误部分中。

我们的算法会在此部分中列出那些以 Flash 格式呈现大部分内容的网址。这样的网页在很多设备上都无法呈现,因为 iOS 或 Android 4.1 及更高版本不支持 Flash。另外,对于这样的网址,使用上述操作系统的用户会在 Google 搜索结果中看到如下提示:

使用了 Flash。在您的设备上可能无法正常显示。

我们建议您为自己的网站采用自适应设计,从而提升移动用户访问您网站的体验。自适应设计是 Google 在积极推广的做法,让您能够构建适合通过各种设备进行搜索的网站。有关这方面的详细信息,请参阅网页基础(有关针对多种设备制作网页的全面参考资料)。

无论您采取哪种方法来解决此问题,都一定要确保 Googlebot 能够访问您网站的所有资源(CSS、JavaScript 和图片),不要使用 robots.txt 或其他方式拦截它们。我们的算法需要使用这些外部文件来检测您网站的设计配置并进行相应的处理。您可以使用 Search Console 中的 Google 抓取方式功能来确保我们的索引编制算法能够访问您的网站。

仅在 Google 新闻中出现的错误

 

要查看专门针对 Google 新闻的错误报告,新闻发布商需要让 Google 新闻收录他们的网站,已创建 Search Console 帐户,并已将其网站添加到该帐户。完成这些步骤以后,请在 Search Console 中执行以下步骤:

  • 首页上,点击相应网站的网址。
  • 信息中心中,点击抓取 > 抓取错误
  • 点击新闻标签以查看针对您新闻内容的抓取错误。
  • 系统会将抓取错误分为多个类别,例如“报道提取”或“标题错误”。点击其中的某个类别,将显示受影响的网址及其生成的抓取错误的列表。
请注意,我们的新闻索引是使用计算机算法编制的。虽然我们力争尽量多收录您的内容,但是无法保证收录每一篇报道。非常感谢您的理解。
错误 说明
报道简短得不合理

与该 HTML 网页上没有链接的其他文本段相比,我们从网页中提取的报道正文过短。这种情况通常发生在包含新闻摘要或多媒体内容的网页(而不是纯新闻报道的网页)上。我们生成此错误是为了避免收录可能不正确的文本段。

建议

此问题通常由以下几种原因导致:

  • 相关报道的摘要过多 - 为便于我们的提取器工作,请考虑将这些摘要设置为可点击。
  • “将该报道发送给朋友”等功能的说明过长 - 您可以考虑设置“display:none”或“visibility:hidden”样式以隐藏文本,也可以使用 JavasScript 动态编写 HTML 代码段。
  • 用户评论 - 您可以考虑将评论放入 iframe 中、使用 AJAX 动态抓取评论或将评论移至相邻网页中。
不完整的报道

我们从该 HTML 网页中提取的报道正文似乎包含不成段落的孤立句子。我们生成此错误是为了避免收录可能不正确的文本段。

建议

  • 检查以确定您的每个段落都包含多个句子。
  • 确保句中的标点正确无误。
  • 请勿在段落中频繁使用 <br> 和 <p> 标记,并且尽量避免在总体上拆分报道正文。
  • 考虑移除报道网页上部分不属于相应报道的文本。
报道过于冗长

我们从该 HTML 网页中提取的报道正文作为新闻报道来说似乎过于冗长。我们生成此错误是为了避免收录可能不正确的文本段。造成此问题的常见原因包括:新闻报道下方带有用户提供的评论,或HTML布局中包含除新闻报道外的其他资料。

建议

考虑移除报道网页上的部分非报道文本。如果报道网页中包含用户评论,请考虑采用下列方法:

  • 将评论放入 iframe 中。
  • 使用 AJAX 动态抓取评论。
  • 将部分评论移至相邻网页中。
报道过于简短

我们从该 HTML 网页中提取的报道正文作为新闻报道来说包含的文字似乎过少。这种情况通常发生在包含新闻摘要或多媒体内容的网页(而不是纯新闻报道的网页)上。我们生成此错误是为了避免收录可能不正确的文本段。

建议

  • 尝试对您的报道进行格式调整,将其组合成一些分别包含几句话的文本段落。如果报道内容因包含的文字过少而不能作为新闻报道,那么我们就无法收录该内容。
  • 确保报道超过 80 字。
找不到日期

我们无法确定报道的发布日期。

建议

请按以下日期格式建议操作:

  • 在每篇报道的标题和正文之间单独添加一行 HTML 标记,并指明日期和时间,其中日期应为相应报道首次发布的日期。
  • 移除报道网页HTML标记中的其他所有日期,以免抓取工具将这些日期误认为正确的发布时间。
  • 如果您要使用日期元标记,请先与我们联系。日期元标记应采用以下格式:<meta name="DC.date.issued" content="YYYY-MM-DD">,其中日期采用 W3C 格式,即使用“完整日期” (YYYY-MM-DD) 格式或者带有时区后缀的“完整日期加时、分、秒”(YYYY-MM-DDThh:mm:ssTZD) 格式。
  • 创建 Google 新闻站点地图。<publication_date> 标记可确保我们能为您的报道选择正确的日期。
日期过早

无论是通过站点地图中的 <publication_date> 标记,还是通过网页 HTML 标记本身包含的日期进行判断,该报道的发布日期都太早了。

建议

  • 确保报道的发布日期不早于 2 天前。目前,我们只收集发布时间不超过 2 天的报道。
  • 请按上文中的日期格式建议操作。
空白的报道

我们从该 HTML 网页中提取的报道正文似乎是空的。

建议

  • 确保报道网页的源代码中提供了每篇报道的全文(例如,没有文本内嵌在 JavaScript 文件或 iframe 中)。
  • 请勿在报道的源代码中使用“display:none”或“visibility:hidden”等样式。
  • 确保报道链接直接指向相应报道网页,而不是指向使用 JavaScript 重定向的中间网页。
提取失败

我们无法从该网页中提取报道。如果我们无法识别报道的有效标题、正文和时间戳,那么提取就会失败。我们列出存在此错误的网址,是为了让您了解某些报道没有出现在 Google 新闻中的原因。

建议

  • 确保标题、正文和时间戳均易于抓取(例如,以文字形式提供而不是图片形式),但目前此错误主要用于提供参考。我们正积极努力地改进提取方法,以降低此错误的出现频率。
  • 提交 Google 新闻站点地图
找不到句子

我们从该 HTML 网页中提取的报道正文中似乎没有带标点且由连续字词构成的句子。我们生成此错误是为了避免收录可能不正确的文本部分。

建议

  • 如果报道内容中没有带标点且由连续字词构成的句子,那么我们就无法将该内容收录到 Google 新闻中。确保报道文本由句子组成,并且请勿在段落内频繁使用 <br> 或 <p> 标记。
  • 确保报道网页的源代码中提供了每篇报道的全文(例如,没有文本内嵌在 JavaScript 文件中)。
  • 确保报道链接直接指向相应报道网页,而不是指向使用 JavaScript 重定向的中间网页。
离站重定向

版块或报道网页会重定向到其他网域中的网址。

建议

  • 所有栏目网页和报道都必须位于 Google 新闻所收录的网站的网域内。
  • 如果您没有使用离站重定向功能,请确保您的网站未遭到第三方的修改。详细了解被黑客入侵的网站。
页面过大

版块或报道网页的长度超过了允许的上限。

建议

  • HTML 源网页的大小不得超过 256KB。
不允许使用的标题

我们从该 HTML 网页中提取的标题表明这不是一篇新闻报道。

建议

  • 通常,在 HTML 页面上将 <title> 标记设为报道标题,然后在 HTML 页面的显著位置重复该标题(如在 <h1> 标记中)即可解决此问题。详细了解标题。
找不到标题

我们无法从该 HTML 网页中提取报道标题。

建议

  • 请按我们的标题格式建议操作。
  • 要确保报道能在移动设备上正确显示,请勿在标题的定位文字中包含前导编号(有时此编号对应访问键)。
解压缩失败

Googlebot-News 检测到该网页已经过压缩,但无法将其解压缩。有可能是因为网络状况不佳或者网络服务器的编程或配置不当。

建议

  • 请检查您的网络/网络服务器。
内容类型不受支持

该网页中包含 Google 新闻不支持的 HTTP 内容类型。

建议

  • 报道所含内容的类型必须为 text/html、text/plain 或 application/xhtml+xml。
本文是否对您有帮助?