抓取错误

“未找到”错误(404)

什么是“未找到”错误?

Google是通过跟踪网页间的链接来查找内容的。一般情况下,当Googlebot尝试访问不存在的网页(因为您删除或重命名了网页且没有将旧网址重定向到新网页,或者链接中存在拼写错误)时,就会出现“未找到”状态错误(通常是404 HTTP状态代码)。

处理“未找到”错误

一般来说,404错误不会影响您的网站在Google中的排名,因此您可以放心忽略这些错误。造成这些错误的原因通常是:拼写错误、配置不当(例如,对于由内容管理系统自动生成的链接)或Google加大了对JavaScript等嵌入内容中的链接识别和抓取的力度。以下是一些帮助您进行调查的提示:

  • 通过点击相应网址访问从这些网页链接部分,了解无效链接的来源。
  • 修正或删除来自您自己网站的链接。
  • 通过301重定向捕获拟关联到您的网站但存在拼写错误的链接所带来的流量。
    例如,将www.example.com/redshoes错拼成www.example.com/redshuz(这也是合乎情理的)可能只是因为有人在尝试链接到您的网站时犯了拼写错误。在这种情况下,您可以在服务器配置中捕获这个存在拼写错误的网址,然后创建301重定向以指向正确的网址。您也可以将错误链接告知相关网站的网站站长,要求其更新或移除该链接。

404网页在网络中是完全正常的(且在很多方面是必需的)组成部分。您可能永远无法控制指向您网站的所有链接,或解决网站站长工具中列出的所有404错误。因此,您应检查出最重要的问题,并尽可能地解决这些问题,然后就继续自己的工作吧。

何时返回404状态代码

当您从自己的网站上移除网页时,请考虑一下,相关内容是否移动到了其他位置,或者您是否计划不再向自己的网站添加此类内容。

  • 如果您将相关内容移动到新的网址,请将旧网址重定向到新网址。这样,如果用户访问旧网址查找该内容,系统就会自动将他们重定向到与所需内容相关的网址。
  • 如果您要永久移除内容,而不打算以相关的新内容替代,请让旧网址返回404或410。目前,Google对410(已删除)与404(未找到)的处理方式相同。

如果针对不存在的网页返回404或410以外的代码(或将用户重定向至首页等其他网页,而不是返回404),则可能会出现问题。此类网页被称为软404网页,可能会令用户和搜索引擎混乱。

意外的404错误

在“抓取错误”中,您有时可能会发现某些404错误针对的网址并非来源于您的网站或网络。这些意外网址可能是Googlebot尝试跟踪在JavaScript、Flash文件或其他嵌入式内容中发现的链接时生成的。

例如,您的网站可能会使用以下代码跟踪Google Analytics(分析)中下载的文件:

<a href="helloworld.pdf" onClick="_gaq.push(['_trackPageview','/download-helloworld']);">Hello World PDF</a>

如果Googlebot看到上述代码(以此为例),可能会尝试抓取网址http://www.example.com/download-helloworld,即使这并不是实际网页。在这种情况下,该链接就可能会在网站站长工具的“抓取错误”功能中显示为404(未找到)错误。

Google一直在努力检测这类问题并加以解决,以便在“抓取错误”中彻底杜绝此类错误。