抓取错误

“未找到”错误 (404)

什么是“未找到”错误?

Google是通过跟踪网页间的链接来查找内容的。一般情况下,当Googlebot尝试访问不存在的网页(因为您删除或重命名了网页且没有将旧网址重定向到新网页,或者链接中存在拼写错误)时,就会出现“未找到”状态错误(通常是404 HTTP状态代码)。

处理“未找到”错误

一般来说,404 错误不会影响您的网站在 Google 中的排名,因此您可以放心忽略这些错误。这些错误通常是由于以下原因导致的:拼写有误、配置有误(例如由内容管理系统自动生成的链接)或 Google 加强了识别和抓取 JavaScript 等嵌入式内容中的链接的力度。下面是一些帮助您进行调查的提示:

  • 通过点击相应网址访问从这些网页链接部分,了解无效链接的来源。
  • 修正或删除来自您自己网站的链接。
  • 通过 301 重定向捕获其他网站上拟关联到您的网站但存在拼写错误的链接所带来的流量。
    例如,当有人尝试关联到您的网站时,可能会因输入错误而将网址 www.example.com/redshoes 错拼成 www.example.com/redshuz。在这种情况下,您可以在服务器配置中捕获这个存在拼写错误的网址,然后创建 301 重定向以指向正确的网址。您也可以将错误链接告知相关网站的网站站长,要求其更新或移除该链接。

404 网页在网络中是完全正常的(且在很多方面是必需的)组成部分。您可能永远无法控制指向您网站的所有链接,或解决 Search Console 中列出的所有 404 错误。因此,您应检查出最重要的问题,并尽可能地解决这些问题,然后就继续自己的工作吧。

何时返回404状态代码

当您从自己的网站上移除网页时,请考虑一下,相关内容是否移动到了其他位置,或者您是否计划不再向自己的网站添加此类内容。

  • 如果您将相关内容移动到新的网址,请将旧网址重定向到新网址。这样,如果用户访问旧网址查找该内容,系统就会自动将他们重定向到与所需内容相关的网址。
  • 如果您要永久移除内容,而不打算以相关的新内容替代,请让旧网址返回 404 或 410。目前,Google对410(已删除)与404(未找到)的处理方式相同。

如果针对不存在的网页返回 404 或 410 以外的代码(或将用户重定向至首页等其他网页,而不是返回 404),则可能会出现问题。此类网页被称为软 404 网页,可能会令用户和搜索引擎混乱。

意外的404错误

在“抓取错误”中,您有时可能会发现某些 404 错误针对的网址并非来源于您的网站或网络。这些意外网址可能是Googlebot尝试跟踪在JavaScript、Flash文件或其他嵌入式内容中发现的链接时生成的。

例如,您的网站可能会使用以下代码跟踪 Google Analytics(分析)中下载的文件:

<a href="helloworld.pdf" onClick="_gaq.push(['_trackPageview','/download-helloworld']);">Hello World PDF</a>

例如,如果 Googlebot 看到上述代码,则可能会尝试抓取网址 http://www.example.com/download-helloworld,即使这不是实际网页也是如此。在这种情况下,该链接就可能会在 Search Console 的“抓取错误”功能中显示为 404(未找到)错误。

Google 一直在努力检测这类问题并加以解决,以便在“抓取错误”中彻底杜绝此类错误。

本文对您的帮助有多大:

反馈已记录。非常感谢!
  • 完全没用
  • 不是很有用
  • 勉强有用
  • 很有用
  • 非常有用