使用robots.txt阻止对网址的访问

了解 robots.txt 文件

什么是 robots.txt 文件?

robots.txt 文件规定了搜索引抓取工具可以/无法请求抓取您网站上的哪些网页或文件。此文件主要用于使您的网站避免收到过多请求;它并不是一种用于阻止 Google 访问某个网页的机制。 若想阻止 Google 访问某个网页,您应使用 noindex 标记/指令,或者使用密码来保护该网页。

robots.txt 的作用是什么?

robots.txt 主要用于管理流向您网站的抓取工具流量,并偶尔阻止 Google 访问某个网页(具体取决于文件类型):

网页类型 流量管理 不在 Google 中显示 说明
网页

对于网页(包括 HTML、PDF,或其他 Google 能够读取的非媒体格式),您可在以下情况下使用 robots.txt 管理抓取流量:您认为来自 Google 抓取工具的请求会导致您的服务器超负荷;或者,您不想让 Google 抓取您网站上的不重要网页或相似网页。

如果您不想让自己的网页显示在 Google 搜索结果中,请不要将 robots.txt 用作隐藏网页的方法。 这是因为,如果其他网页通过使用说明性文字指向您的网页,Google 便仍能在不访问该网页的情况下将其编入索引。如果您想从搜索结果中屏蔽自己的网页,请改用其他方法(例如使用密码保护或 noindex 指令)。

如果您使用 robots.txt 文件来屏蔽您的网页,相应网页仍可能会在搜索结果中显示,但相应的搜索结果条目不会包含网页说明,其外观会大致与此示例相似。而且,图片文件、视频文件、PDF 文件和其他非 HTML 文件都会被排除在外。如果您看到了这样一条与您网页对应的搜索结果并想修正它,请移除用于屏蔽该网页的 robots.txt 条目。如果您想从搜索结果中完全隐藏该网页,请改用其他方法

媒体文件

您可以使用 robots.txt 来管理抓取流量并阻止图片/视频/音频文件出现在 Google 搜索结果中。(请注意,这不会阻止其他网页或用户链接到您的图片/视频/音频文件。)

资源文件

您可以使用 robots.txt 来屏蔽诸如不重要的图片、脚本或样式文件之类的资源(如果您认为在加载网页时跳过此类资源不会对相应网页造成太大影响)。不过,如果缺少此类资源会导致 Google 抓取工具更难以解读相应网页,您就不应屏蔽此类资源,否则 Google 将无法很好地分析有赖于此类资源的网页。

我使用了网站托管服务

如果您使用了 WIX、Drupal 或 Blogger 等网站托管服务,则可能无需(或无法)直接修改 robots.txt 文件,但您的托管服务提供商可通过采用某项网页设置或某种其他机制来告知搜索引擎是否应抓取您的网页。

要查看您的网页是否已被 Google 抓取,请在 Google 中搜索该网页的网址。

如果您想隐藏(或取消隐藏)相应网页,则需要添加(或撤消)网页登录要求,并在 Google 中搜索相关说明以了解如何在您的网站主机上修改您网页在搜索引擎中的可见度,例如:使用 wix 将网页从搜索结果中隐藏

了解 robots.txt 的限制

在创建或修改 robots.txt 之前,您应了解这种网址屏蔽方法的限制。有时候,您可能需要考虑采用其他机制来确保搜索引擎无法在网络上找到您的网址。

  • Robots.txt 命令仅仅只是指令
    robots.txt 文件中的命令并不能强制抓取工具对您的网站采取具体的操作;对于访问您网站的抓取工具来说,这些命令仅作为指令。Googlebot 和其他正规的网页抓取工具都会遵循 robots.txt 文件中的命令,但其他抓取工具未必也会如此。因此,如果您想确保自己网站上的特定信息不会被网页抓取工具抓取,我们建议您采用其他屏蔽方法(如为您服务器上的隐私文件提供密码保护)。
  • 不同的抓取工具对语法的解析各不相同
    虽然正规的网页抓取工具会遵循 robots.txt 文件中的指令,但这些抓取工具可能会以不同的方式来解析这些指令。您应该好好了解一下适用于不同网页抓取工具的正确语法,因为有些抓取工具可能会无法理解某些命令。
  • 如果其他网站上有链接指向被 robots.txt 文件屏蔽的网页,则此网页仍可能会被编入索引
    尽管 Google 不会抓取被 robots.txt 屏蔽的内容或将其编入索引,但如果网络上的其他位置有链接指向被禁止访问的网址,我们仍可能会找到该网址并将其编入索引。因此,相关网址和其他公开显示的信息(如相关页面链接中的定位文字)仍可能会出现在 Google 搜索结果中。要想正确阻止您的网址出现在 Google 搜索结果中,您应为您服务器上的文件提供密码保护或者使用 noindex 元标记或响应标头(或者彻底移除相应网页)。
注意:结合使用多种抓取和索引编制指令可能会导致某些指令与其他指令冲突。请参阅 Google Developers 文档的“如何合并使用抓取指令与索引编制/内容显示指令”部分,了解如何正确配置这些指令。

测试网页以验证 robots.txt 的屏蔽效果

您可以测试某个网页或资源是否已被 robots.txt 规则禁止访问

要测试 noindex 指令的网页屏蔽效果,请使用网址检查工具

本文是否对您有帮助?
您有什么改进建议?