robots.txt 报告会显示 Google 为您网站上排名前 20 的主机找到了哪些 robots.txt 文件、上次抓取这些文件的时间,以及遇到的任何警告或错误。借助此报告,您还可以在紧急情况下请求 Google 重新抓取 robots.txt 文件。
此报告仅适用于网域级别的资源,即:
- 网域资源(例如 example.com 或 m.example.com),或
- 不含路径的网址前缀资源,例如 https://example.com/,但不能是 https://example.com/path/。
查看 robots.txt 文件和抓取状态
如果是网域资源,报告会包含相应资源中排名前 20 的主机中的 robots.txt 文件。
对于 Search Console 已检查的每个 robots.txt 文件,您都可以查看以下信息:
- 文件路径 - Google 利用这个完整网址检查是否存在 robots.txt 文件。网址只有在过去 30 天内曾处于“已提取”或“未提取”状态,才会显示在报告中。请参阅 robots.txt 文件的位置。
- 提取状态 - 针对此文件发出的最新提取请求的状态。可能的值如下所示:
- 未提取 - 未找到 (404):请求此文件时发生 404 错误(文件不存在)。如果您已在所列网址上发布了 robots.txt 文件,但看到此错误,请尝试检查相应网址是否存在任何可访问性问题。如果文件处于未找到 (404) 状态的时间持续 30 天,就不会再显示在报告中(但 Google 会继续在后台检查相应文件)。没有 robots.txt 错误是好事,这意味着 Google 可以抓取您网站上的所有网址。不过,您可以参阅存在 robots.txt 错误时 Google 的行为方式,了解完整详情。
- 未提取 - 任何其他原因:请求此文件时发生了一些其他问题。请参阅编入索引问题列表。
- 已提取:上次尝试抓取时,成功返回了 robots.txt 文件。解析文件时发现的所有问题都会列在问题列中。Google 会忽略存在问题的行,并使用它能够解析的行。
- 检查时间 - Google 上次尝试抓取此网址的时间(当地时间)。
- 大小 - 提取的文件的大小(以字节为单位)。如果上次尝试提取时失败,此处将不会显示任何内容。
- 问题数 - 该表显示上次提取文件内容时,发生的解析问题的数量。错误会导致规则无法使用,警告则不会。不妨了解一下存在 robots.txt 错误时 Google 的行为。若要解决解析问题,请使用 robots.txt 验证工具。
查看上次提取的版本
若要查看上次提取的 robots.txt 文件的版本,您可以在报告的文件列表内点击相应文件。如果 robots.txt 文件存在任何错误或警告,系统会在显示的文件内容中突出显示它们。您可以使用方向键循环浏览错误和警告。
查看之前提取的版本
若要查看过去 30 天内针对指定 robots.txt 文件的提取请求,请在报告的文件列表内点击相应文件,然后点击版本。若要查看相应版本的文件内容,请点击相应版本。仅当检索到的文件或提取结果与上一个文件提取请求检索到的文件或提取结果不同时,相应请求才会包含在历史记录中。
如果 Google 在最近一次尝试提取时发生提取错误,Google 会在最多 30 天内使用上次成功提取的无错误版本。
请求重新抓取
在更正错误或进行重大更改后,您可以请求重新抓取 robots.txt 文件。
何时请求重新抓取
您通常不需要请求重新抓取 robots.txt 文件,因为 Google 会频繁地重新抓取此类文件。不过,在以下情况下,您可能希望请求重新抓取 robots.txt 文件:
- 您更改了 robots.txt 规则以取消屏蔽一些重要网址,并希望尽快告知 Google(请注意,这并不能保证 Google 会立即重新抓取已取消屏蔽的网址)。
- 您更正了提取错误或其他严重错误。
如何请求重新抓取
若要请求重新抓取,请在 robots 文件列表中选择相应文件旁边的“更多设置”图标 ,然后点击请求重新抓取。
网站托管服务上的网站
如果您的网站由网站托管服务商托管,修改 robots.txt 文件可能并不容易。在这种情况下,请参阅网站托管商的文档,了解如何阻止 Google 抓取特定网页或将特定网页编入索引。(请注意,大多数用户关心的是如何阻止文件显示在 Google 搜索中,而不是阻止 Google 抓取文件。如果您属于这种情况,请在托管服务商处搜索有关阻止网页显示在搜索引擎中的信息。)
如果 Google 无法提取或无法读取您的 robots.txt 文件,会怎样
如果未找到某个网域或子网域的 robots.txt 文件,Google 会假定可以抓取相应主机内的任何网址。
如果 Google 找到了 robots.txt 文件,但无法提取该文件,则会遵循以下行为方式:
- 在前 12 小时内,Google 会停止抓取相应网站,但会继续尝试提取 robots.txt 文件。
- 如果 Google 无法提取新版本,那么在接下来的 30 天内,Google 将使用上一个正常版本,同时仍会尝试提取新版本。您可以在版本记录中查看上一个正常版本。
- 如果在 30 天后错误仍未更正:
- 如果 Google 能够全面抓取相应网站,则会遵循没有 robots.txt 文件时的行为方式,但仍会继续检查是否有新版本。
- 如果 Google 无法全面抓取相应网站,则会停止抓取该网站,但仍会定期请求 robots.txt 文件。
如果 Google 找到并且能够提取 robots.txt 文件:Google 会逐行读取文件。如果某行存在错误或无法解析为 robots.txt 规则,Google 会跳过该行。如果文件中没有有效行,Google 会将文件视为空的 robots.txt 文件,这意味着没有为相应网站声明任何规则。
robots.txt 文件的位置
术语:
- 协议(也称为“架构”)是指 HTTP 或 HTTPS。
- 主机是指网址中从协议(http:// 或 https://)之后一直到路径的所有内容。因此,主机 m.de.example.com 暗示 3 个可能的主机:m.de.example.com、de.example.com 和 example.com;其中每个主机都可以有自己的 robots.txt 文件。
- 来源是指协议 + 主机。例如:https://example.com/ 或 https://m.example.co.es/
根据 RFC 9309,robots.txt 文件必须位于网站的每个协议和主机组合的根位置。
- Search Console 会选择排名前 20 的主机(按抓取速度排序)。对于每个网域,报告最多可以显示 2 个来源,这意味着表格最多可以显示 40 行。如果您找不到某个主机的 robots.txt 网址,可以为缺少的子网域创建网域资源。
- 对于每个主机,Search Console 会检查以下两个网址:
- http://<主机>/robots.txt
- https://<主机>/robots.txt
- 如果所请求网址上的 robots.txt 文件连续 30 天被报告为未找到,Search Console 将不会在此报告中显示该网址,但 Google 会继续在后台检查该网址。对于任何其他结果,报告会显示已检查该网址。
对于主机层级的网址前缀资源(例如 https://example.com/),Search Console 仅会检查相应资源的单个来源。也就是说:对于资源 https://example.com,Search Console 只会检查 https://example.com/robots.txt,而不会检查 http://example.com/robots.txt 或 https://m.example.com/robots.txt。
常见任务
查看 robots.txt 文件
若要打开此报告中所列的某个 robots.txt 文件,请在 robots.txt 文件列表中点击该文件。若要在浏览器中打开该文件,请点击打开当前使用的 robots.txt 文件。
您可以在浏览器中打开网站上的任何 robots.txt 文件。请参阅下文,了解要访问哪个网址。
robots.txt 文件位于协议和域名的根目录下。若要确定网址,请删去文件网址中主机和可选端口之后的所有内容,然后添加“/robots.txt”。您可以在浏览器中访问 robots.txt 文件(如果有)。子网域或父网域不会沿用 robots.txt 文件,而且指定网页只能受一个 robots.txt 文件影响。一些示例:
文件网址 | 可能会影响相应文件的 robots.txt 的网址 |
---|---|
http://example.com/home | http://example.com/robots.txt |
https://m.de.example.com/some/page/here/mypage | https://m.de.example.com/robots.txt |
https://example.com?pageid=234#myanchor | https://example.com/robots.txt |
https://images.example.com/flowers/daffodil.png | https://images.example.com/robots.txt |
查看哪个 robots.txt 文件会影响某个网页或图片
若要查找影响某个网页或图片的 robots.txt 文件的网址,请执行以下操作:
- 找到相应网页或图片的确切网址。对于图片,请在 Google Chrome 浏览器中点击右键,然后选择复制图片网址。
- 移除网址中顶级域名(例如 .com、.org、.co.il)之后的内容,并在末尾添加 /robots.txt。因此,https://images.example.com/flowers/daffodil.png 的 robots.txt 文件是 https://images.example.com/robots.txt
- 在浏览器中打开该网址,确认该网址是否存在。如果您的浏览器无法打开文件,则表明文件不存在。
测试 Google 是否已被 robots.txt 屏蔽
- 如果您想测试特定网址是否被 robots.txt 文件屏蔽,可以通过网址检查工具检查网址是否可供访问。
- 如果您想针对网站上不存在的文件对特定 robots.txt 规则进行测试,或者想要测试新规则,可以使用第三方 robots.txt 测试工具。