使用robots.txt阻止对网址的访问

使用 robots.txt 测试工具测试 robots.txt

借助 robots.txt 测试工具,您可以检查 robots.txt 文件是否可以阻止 Google 网页抓取工具访问您网站上的特定网址。例如,您可以使用此工具来测试 Googlebot-Image 抓取工具能否抓取您想阻止 Google 图片搜索访问的图片网址。

 

打开“robots.txt 测试工具”

 

您可以向 robots.txt 测试工具提交一个网址。此工具会按照 Googlebot 的运作方式,查看您的 robots.txt 文件并验证该网址是否已相应地遭到拦截。

测试 robots.txt 文件

  1. 为您的网站打开此测试工具,滚动浏览 robots.txt 代码,找到突出显示的语法警告逻辑错误语法警告和逻辑错误的数量会显示在该编辑器的正下方。
  2. 在页面底部的文本框中输入您网站上某个网页的网址。
  3. 该文本框右侧的下拉列表中,选择您要模拟的用户代理
  4. 点击测试按钮测试访问权限。
  5. 查看测试按钮此时显示的是已接受还是已拦截,从而了解是否已成功阻止 Google 网页抓取工具访问您所输入的网址。
  6. 修改此页面上的 robots.txt 文件,并根据需要重新进行测试。请注意,在此页面上做出的更改不会保存到您的网站中! 请参阅下一步。
  7. 将所做的更改复制到您网站上的 robots.txt 文件中。此工具只会根据在其中托管的相应副本进行测试,而不会更改您网站上的实际文件。

robots.txt 测试工具的局限性:

  • 您在工具编辑器中所做的更改不会自动保存到您的网络服务器。因此,您需要将编辑器中的内容复制并粘贴到服务器上的robots.txt文件中。
  • robots.txt测试工具只能使用Google用户代理或网页抓取工具(如Googlebot)来测试robots.txt。我们无法预测其他网页抓取工具会如何解读您的 robots.txt 文件。
本文是否对您有帮助?
您有什么改进建议?