使用 robots.txt 封鎖網址

瞭解 robots.txt 檔案

什麼是 robots.txt 檔案?

robots.txt 檔案能夠向搜尋引擎檢索器表明,檢索器可/不可要求哪些網站上的網頁或檔案。這個檔案主要用於避免網站因要求過多而超載;但它不是讓特定網頁無法出現在 Google 搜尋結果中的機制。 如果您想禁止自己的網頁出現在搜尋結果中,應使用 noindex 標記或指令,或使用密碼保護網頁。

robots.txt 的用途為何?

robots.txt 主要用於管理檢索器對您網站造成的流量;但取決於檔案類型,「有時」確實可以不讓 Google 搜尋結果顯示特定網頁:

網頁類型 流量管理 對 Google 隱藏 說明
網頁

如果您認為 Google 檢索器提出的要求會造成您伺服器的流量不堪負荷,或想避免檢索資源浪費在您網站上那些不重要或類似的網頁上,可針對網頁 (HTML、PDF 或其他 Google 可以讀取的非媒體格式) 使用 robots.txt 管理檢索流量。

如果您不想讓自己的網頁顯示在 Google 搜尋結果中,請不要以 robots.txt 做為隱藏網頁的方法。 因為如果其他網頁的說明文字指向您的網頁,我們仍會在不造訪網頁的情形下為您的網頁建立索引。如果您想禁止自己的網頁出現在搜尋結果中,請使用其他方法 (例如密碼保護或 noindex 指令)。

如果您使用 robots.txt 檔案禁止自己的網頁出現在搜尋結果中,搜尋結果仍會顯示該網頁,但不會提供說明 (顯示範例請按此)。系統會排除圖片檔、影片檔、PDF 和其他非 HTML 檔案。如果搜尋結果以上述方式顯示您的網頁,您可以移除封鎖網頁的 robots.txt 項目,藉此修正這個問題。如果您希望網頁可已完全隱藏不被搜尋,請採用其他方法

媒體檔案

您可以使用 robots.txt 管理檢索流量,並防止圖片、影片和音訊檔案出現在 Google 搜尋結果中 (請注意:此方法無法防止其他網頁或使用者連結至您的圖片/影片/音訊檔案)。

資源檔案

如果您認為載入網頁時略過不重要的圖片、指令碼或樣式檔案等資源,並不會造成太大的影響,那麼您可以使用 robots.txt 來封鎖這些資源檔案。但如果缺少了這些資源會造成 Google 檢索器在解譯上的困難,則我們建議您不要封鎖這些資源,否則 Google 會無法正確分析需要仰賴這些資源的網頁。

我使用了網站代管服務

如果您使用網站代管服務 (例如 Wix、Drupal 或 Blogger),則可能不需要 (也可能無法) 直接編輯 robots.txt 檔案。供應商可能會提供另外的網頁設定或其他機制,向搜尋引擎表明是否需檢索您的網頁。

如要查看 Google 是否已檢索您的網頁,請在 Google 中搜尋網頁網址。

如果您要隱藏 (或取消隱藏) 您的網頁,請新增 (或移除) 頁面登入要求,並在 Google 上搜尋,瞭解修改搜索引擎中網頁可見度 (針對您的網站代管商) 的說明,例如搜尋:Wix、對搜尋引擎隱藏網頁

瞭解 robots.txt 的限制

建立或編輯 robots.txt 前請注意,只用 robots.txt 封鎖網址是有限制的。建議您有時可採用其他機制,確保無人能透過網路搜尋到您的網址。

  • Robots.txt 的指示一律是指令
    robots.txt 檔案中的指示無法強制規範檢索器對網站所採取的行為;這些指示其實是檢索器在存取您的網站時會接收到的指令。Googlebot 和一些正派的網路檢索器都會按照 robots.txt 檔案中的指示去做,但不是每個檢索器都是如此。因此,如要確保特定資訊不會受到網路檢索器存取,建議您使用其他封鎖方式,例如使用受密碼保護的伺服器存放私人檔案
  • 各種檢索器解讀語法的方式有所不同
    雖然正派的網路檢索器都會遵照 robots.txt 檔案中的指令去做,但各種檢索器解讀指令的方式可能有些不同。請注意不同網路檢索器所適用的語法 (有些網路檢索器可能無法理解特定指示)。
  • 如果使用 robots.txt 封鎖的網頁出現在其他網站的連結中,Google 發現後仍會為這些網頁建立索引
    雖然 Google 不會對 robots.txt 所封鎖的內容進行檢索或建立索引,但如果我們透過網路上其他網頁的連結發現封鎖的網址,仍然會建立這些網址的索引。因此,網頁網址以及其他可能的公開資訊 (例如網頁連結中的錨點文字) 仍然會出現在 Google 搜尋結果中。如要完全避免這種情形,建議您使用密碼保護伺服器上的檔案,或是使用 noindex 中繼標記或回應標頭 (或完全移除網頁)。
注意:將多個檢索和索引指令搭配使用時,可能會造成部分指令之間出現相互抵消的情形。如要進一步瞭解如何適當運用這些指令,請參閱 Google 開發人員說明文件的整合檢索和索引/服務指令部分

測試網頁是否遭到 robots.txt 封鎖

您可以測試網頁或資源是否遭到 robots.txt 規則封鎖

如要測試 noindex 指令,請使用網址檢查工具

這篇文章實用嗎?
我們應如何改進呢?