robots.txt 報表會顯示 Google 為你網站上排名前 20 的主機找到的 robots.txt 檔案、上次檢索的時間,以及遇到的任何警告或錯誤。這份報表也能讓你在緊急情況下,要求重新檢索 robots.txt 檔案。
這份報表僅適用於網域層級資源,亦即以下任一資源:
- 網域資源 (例如 example.com 或 m.example.com)
- 不含路徑的網址前置字元資源,例如 https://example.com/,而非 https://example.com/path/。
查看 robots.txt 檔案和檢索狀態
在網域資源中,報表會列出該資源內排名前 20 主機的 robots.txt 檔案。
Search Console 會逐一檢查 robots.txt 檔案,你可以查看以下資訊:
- 檔案路徑:Google 會利用這個完整網址檢查 robots.txt 檔案是否存在。只有在過去 30 天內出現「已擷取」或「未擷取」狀態時,報告中才會顯示網址。詳情請參閱「robots.txt 檔案的位置」。
- 擷取狀態:這個檔案的最新擷取要求狀態。可能出現的值包括:
- 未擷取 - 找不到 (404):要求取得此檔案時發生 404 錯誤 (檔案不存在)。如果你已在所列網址發布 robots.txt 檔案,卻看到這個錯誤,請嘗試檢查網址,看看是否有任何可用性問題。如果檔案處於「找不到 (404)」狀態達 30 天,就不會再顯示在報表中 (但 Google 會繼續在背景檢查此檔案)。沒有 robots.txt 錯誤表示 Google 可以檢索你網站上所有的網址,這固然很好,但你仍應瞭解 Google 遇到 robots.txt 錯誤時如何因應,詳情請參閱這裡。
- 未擷取 - 其他原因:要求取得此檔案時發生其他問題。請參閱索引問題清單。
- 已擷取:上次嘗試檢索時,成功傳回 robots.txt 檔案。剖析檔案時發現的問題全都會列在「問題數」欄中。Google 會忽略有問題的行,使用能夠剖析的行。
- 上次檢查時間:Google 上次嘗試檢索這個網址的時間 (以當地時間為準)。
- 大小:擷取檔案的大小,以位元組為單位。如果上次的擷取嘗試失敗,這裡就不會顯示任何內容。
- 問題數:這個表格會顯示上次擷取檔案內容時發生的剖析問題數量。如果出現錯誤,就無法使用規則 (出現警告則不影響)。建議你詳閱 Google 遇到 robots.txt 錯誤時的因應方式。如要修正剖析問題,請使用 robots.txt 驗證工具。
查看上次擷取的版本
如要查看最近一次擷取的 robots.txt 檔案,請在報表的檔案清單中按一下該檔案。robots.txt 檔案如有任何錯誤或警告,會在檔案內容中醒目顯示。你可以使用方向鍵瀏覽錯誤和警告。
查看先前擷取的版本
如要查看特定 robots.txt 檔案過去 30 天內的擷取要求,請在報表的檔案清單中按一下該檔案,然後點選「版本」。如要查看該版本的檔案內容,則請點選該版本。只有在擷取的檔案/擷取結果與之前的檔案擷取要求不同時,系統才會將要求納入記錄中。
如果 Google 在最近一次嘗試擷取時遇到擷取錯誤,會使用上次成功擷取的無錯誤版本 (最多 30 天)。
要求重新檢索
當你修正錯誤或做出重大變更時,可以要求重新檢索 robots.txt 檔案。
要求重新檢索的時機
Google 經常會重新檢索 robots.txt 檔案,因此你通常不需提出這類要求。不過,在下列情況下,建議你要求重新檢索 robots.txt:
- 你變更了 robots.txt 規則,解除封鎖部分重要網址,因此希望盡快告知 Google (請注意,這不保證系統會立即重新檢索已解除封鎖的網址)。
- 你修正了擷取錯誤或其他重大錯誤。
如何要求重新檢索
如要提出重新檢索要求,請在 robots.txt 檔案清單中,選取檔案旁的更多設定圖示 ,然後按一下「要求重新檢索」。
由網站代管服務商代管的網站
如果你的網站是由網站代管服務商代管,編輯 robots.txt 檔案可能就不容易。在此情況下,請參閱網站代管商的說明文件,瞭解如何禁止 Google 檢索特定網頁或將這類網頁編入索引 (請注意,多數使用者在意的是如何防止檔案「顯示」在 Google 搜尋中,而非禁止 Google「檢索」檔案。如果你對這點有顧慮,請搜尋你代管服務商所提供的資訊,進一步瞭解如何禁止搜尋引擎檢索網頁)。
如果 Google 無法擷取或讀取 robots.txt 會怎麼樣
如果找不到某個網域或子網域的 robots.txt 檔案,Google 會假定可以檢索該主機中的所有網址。
如果 Google 可以找到 robots.txt 檔案,但無法擷取,此時的行為模式會是:
- 最初 12 小時內,Google 將停止檢索該網站,但會繼續嘗試擷取 robots.txt 檔案。
- 如果 Google 無法擷取新版本,在接下來的 30 天內,Google 將使用上一個可用版本,同時繼續嘗試擷取新版本。你可以在版本記錄中查看上一個可用版本。
- 如果 30 天後仍未修正錯誤:
- 如果網站一般可供 Google 存取,Google 會假設沒有 robots.txt 檔案並據此行動,但仍會繼續檢查新版本。
- 如果網站有一般可用性問題,Google 會停止檢索網站,但仍會定期要求索取 robots.txt 檔案。
如果 Google 找到且能夠擷取 robots.txt 檔案,會逐行讀取該檔案。如果資料行有錯誤,或無法剖析為 robots.txt 規則,系統會略過該行。如果檔案中沒有有效的行,Google 會將其視為空白的 robots.txt 檔案,表示尚未為網站宣告任何規則。
robots.txt 檔案的位置
術語:
- 通訊協定 (也稱為「配置」) 是指 HTTP 或 HTTPS。
- 主機是指網址中介於通訊協定 (http:// 或 https://) 到路徑間的所有內容。因此,主機 m.de.example.com 隱含 3 個可能的主機:m.de.example.com、de.example.com 和 example.com,而每個主機都能擁有各自的 robots.txt 檔案。
- 來源是指通訊協定加上主機,例如:https://example.com/ 或 https://m.example.co.es/。
根據 RFC 9309 規定,無論網站採用哪種通訊協定和主機組合,robots.txt 檔案都必須位於根目錄中。
- Search Console 會選擇前 20 部主機,並依據檢索頻率排序。報表最多可為每個網域顯示 2 個來源,因此表格最多會顯示 40 列。如果你找不到任何主機的 robots.txt 網址,請針對缺少的子網域建立網域資源。
- 對於每個主機,Search Console 都會檢查兩個網址:
- http://<主機>/robots.txt
- https://<主機>/robots.txt
- 如果所要求網址上的 robots.txt 檔案經回報為「找不到」,且處於此狀態達 30 天,Search Console 就不會在這份報表中顯示該網址,但 Google 會繼續在背景檢查網址。當有任何其他結果出現時,報表則會顯示網址已完成檢查。
如果是主機層級的網址前置字元資源 (例如 https://example.com/),Search Console 只會檢查該資源的單一來源。也就是說,如果是 https://example.com 資源,Search Console 只會檢查 https://example.com/robots.txt,而非 http://example.com/robots.txt 或 https://m.example.com/robots.txt。
一般工作
查看 robots.txt 檔案
如要開啟這份報表列出的 robots.txt 檔案,請在 robots.txt 檔案清單中按一下該檔案。如要在瀏覽器中開啟檔案,請按一下「開啟目前運作中的 robots.txt 檔案」。
你可以使用瀏覽器開啟網路上的任何 robots.txt 檔案。請參閱下方內容,瞭解應造訪哪個網址。
robots.txt 檔案位於通訊協定和網域的根目錄。如要找出網址部分,請刪除檔案網址中主機 (和選用的通訊埠) 後方的所有內容,然後加上「/robots.txt」。你可以透過瀏覽器造訪 robots.txt 檔案 (如果有的話)。子網域或上層網域不會沿用 robots.txt 檔案,且一個 robots.txt 檔案只能影響一個指定網頁。以下提供一些例子:
檔案網址 | 可能影響該檔案的 robots.txt 網址 |
---|---|
http://example.com/home | http://example.com/robots.txt |
https://m.de.example.com/some/page/here/mypage | https://m.de.example.com/robots.txt |
https://example.com?pageid=234#myanchor | https://example.com/robots.txt |
https://images.example.com/flowers/daffodil.png | https://images.example.com/robots.txt |
查看哪些 robots.txt 檔案會影響網頁或圖片
如何找出影響網頁或圖片的 robots.txt 檔案網址:
- 找出網頁或圖片的確切網址。接著在 Google Chrome 瀏覽器中對圖片按一下滑鼠右鍵,然後選取「複製圖片網址」。
- 移除頂層網域後方的網址結尾 (例如 .com、.org、.co.il),並在結尾加上 /robots.txt。舉例來說 https://images.example.com/flowers/daffodil.png 的 robots.txt 檔案就是 https://images.example.com/robots.txt。
- 在瀏覽器中開啟該網址,確認網址是否存在。如果瀏覽器無法開啟檔案,表示檔案不存在。
測試 Google 是否遭到 robots.txt 封鎖
- 如要測試特定網址是否遭到 robots.txt 檔案「封鎖」,可以利用網址檢查工具測試該網址的可用性。
- 如要測試新規則,或是針對尚未發布到網路上的檔案測試特定 robots.txt 規則,可以使用第三方檔案 robots.txt 測試工具。
更多資訊
- 什麼是 robots.txt 檔案?此檔案的用途是什麼?
- 如何實作 robots.txt 檔案