關於 robots.txt

漫遊器常見問題

漫遊器一般問題

Robots.txt 相關問題

漫遊器中繼標記相關問題

X-Robots-Tag HTTP 標頭相關問題

還有其他常見問題嗎? 如需其他協助,歡迎前往網站管理員說明論壇提問!

漫遊器一般問題

我的網站需要 robots.txt 檔案嗎?

不需要。Googlebot 造訪網站時,我們會先嘗試擷取 robots.txt 檔案,藉此獲得檢索權限。如果網站沒有 robots.txt 檔案、漫遊器中繼標記或 X-Robots-Tag HTTP 標頭,Googlebot 通常會正常進行檢索並為其建立索引。

我該使用哪一種方法?

視情況而定。簡而言之,下列方法各有優勢:

  1. robots.txt:如果檢索內容會導致您的伺服器發生問題,請使用這個方法。舉例來說,您可能想禁止某個網站頁面無限制地向下捲動,不斷載入新的內容。您不應使用 robots.txt 封鎖私人內容 (請改用伺服器端驗證) 或處理標準化作業 (請參閱說明中心)。如果您必須確保網址不會被編入索引,請改用漫遊器中繼標記或 X-Robots-Tag HTTP 標頭。
  2. 漫遊器中繼標記:如果您必須控制個別 HTML 網頁在搜尋結果中的顯示方式 (或是要確保網頁不會顯示),請使用這個方法。
  3. X-Robots-Tag HTTP 標頭:如果您必須控制非 HTML 內容在搜尋結果中的顯示方式 (或是要確保這類內容不會顯示),請使用這個方法。

我可以使用這些方法來移除其他人的網站嗎?

不可以。這些方法僅適用於您有權修改程式碼或新增檔案的網站。如果您想要移除第三方網站上的內容,您必須聯絡該網站的網站管理員,請對方移除內容。

我該如何減緩 Google 檢索網站的速度?

一般來說,您可以在 Google Search Console 帳戶中調整檢索頻率設定

Robots.txt 相關問題

我在多個網站使用了同樣的 robots.txt,我可以使用完整的網址而不使用相對路徑嗎?

不可以。robots.txt 檔案中的指令 (含有「Sitemap:」的除外) 只能支援相對路徑。

我可以把 robots.txt 檔案放在子目錄中嗎?

不可以。這個檔案必須放在網站最上層的目錄中。

我想封鎖私人資料夾。我可以禁止他人讀取我的 robots.txt 檔案嗎?

不可以。許多使用者都可以讀取 robots.txt 檔案,如果內容的資料夾或檔案名稱不應公開,這些資訊就不應列在 robots.txt 檔案中。我們不建議您依照使用者代理程式或其他屬性提供不同的 robots.txt 檔案。

我必須加入 allow 指令才能夠允許檢索嗎?

不,您不需要加入 allow 指令。allow 指令的用途是覆寫同一份 robots.txt 檔案中的 disallow 指令。

如果我的 robots.txt 檔案中出現錯誤或使用了不支援的指令,會發生什麼事?

網路檢索器的作業方式通常都相當有彈性,不會因為 robots.txt 檔案中出現小錯誤而受到影響。一般而言,最糟的情況就是系統會忽略不正確/不支援的指令。提醒您,Google 在解讀 robots.txt 檔案時無法確切瞭解您的用意,我們只會依照擷取到的 robots.txt 檔案進行解讀。不過,如果您發現自己的 robots.txt 檔案有問題,這些問題通常不難解決。

我應該使用什麼程式來建立 robots.txt 檔案?

您可以使用任何程式來建立有效的文字檔。如要建立 robots.txt 檔案,常用的程式包括 Notepad、TextEdit、vi 或 emacs。Google Search Console 中也提供相關工具,可協助您為自己的網站建立 robots.txt 檔案。在您將 robots.txt 檔案放上網站後,可以使用 Google Search Console 中的 Googlebot 模擬器功能來驗證 robots.txt 檔案是否有效。Search Console 也可以協助您產生 robots.txt 檔案

如果我使用 robots.txt disallow 指令禁止 Google 檢索某個網頁,該網頁是否就不會顯示在搜尋結果中?

禁止 Google 檢索網頁很有可能會造成網頁排名下降或者在一段時間後消失在搜尋結果中,也有可能減少使用者能夠在搜尋結果下的文字中獲得的詳細資料數量。這是因為如果沒有網頁內容,可供搜尋引擎處理的資訊就會變得相當少。

不過,使用 robots.txt Disallow 指令無法保證網頁不會出現在搜尋結果中:Google 可能還是會依據外部資訊 (例如連入連結) 認定網頁內容有所關聯。如果您希望明確禁止系統將網頁編入索引,請改用 noindex 漫遊器中繼標記或 X-Robots-Tag HTTP 標頭。在這種情況下,您不應在 robots.txt 中禁止網頁受到檢索,因為網頁必須經過檢索,才能讓檢索器發現並且遵循這個標記。

robots.txt 檔案變更後,要經過多久時間才會對搜尋結果產生影響?

首先,robots.txt 檔案的快取必須經過重新整理 (一般而言我們會快取多達一天的內容)。即便找出了變更的內容,由於進行檢索和建立索引的過程相當複雜,要處理各個網址有時需要不少時間,因此沒有確切的時間表。此外也要提醒您,即使您的 robots.txt 檔案禁止存取特定網址,該網址還是有可能會顯示在搜尋結果中 (雖然我們無法檢索該網址)。如果您想要儘速移除不希望受到 Google 檢索的網頁,請透過 Google Search Console 提交移除申請。

我該如何在 robots.txt 檔案中指定 AJAX 檢索網址?

如要指定使用 AJAX 檢索提案的網址,您必須使用已檢索的網址。

如果要全面暫停 Google 對我的網站進行的檢索作業,該怎麼做?

您可以針對所有網址 (包括 robots.txt 檔案) 傳回 HTTP 結果碼 503,藉此暫停所有檢索作業。搜尋引擎會定期重新嘗試檢索 robots.txt 檔案,直到可以再次存取該檔案為止。我們不建議您為了禁止檢索作業而變更 robots.txt 檔案。

我的伺服器不會區分大小寫,我該如何完全禁止 Google 檢索我的某些資料夾?

robots.txt 檔案中的指令必須區分大小寫。在這種情況下,建議您使用標準化方法確認搜尋引擎只為一個版本的網址建立索引,這種做法可以協助您簡化您的 robots.txt 檔案。如果無法採用這種做法,建議您列出常用的資料夾名稱組合,或者儘可能縮短資料夾名稱,只使用名稱中的前面幾個字元而不使用完整名稱。舉例來說,您可以列出「/MyP」的排列組合 (如果您確定沒有其他可檢索的網址也使用了這些字元),而不是列出「/MyPrivateFolder」的所有大小寫排列組合。如果不用擔心檢索問題,也可以考慮改用漫遊器中繼標記或 X-Robots-Tag HTTP 標頭。

我已經設定讓所有網址 (包含 robots.txt 檔案) 都傳回 403 Forbidden (禁止存取) 代碼,為什麼網站依然受到檢索?

HTTP 結果碼 403 (就如同所有其他 4xx HTTP 結果碼) 代表 robots.txt 檔案不存在,也因為如此,一般來說,檢索器會假設能夠存取網站的所有網址。如要禁止檢索該網站,您必須照常傳回 robots.txt (使用「確定」HTTP 結果碼 200),且其中包含適當的「disallow」指令。

漫遊器中繼標記相關問題

漫遊器中繼標記可以取代 robots.txt 檔案嗎?

不可以。robots.txt 檔案會控制哪些網頁可供存取,漫遊器中繼標記則會控制網頁是否可編入索引,但如要讓檢索器發現這個標記,就必須讓網頁經過檢索。如果檢索器無法順利檢索網頁 (舉例來說,如果網頁會造成伺服器處在高負載狀態),您就應該使用 robots.txt 檔案。如果您只是想控制是否讓網頁顯示在搜尋結果中,可以使用漫遊器中繼標記。

使用漫遊器中繼標記可以避免系統將部分網頁編入索引嗎?

不可以,漫遊器中繼標記是網頁層級的設定。

我可以在 <head> 部分以外的地方使用漫遊器中繼標記嗎?

不可以,目前漫遊器中繼標記必須位在網頁的 <head> 部分中。

漫遊器中繼標記會禁止檢索作業嗎?

不會。即使漫遊器中繼標記目前指明 noindex,我們還是必須不定時重新檢索該網址,檢查中繼標記是否有所變更。

nofollow 漫遊器中繼標記和 rel="nofollow" 連結屬性有何差異?

nofollow 漫遊器中繼標記適用於網頁上的所有連結,rel="nofollow" 連結屬性則僅適用於網頁上的特定連結。如須進一步瞭解 rel="nofollow" 連結屬性,請參閱說明中心中關於使用者產生的垃圾內容rel="nofollow" 的文章。

X-Robots-Tag HTTP 標頭相關問題

我該如何檢查網址的 X-Robots-Tag?

如要查看伺服器標頭,較簡便的方法是使用網路式伺服器標頭檢查程式或使用 Google Search Console 中的「Googlebot 模擬器」功能。

這篇文章實用嗎?
我們應如何改進呢?