Googlebot

Googlebot 是 Google 網路檢索器的通稱。Google 有兩種網路檢索器,分別是模擬電腦使用者的電腦檢索器,以及模擬行動裝置使用者的行動檢索器。

Googlebot 電腦檢索器和 Googlebot 行動檢索器都可能檢索您的網站。您可以從要求中的使用者代理程式字串來辨別是哪一種檢索器,不過這兩種檢索器會遵循 robots.txt 中的同一個產品憑證 (使用者代理程式憑證),因此您無法使用 robots.txt 來指定目標是 Googlebot 行動檢索器或 Googlebot 電腦檢索器。

如果您的網站已轉換至 Google 的行動版內容優先檢索系統,那麼您網站收到的大部分的 Googlebot 檢索要求就是由行動檢索器送出,只有一小部分是由電腦檢索器送出。如為未經轉換的網站,則大部分的檢索作業仍是由電腦檢索器進行。無論是哪一種情況,次要檢索器都只會檢索主要檢索器已檢索過的網址。

 

Googlebot 如何存取您的網站

一般而言,Googlebot 並不會在幾秒的時間內連續存取您的網站好幾次。不過,如果出現延遲情況,可能導致檢索頻率在短時間內稍微偏高。

Googlebot 能夠同時由數千台機器運作,藉此提升執行效能,並配合網路規模的成長擴充。此外,為了減少佔用的頻寬,我們在檢索網路上的網站時,會在距離較近的機器上執行多個檢索器。因此從記錄上看,您可能會發現有數台來自 google.com 的機器檢索了您的網站,而且都是透過使用者代理程式 Googlebot。我們的目標是在每次瀏覽您的網站時,儘可能檢索更多網頁,同時避免對您的伺服器頻寬造成太大影響。如果您的網站無法應付 Google 的檢索要求,您可以要求變更檢索頻率

禁止 Googlebot 瀏覽您的網站

在大部分情況下,即使您不公開網路伺服器的連結,也無法隱藏您的伺服器位置資訊。一旦有人追蹤到您的「秘密」伺服器連結到其他網路伺服器,您的「秘密」網址就會出現在參照標記中,其他網路伺服器也可以將該網址儲存和發佈到它們的參照記錄中。同樣地,網路也有許多過期和無效的連結。每當有人針對您的網站發佈無效的連結時,或是並未適時更新連結以反映您的伺服器所做的變更時,Googlebot 就會試著從您的網站檢索錯誤的連結。

如要禁止 Googlebot 檢索您網站上的內容,您可以採取多種方式。請留意這些做法之間的差異,例如禁止 Googlebot 檢索網頁、禁止 Googlebot 為網頁建立索引,以及完全禁止任何檢索器或使用者存取網頁。

驗證 Googlebot

決定封鎖 Googlebot 前,請留意其他檢索器經常假冒 Googlebot 採用的使用者代理程式字串。因此,請務必驗證有問題的要求是否確實來自 Google。如要確認要求是否由 Googlebot 發出,最佳做法是針對要求的來源 IP 使用反向 DNS 查詢

Googlebot 和所有正派的搜尋引擎漫遊器都會遵照 robots.txt 中的指令來檢索網站,但有些惡意份子和垃圾內容發佈者就不會遵照這些指令。Google 會積極對抗垃圾內容發佈者;如果您在 Google 搜尋結果中發現含有垃圾內容的網頁或網站,可以向 Google 檢舉垃圾內容

 

這篇文章實用嗎?
我們應如何改進呢?