Googlebot

Googlebot 是 Google 的網頁檢索漫遊器 (也稱為「自動尋檢程式」)。檢索是指 Googlebot 發現可編入 Google 索引中的新網頁或更新網頁的程序。

我們使用大量電腦來抓取 (也就是「檢索」) 網路上數十億的網頁。Googlebot 會使用一種演算程序,由電腦程式決定要檢索的網站、檢索頻率,以及要從每個網站抓取的網頁數量。

Googlebot 如何存取您的網站

一般而言,Googlebot 並不會在幾秒的時間內連續存取您的網站好幾次。但是,由於網路延遲的關係,檢索頻率在短時間內可能會稍微偏高。

Googlebot 能夠分散在多台機器上運作,藉此提升執行效能,並配合網路規模的成長而擴充。此外,為了減少占用的頻寬,在檢索網路上的網站時,我們會在距離較近的機器上執行多個檢索器。因此從紀錄上看,您可能會發現有數台來自 google.com 的機器檢索了您的網站,而且都是透過使用者代理程式 Googlebot。我們的目標是在每次瀏覽您的網站時,儘可能增加您的網頁檢索數量,同時避免對您的伺服器頻寬造成太大影響。要求變更檢索頻率。

阻擋 Googlebot 檢索您網站上的內容

在大部分情況下,即使您不公開網站伺服器的連結,也無法隱藏您的伺服器位置資訊。一旦有人追蹤到您的「秘密」伺服器連結到其他網站伺服器,您的「秘密」網址就會出現在參照標記中,其他網站伺服器也可以將該網址儲存和發佈到它們的參照記錄中。同樣地,網路也有許多過期和無效的連結。每當有人針對您的網站發佈無效的連結時,或是並未適時更新連結以反映您的伺服器所做的變更時,Googlebot 就會試著從您的網站下載錯誤的連結。

如要禁止 Googlebot 檢索您網站上的內容,您可以採取多種方式。請留意這些做法之間的差異,例如禁止 Googlebot 檢索網頁、禁止 Googlebot 為網頁建立索引,以及完全禁止任何檢索器或使用者存取網頁。

垃圾內容發佈者以及其他使用者代理程式的問題

Googlebot 使用的 IP 位址會隨時變更。Googlebot 會透過使用者代理程式字串表明自己的身分,但這種辨識方式可能有假冒的風險;建議您使用反向 DNS 查詢來確認 Googlebot 的檢索活動。

Googlebot 和所有正派的搜尋引擎漫遊器都會遵照 robots.txt 中的指令來檢索網站,但有些惡意份子和垃圾內容發佈者就不會遵照這些指令。向 Google 檢舉垃圾郵件。

Google 有好幾種使用者代理程式,包括 Feedfetcher (使用者代理程式 Feedfetcher-Google)。因為 Feedfetcher 要求的來源是已將資訊提供新增到其 Google 首頁的實際使用者所採取的明確行動,而不是自動檢索器,所以 Feedfetcher 不會遵照 robots.txt 的指令。您可以調整伺服器設定,將 404、410 或其他錯誤狀態訊息傳送給使用者代理程式 Feedfetcher-Google,禁止 Feedfetcher 檢索您的網站。進一步瞭解 Feedfetcher。

這篇文章實用嗎?
我們應如何改進呢?