Google 檢索器 (使用者代理程式) 總覽

瞭解 Google 使用哪些漫遊器來檢索網路

「檢索器」一詞是指任何用以自動找尋網站、追蹤網頁連結,然後逐頁進行掃描的程式 (例如,漫遊器或自動尋檢程式)。Google 使用的主要檢索器是 Googlebot。下表列出了參照記錄中可能包含的一般 Google 檢索器,以及如何在 robots.txtrobots 中繼標記和 X-Robots-Tag HTTP 指令中指定這些檢索器的相關資訊。

下表列出了各種 Google 產品和服務使用的檢索器:

  • 當您編寫網站的檢索規則時,請在 robots.txt 的 User-agent: 一行輸入使用者代理程式憑證,用來比對特定類型的檢索器。有些檢索器具有多個憑證 (如下表所示),對於這類檢索器,您只需要對應其中一個檢索器憑證,即可套用規則。這份清單並不完整,但已涵蓋大部分您可能在網站中看到的檢索器。
  • 完整的使用者代理程式字串是檢索器的完整說明,會出現在檢索要求和您的網路記錄中。
這些值可能會遭到假冒。如要驗證訪客確實是 Googlebot,請使用反向 DNS 查詢
檢索器 使用者代理程式憑證 (產品憑證) 完整的使用者代理程式字串
APIs-Google

APIs-Google

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense

Mediapartners-Google

Mediapartners-Google

AdsBot Mobile Web Android

(檢查 Android 網頁廣告品質)

AdsBot-Google-Mobile

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot 行動網路

(檢查 iPhone 網頁廣告品質)

AdsBot-Google-Mobile

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

(檢查電腦網頁廣告品質)

AdsBot-Google

AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot 圖片
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot 新聞
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot 影片
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot (電腦)

Googlebot

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36

    或 (鮮少使用):
     
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot (智慧型手機)

Googlebot

 

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

AdSense 行動服務

Mediapartners-Google

(各種行動裝置類型) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Android 版行動應用程式

(檢查 Android 應用程式頁面廣告品質,遵循 AdsBot-Google 漫遊器規則。)

AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps

Feedfetcher

FeedFetcher-Google

不會遵循 robots.txt 規則 - 瞭解原因

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Google-Read-Aloud

不會遵循 robots.txt 規則 - 瞭解原因

  • 現行代理程式:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • 前任代理程式 (已淘汰):
    google-speakr
Duplex on the Web

DuplexWeb-Google

可能忽略 * 使用者代理程式萬用字元 - 瞭解原因

Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36

Google 網站小圖示

(擷取各種服務的網站小圖示)

Google 網站小圖示

針對使用者提出的要求忽略 robots.txt 規則

 

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko)  Chrome/49.0.2623.75 Safari/537.36 Google Favicon

 

使用者代理程式中的 Chrome/W.X.Y.Z

在上表中,您可以看到許多使用者代理程式字串都含有 Chrome/W.X.Y.Z 字串,這些 W.X.Y.Z 字串其實是預留位置,應該替換成該使用者代理程式使用的 Chrome 瀏覽器版本,例如:41.0.2272.96。這個版本號碼會隨著 Googlebot 使用的最新 Chromium 版本改變而增加。

如果您在搜尋記錄或篩選伺服器時,想要運用這個格式來尋找使用者代理程式,則應該使用萬用字元代替版本號碼,不要指定明確的版本號碼。

robots.txt 中的使用者代理程式

如果 Google 在 robots.txt 檔案中發現多個使用者代理程式,將會採用檢索條件最詳細者。若想開放所有的 Google 檢索器檢索您的網頁,則不必使用 robots.txt 檔案。指定 Googlebot 做為使用者代理程式,即可封鎖或允許所有 Google 檢索器存取您的部分內容。舉例來說,如果您想讓 Google 搜尋顯示您所有的網頁,並在頁面中顯示 AdSense 廣告,就不需要使用 robots.txt。同樣地,如果您想要一併封鎖某些網頁,只要封鎖使用者代理程式 Googlebot,就會一併封鎖所有其他 Google 使用者代理程式。

不過,您也可以指定更精確的檢索條件,進一步管理搜尋結果。例如,您可能希望所有的網頁都出現在 Google 搜尋結果中,但不開放檢索您個人目錄下的圖片。這時候,可使用 robots.txt 封鎖使用者代理程式 Googlebot-image 對個人目錄下檔案的檢索,同時允許 Googlebot 檢索所有檔案,範例如下:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal
再舉另一個例子,假如您希望在所有網頁中顯示廣告,但不要顯示在 Google 搜尋中,您可以封鎖 Googlebot,但允許 Mediapartners-Google 進行檢索,範例如下:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

robots 中繼標記中的使用者代理程式

部分網頁會使用多個 robots meta 標記為不同的檢索器設定相關指令,例如:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

在這種情況下,Google 會合併處理否定性質的指令,而 Googlebot 將遵循 noindex 與 nofollow 指令。進一步瞭解如何控制 Google 對您的網站進行檢索及建立索引。

這對您有幫助嗎?
我們應如何改進呢?