Google-Crawler (User-Agents)

Von Google verwendete Robots zum Crawling des Webs

"Crawler" ist ein Oberbegriff für Programme wie "Robot" oder "Spider". Diese durchsuchen Websites automatisch, indem sie Links von einer Webseite zur nächsten folgen. Der meistverwendete Crawler von Google ist der Googlebot. Die folgende Tabelle enthält Informationen zu den gängigen Google-Crawlern, die in den Verweisprotokollen vorkommen können, und dazu, wie diese in der Datei robots.txt, den Robots-Meta-Tags und den HTTP-Regeln X-Robots-Tag angegeben werden.

In der folgenden Tabelle sind Crawler aufgeführt, die von verschiedenen Produkten und Diensten bei Google verwendet werden:

  • Das User-Agent-Token wird in robots.txt in der Zeile User-agent: verwendet und gibt an, für welchen Crawlertyp die Crawling-Regeln Ihrer Website gelten. Wie Sie in der Tabelle sehen, haben einige Crawler mehr als ein Token. Damit eine Regel angewendet wird, muss jedoch nur ein Crawler-Token übereinstimmen. Diese Liste ist nicht vollständig, enthält jedoch die meisten Crawler, die Sie auf Ihrer Website sehen können.
  • Der vollständige User-Agent-String ist eine komplette Beschreibung des Crawlers und wird in der Anfrage und in Ihren Webprotokollen angezeigt.
Diese Werte können gefälscht werden. Wenn Sie überprüfen müssen, ob es sich bei dem Besucher um den Googlebot handelt, sollten Sie denumgekehrten DNS-Lookup verwenden.
Crawler User-Agent-Token (Produkt-Token) Vollständiger User-Agent-String
APIs-Google

APIs-Google

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense

Mediapartners-Google

Mediapartners-Google

AdsBot Mobile Web Android

(Prüft die Anzeigenqualität für Webseiten, die für Android-Geräte optimiert sind)

AdsBot-Google-Mobile

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

(Prüft die Anzeigenqualität für Webseiten, die für iPhones optimiert sind)

AdsBot-Google-Mobile

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

(Prüft die Anzeigenqualität für Webseiten, die für Computer optimiert sind)

AdsBot-Google

AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot Images
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot News
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot Video
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot (Computer)

Googlebot

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36

    oder (selten verwendet):
     
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot (Smartphone)

Googlebot

 

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mobile AdSense

Mediapartners-Google

(Verschiedene Mobilgerätetypen) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android

(Prüft die Anzeigenqualität für Seiten, die für Android-Apps optimiert sind. Folgt dabei den Robots-Regeln von AdsBot-Google.)

AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps

Feedfetcher

FeedFetcher-Google

Ignoriert die Regeln von robots.txt. Informationen zu den Gründen

Feedfetcher-Google; (+http://www.google.com/feedfetch.html)

Google Read Aloud

Google-Read-Aloud

Ignoriert die Regeln von robots.txt. Informationen zu den Gründen

  • Aktueller Agent:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • Ehemaliger Agent (eingestellt):
    google-speakr
Duplex on the Web

DuplexWeb-Google

Ignoriert möglicherweise den User-Agent-Platzhalter "*". Informationen zu den Gründen

Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36

Google Favicon

(Ruft Favicons für verschiedene Dienste ab)

Google Favicon

Bei Nutzeranfragen werden robots.txt-Regeln ignoriert

 

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon

 

Chrome/W.X.Y.Z in User-Agenten

Überall, wo in den User-Agent-Strings in der Tabelle der String "Chrome/W.X.Y.Z" erscheint, ist "W.X.Y.Z" ein Platzhalter, der die Version des Chrome-Browsers darstellt, die vom jeweiligen User-Agent verwendet wird, z. B. 41.0.2272.96. Diese Versionsnummer wird sich mit der Zeit erhöhen, um der neuesten vom Googlebot verwendeten Chromium-Release-Version zu entsprechen.

Wenn Sie Ihre Protokolle durchsuchen oder Ihr Server nach einem User-Agent mit diesem Muster filtert, sollten Sie für die Versionsnummer am besten einen Platzhalter verwenden, anstatt eine genaue Versionsnummer anzugeben.

User-Agents in robots.txt

Werden mehrere User-Agents in der robots.txt-Datei erkannt, folgt Google dem spezifischsten. Wenn Sie Ihre Seiten von allen Crawlern von Google crawlen lassen möchten, benötigen Sie keine robots.txt-Datei. Wenn Sie einen Teil Ihrer Inhalte für alle Google-Crawler sperren oder zulassen möchten, geben Sie den Googlebot als User-Agent an. Beispiel: Wenn alle Ihre Seiten in der Google-Suche und AdSense-Anzeigen auf Ihren Seiten erscheinen sollen, benötigen Sie keine robots.txt-Datei. Und wenn Sie einige Seiten ganz für Google sperren möchten, werden durch das Blockieren des User-Agents Googlebot auch alle anderen User-Agents von Google blockiert.

Sie können dies jedoch auch noch etwas detaillierter angeben. Möglicherweise möchten Sie zum Beispiel, dass alle Ihre Seiten in der Google-Suche angezeigt, Bilder in Ihrem persönlichen Verzeichnis jedoch nicht gecrawlt werden. In diesem Fall können Sie mit der robots.txt-Datei verhindern, dass der User-Agent Googlebot-Image die Dateien im Verzeichnis "/personal" crawlt, während der Googlebot zum Crawlen aller Dateien berechtigt ist. Dies sieht dann folgendermaßen aus:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal
Ein weiteres Beispiel: Angenommen, Sie möchten Anzeigen auf allen Ihren Seiten einblenden. Diese Seiten sollen jedoch nicht in der Google-Suche erscheinen. In diesem Fall blockieren Sie den Googlebot, lassen aber Mediapartners-Google zu. Dies sieht dann so aus:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

User-Agents in Robots-Meta-Tags

Manche Seiten verwenden mehrere Robots-Meta-Tags, um Anweisungen für verschiedene Crawler anzugeben. Beispiel:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

In diesem Fall verwendet Google die Summe der negativen Anweisungen und der Googlebot folgt sowohl der Anweisung noindex als auch der Anweisung nofollow. Genauere Informationen zum Steuern des Crawlings und der Indexierung Ihrer Website durch Google

War das hilfreich?
Wie können wir die Seite verbessern?