Google-Crawler (User-Agents)

Von Google verwendete Robots zum Crawling des Webs

"Crawler" ist ein Oberbegriff für Programme wie "Robot" oder "Spider". Diese durchsuchen Websites automatisch, indem sie Links von einer Webseite zur nächsten folgen. Der meistverwendete Crawler von Google ist der Googlebot. Die folgende Tabelle enthält Informationen zu den gängigen Google-Crawlern, die in den Verweisprotokollen vorkommen können, und dazu, wie diese in der Datei robots.txt, den Robots-Meta-Tags und den HTTP-Regeln X-Robots-Tag angegeben werden.

In der folgenden Tabelle sind Crawler aufgeführt, die von verschiedenen Produkten und Diensten bei Google verwendet werden:

  • Das User-Agent-Token wird in der User-agent:-Zeile in robots.txt verwendet, um beim Schreiben von Crawling-Regeln für Ihre Website einem Crawlertyp zu entsprechen. Wie Sie in der Tabelle sehen, haben einige Crawler mehr als ein Token. Damit eine Regel angewendet wird, muss jedoch nur ein Crawler übereinstimmen. Diese Liste ist nicht vollständig, enthält jedoch die meisten Crawler, die Sie auf Ihrer Website sehen können.
  • Der vollständige User-Agent-String ist eine komplette Beschreibung des Crawlers und wird in der Anfrage und in Ihren Webprotokollen angezeigt.
Diese Werte können gefälscht werden. Wenn Sie überprüfen müssen, ob es sich bei dem Besucher um den Googlebot handelt, sollten Sie den umgekehrten DNS-Lookup verwenden.
Crawler User-Agent-Token (Produkt-Token) Vollständiger User-Agent-String
APIs-Google

APIs-Google

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense

Mediapartners-Google

Mediapartners-Google

AdsBot Mobile Web Android

(Prüft die Anzeigenqualität für Webseiten, die für Android-Geräte optimiert sind)

AdsBot-Google-Mobile

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

(Prüft die Anzeigenqualität für Webseiten, die für iPhones optimiert sind)

AdsBot-Google-Mobile

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

(Prüft die Anzeigenqualität für Webseiten, die für Desktop-Computer optimiert sind)

AdsBot-Google

AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot für Bilder
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot für Nachrichten
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot für Videos
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot (Computer)

Googlebot

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Safari/537.36

    oder (selten verwendet):
     
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot (Smartphone)

Googlebot

 

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mobile AdSense

Mediapartners-Google

(Verschiedene Mobilgerätetypen) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android

(Prüft die Anzeigenqualität für Seiten, die für Android-Apps optimiert sind. Folgt dabei den Robots-Regeln von AdsBot-Google.)

AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps

Feedfetcher

FeedFetcher-Google

Respektiert die Regeln von robots.txt nicht. Hier erfahren Sie die Gründe.

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Google-Read-Aloud

Respektiert die Regeln von robots.txt nicht. Hier erfahren Sie die Gründe.

  • Aktueller Agent:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • Ehemaliger Agent (eingestellt):
    google-speakr

User-Agents in robots.txt

Werden mehrere User-Agents in der robots.txt-Datei erkannt, folgt Google dem spezifischsten. Wenn Sie Ihre Seiten von allen Crawlern von Google crawlen lassen möchten, benötigen Sie keine robots.txt-Datei. Wenn Sie einen Teil Ihrer Inhalte für alle Google-Crawler sperren oder zulassen möchten, geben Sie den Googlebot als User-Agent an. Beispiel: Wenn alle Ihre Seiten in der Google-Suche und AdSense-Anzeigen auf Ihren Seiten erscheinen sollen, benötigen Sie keine robots.txt-Datei. Und wenn Sie einige Seiten ganz für Google sperren möchten, werden durch das Blockieren des User-Agents Googlebot auch alle anderen User-Agents von Google blockiert.

Sie können dies jedoch auch noch etwas detaillierter angeben. Möglicherweise möchten Sie zum Beispiel, dass alle Ihre Seiten in der Google-Suche angezeigt, Bilder in Ihrem persönlichen Verzeichnis jedoch nicht gecrawlt werden. In diesem Fall können Sie mit der robots.txt-Datei verhindern, dass der User-Agent Googlebot-image die Dateien im Verzeichnis "/personal" crawlt, während der Googlebot zum Crawlen aller Dateien berechtigt ist. Dies sieht dann folgendermaßen aus:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal
Ein weiteres Beispiel: Angenommen, Sie möchten Anzeigen auf allen Ihren Seiten einblenden. Diese Seiten sollen jedoch nicht in der Google-Suche erscheinen. In diesem Fall blockieren Sie den Googlebot, lassen aber Mediapartners-Google zu. Dies sieht dann so aus:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

User-Agents in Robots-Meta-Tags

Manche Seiten verwenden mehrere Robots-meta-Tags, um Anweisungen für verschiedene Crawler anzugeben. Beispiel:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

In diesem Fall verwendet Google die Summe der negativen Anweisungen und der Googlebot folgt sowohl der Anweisung noindex als auch der Anweisung nofollow. Genauere Informationen zum Steuern des Crawlings und der Indexierung Ihrer Website durch Google

War das hilfreich?
Wie können wir die Seite verbessern?