Suche
Suche löschen
Suche schließen
Google-Apps
Hauptmenü

Google-Crawler

Von Google verwendete Robots zum Crawling des Webs

"Crawler" ist ein Oberbegriff für Programme wie "Robot" oder "Spider". Diese durchsuchen Websites automatisch, indem sie Links von einer Webseite zur nächsten folgen. Der meistverwendete Crawler von Google ist der Googlebot. Die folgende Tabelle enthält Informationen zu den gängigen Google-Crawlern, die in den Verweisprotokollen vorkommen können, und dazu, wie diese in der Datei robots.txt, den Robots-Meta-Tags und den HTTP-Regeln für X-Robots-Tags angegeben werden.

In der folgenden Tabelle wird das Token des User-Agents in der Zeile User-agent: in robots.txt verwendet, sodass eine Übereinstimmung mit dem spezifischen Crawler vorliegt. Wie in der Tabelle dargestellt, reagieren einige Crawler auf mehr als ein Token, wobei Sie jedoch für einen Crawler nur ein übereinstimmendes Token verwenden müssen.

Crawler Tokens des User-Agents (in robots.txt verwendet) Vollständiger User-Agent-String (den Protokolldateien der Websites zu entnehmen)
APIs-Google
  • APIs-Google
APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense
  • Mediapartners-Google
Mediapartners-Google

AdsBot Mobile Web Android

(Prüft die Anzeigenqualität für Webseiten, die für Android-Geräte optimiert sind)

  • AdsBot-Google-Mobile
Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

(Prüft die Anzeigenqualität für Webseiten, die für iPhones optimiert sind)

  • AdsBot-Google-Mobile
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

(Prüft die Anzeigenqualität für Webseiten, die für Desktop-Computer optimiert sind)

  • AdsBot-Google
AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot für Bilder
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot für Nachrichten
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot für Videos
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot

(Desktop-Computer)

  • Googlebot

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

oder (selten verwendet):

Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot

(Smartphone)

  • Googlebot

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mobile AdSense
  • Mediapartners-Google
(verschiedene Mobilgerät-Typen) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android

(Prüft die Anzeigenqualität für Seiten, die für Android-Apps optimiert sind. Folgt dabei den Robots-Regeln von AdsBot-Google.)

  • AdsBot-Google-Mobile-Apps
AdsBot-Google-Mobile-Apps

User-Agents in robots.txt

Werden mehrere User-Agents in der robots.txt-Datei erkannt, folgt Google dem spezifischsten. Wenn Sie Ihre Seiten von allen Crawlern von Google crawlen lassen möchten, benötigen Sie keine robots.txt-Datei. Wenn Sie einen Teil Ihrer Inhalte für alle Google-Crawler sperren oder zulassen möchten, geben Sie den Googlebot als User-Agent an. Beispiel: Wenn alle Ihre Seiten in der Google-Suche und AdSense-Anzeigen auf Ihren Seiten erscheinen sollen, benötigen Sie keine robots.txt-Datei. Und wenn Sie einige Seiten ganz für Google sperren möchten, werden durch das Blockieren des User-Agents Googlebot auch alle anderen User-Agents von Google blockiert.

Sie können dies jedoch auch noch etwas detaillierter angeben. Möglicherweise möchten Sie zum Beispiel, dass alle Ihre Seiten in der Google-Suche angezeigt, Bilder in Ihrem persönlichen Verzeichnis jedoch nicht gecrawlt werden. In diesem Fall können Sie mit der robots.txt-Datei verhindern, dass der User-Agent Googlebot-image die Dateien im Verzeichnis "/personal" crawlt, während der Googlebot zum Crawlen aller Dateien berechtigt ist. Dies sieht dann folgendermaßen aus:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal
Ein weiteres Beispiel: Angenommen, Sie möchten Anzeigen auf allen Ihren Seiten einblenden. Diese Seiten sollen jedoch nicht in der Google-Suche erscheinen. In diesem Fall blockieren Sie den Googlebot, lassen aber Mediapartners-Google zu. Dies sieht dann so aus:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

User-Agents in Robots-Meta-Tags

Manche Seiten verwenden mehrere Robots-meta-Tags, um Anweisungen für verschiedene Crawler anzugeben. Beispiel:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

In diesem Fall verwendet Google die Summe der negativen Anweisungen und der Googlebot folgt sowohl der Anweisung noindex als auch der Anweisung nofollow. Genauere Informationen zum Steuern des Crawlings und der Indexierung Ihrer Website durch Google

War dieser Artikel hilfreich?
Wie können wir die Seite verbessern?
false