Suche
Suche löschen
Suche schließen
Google-Apps
Hauptmenü

Google-Crawler

Von Google verwendete Robots zum Crawling des Webs

"Crawler" ist ein Oberbegriff für Programme wie "Robot" oder "Spider". Diese durchsuchen Websites automatisch, indem sie Links von einer Webseite zur nächsten folgen. Der meistverwendete Crawler von Google ist der Googlebot. Die folgende Tabelle enthält Informationen zu den gängigen Google-Crawlern, die in den Verweisprotokollen vorkommen können, und dazu, wie diese in der Datei robots.txt, den Robots-Meta-Tags und den HTTP-Regeln X-Robots-Tag angegeben werden.

Crawler Token des User-Agents Vollständiger User-Agent-String (den Protokolldateien der Websites zu entnehmen)
Googlebot (Desktop-Computer) Googlebot Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
oder
(selten verwendet): Googlebot/2.1 (+http://www.google.com/bot.html)
Googlebot (Smartphone) Googlebot

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Googlebot für Nachrichten Googlebot-News
(Googlebot)
Googlebot-News
Googlebot für Bilder Googlebot-Image
(Googlebot)
Googlebot-Image/1.0
Googlebot für Videos Googlebot-Video
(Googlebot)
Googlebot-Video/1.0
Google Mobile AdSense Mediapartners-Google

oder

Mediapartners
(Googlebot)
[verschiedene Mobilgerät-Typen] (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)
Google AdSense Mediapartners-Google
Mediapartners
(Googlebot)
Mediapartners-Google
Google AdsBot – Zielseiten-Qualitätsprüfung AdsBot-Google AdsBot-Google (+http://www.google.com/adsbot.html)

Google-App-Crawler

(ruft Ressourcen für mobile Apps ab; berücksichtigt AdsBot-Google-Robots-Regeln)

AdsBot-Google-Mobile-Apps AdsBot-Google-Mobile-Apps

robots.txt

Werden mehrere User-Agents in der robots.txt-Datei erkannt, folgt Google dem spezifischsten. Wenn Sie Ihre Seiten von allen Crawlern von Google crawlen lassen möchten, benötigen Sie keine robots.txt-Datei. Wenn Sie einen Teil Ihrer Inhalte für alle Google-Crawler sperren oder zulassen möchten, geben Sie den Googlebot als User-Agent an. Beispiel: Wenn alle Ihre Seiten in der Google-Suche und AdSense-Anzeigen auf Ihren Seiten erscheinen sollen, benötigen Sie keine robots.txt-Datei. Und wenn Sie einige Seiten ganz für Google sperren möchten, werden durch das Blockieren des User-Agents Googlebot auch alle anderen User-Agents von Google blockiert.

Sie können dies jedoch auch noch etwas detaillierter angeben. Möglicherweise möchten Sie zum Beispiel, dass alle Ihre Seiten in der Google-Suche angezeigt, Bilder in Ihrem persönlichen Verzeichnis jedoch nicht gecrawlt werden. In diesem Fall können Sie mit der robots.txt-Datei verhindern, dass der User-Agent Googlebot-image die Dateien im Verzeichnis "/personal" crawlt, während der Googlebot zum Crawlen aller Dateien berechtigt ist. Dies sieht dann folgendermaßen aus:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal
Ein weiteres Beispiel: Angenommen, Sie möchten Anzeigen auf allen Ihren Seiten einblenden. Diese Seiten sollen jedoch nicht in der Google-Suche erscheinen. In diesem Fall blockieren Sie den Googlebot, lassen aber Mediapartners-Google zu. Dies sieht dann so aus:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Robots-Meta-Tag

Manche Seiten verwenden mehrere Robots-meta-Tags, um Anweisungen für verschiedene Crawler anzugeben. Beispiel:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

In diesem Fall verwendet Google die Summe der negativen Anweisungen und der Googlebot folgt sowohl der Anweisung noindex als auch der Anweisung nofollow. Genauere Informationen zum Steuern des Crawlings und der Indexierung Ihrer Website durch Google

War dieser Artikel hilfreich?
Wie können wir die Seite verbessern?