Suche
Suche löschen
Suche schließen
Google-Apps
Hauptmenü

Googlebot

Der Googlebot ist der Webcrawler (auch "Spider" genannt) von Google. Crawling wird der Prozess genannt, durch den Googlebot neue und aktualisierte Seiten ermittelt, damit diese dem Google-Index hinzugefügt werden.

Wir setzen eine enorme Anzahl von Computern ein, die täglich Milliarden von Webseiten durchsuchen ("crawlen"). Der Googlebot verwendet einen algorithmischen Prozess. Durch Computerprogramme wird bestimmt, welche Websites wann und wie oft durchsucht werden und wie viele Seiten von jeder Website abgerufen werden.

Der Crawling-Prozess des Googlebot beginnt mit einer Liste von Webseiten-URLs, die aus vorhergehenden Crawling-Prozessen generiert und mit den von den Webmastern bereitgestellten Sitemap-Daten vervollständigt wurde. Beim Besuch auf diesen Websites erkennt der Googlebot Links (SRC und HREF) auf jeder Seite und fügt sie der Liste der zu crawlenden Seiten hinzu. Neue Websites, Änderungen an bestehenden Websites und veraltete Links werden ermittelt und zur Aktualisierung des Google-Indexes verwendet.

Für Webmaster: der Googlebot und Ihre Website

So greift der Googlebot auf Ihre Website zu

In den meisten Fällen greift der Googlebot im Durchschnitt nur einmal alle paar Sekunden auf Ihre Website zu. Aufgrund von Netzwerkverzögerungen kann die Frequenz über kurze Zeiträume gesehen jedoch höher erscheinen.

Der Googlebot wurde für die Verteilung auf mehrere Computer konzipiert, um so analog zum Wachstum des Webs die Leistung verbessern und den Umfang steigern zu können. Um die benötigte Bandbreite zu reduzieren, führen wir zudem zahlreiche Crawler auf Computern aus, die sich in der Umgebung der indexierten Websites im Netzwerk befinden. Aus diesem Grund weisen Ihre Protokolle bei google.com eventuell Aufrufe verschiedener Computer mit dem User-Agent "Googlebot" auf. Wir bemühen uns, bei jedem Besuch möglichst viele Seiten Ihrer Website zu crawlen, ohne die Bandbreite Ihres Servers übermäßig zu beanspruchen. Fordern Sie eine andere Crawling-Frequenz an.

Inhalte Ihrer Website für den Googlebot sperren

Es ist praktisch unmöglich, einen Webserver geheim zu halten, indem Sie keine Links zu ihm veröffentlichen. Sobald jemand einem Link von Ihrem "geheimen" Server zu einem anderen Webserver folgt, kann Ihre "geheime" URL im Verweis-Tag vorkommen und von dem anderen Webserver in dessen Verweisprotokoll veröffentlicht werden. Außerdem gibt es im Web zahlreiche veraltete und fehlerhafte Links. Sollte jemand einen falschen Link zu Ihrer Website veröffentlichen oder die Links nicht aktualisieren, wenn sich auf Ihrem Server etwas ändert, versucht der Googlebot einen falschen Link von Ihrer Website herunterzuladen.

Wenn Sie verhindern möchten, dass der Googlebot Content Ihrer Website crawlt, haben Sie mehrere Möglichkeiten. Sie können beispielsweise mithilfe von robots.txt den Zugriff auf die Dateien und Verzeichnisse auf Ihrem Server sperren.

Nachdem Sie Ihre robots.txt-Datei erstellt haben, dauert es möglicherweise ein wenig, bis der Googlebot Ihre Änderungen erfasst. Sollte der Googlebot weiterhin Inhalte crawlen, die Sie über robots.txt gesperrt haben, überprüfen Sie, ob die robots.txt-Datei an der richtigen Stelle gespeichert ist. Die Datei muss sich im obersten Verzeichnis des Servers befinden, zum Beispiel unter www.ihrebeispielurl.de/robots.txt. Das Platzieren der Datei in einem Unterverzeichnis hat keine Wirkung.

Falls Sie lediglich verhindern möchten, dass Ihr Webserverprotokoll Fehlermeldungen des Typs "Datei nicht gefunden" aufweist, können Sie eine leere Datei namens robots.txt erstellen. Möchten Sie jegliche Verfolgung von Links auf einer Seite Ihrer Website durch den Googlebot unterbinden, können Sie das Meta-Tag "nofollow" verwenden. Um zu verhindern, dass der Googlebot einem bestimmten Link folgt, fügen Sie das Attribut rel="nofollow" zum Link selbst hinzu.

Hier einige weitere Tipps:

  • Überprüfen Sie, ob Ihre robots.txt-Datei erwartungsgemäß funktioniert. Mit dem Tool zum Testen der robots.txt-Datei auf der Seite Blockierte URLs können Sie genau feststellen, wie der Googlebot den Inhalt Ihrer robots.txt-Datei interpretiert. Der Google-User-Agent ist, sinnvollerweise, Googlebot.
  • Mit dem Tool Abruf wie durch Google in der Search Console können Sie genau nachvollziehen, wie der Googlebot Ihre Website sieht. Dies kann bei der Behebung von Problemen mit dem Inhalt Ihrer Website oder bei der Auffindbarkeit in den Suchergebnissen sehr hilfreich sein.

Sicherstellen, dass Ihre Website gecrawlt werden kann

Der Googlebot findet Websites, indem er den Links von einer Seite zur nächsten folgt. Auf der Seite Crawling-Fehler in der Search Console werden alle Probleme aufgeführt, die der Googlebot beim Crawlen Ihrer Website erkannt hat. Es wird empfohlen, diese Crawling-Fehler regelmäßig zu überprüfen. So können Sie feststellen, ob es Probleme mit Ihrer Website gibt.

Wenn Ihre robots.txt-Datei wie gewünscht funktioniert, Ihre Website jedoch nicht aufgerufen wird, informieren Sie sich über Gründe dafür, dass Ihre Inhalte bei der Suche keine gute Leistung erzielen.

Probleme mit Spammern und anderen User-Agents

Die vom Googlebot verwendeten IP-Adressen ändern sich von Zeit zu Zeit. Zugriffe durch Googlebot identifizieren Sie am einfachsten mithilfe des User-Agents (Googlebot). Sie können überprüfen, ob der auf Ihren Server zugreifende Bot wirklich der Googlebot ist, indem Sie eine umgekehrte DNS-Suche durchführen.

Der Googlebot und alle seriösen Suchmaschinen-Bots berücksichtigen die Anweisungen von robots.txt, einige bösartige Nutzer und Spammer jedoch nicht. Spam bei Google melden

Es gibt einige weitere User-Agents von Google, beispielsweise den Feedfetcher (User-Agent Feedfetcher-Google). Da die Feedfetcher-Anfragen nicht von automatisierten Crawlern, sondern aus bewussten Handlungen menschlicher Nutzer stammen, die die Feeds Ihrer Google-Startseite hinzugefügt haben, berücksichtigt der Feedfetcher die Richtlinien von robots.txt nicht. Sie können das Crawlen Ihrer Website durch den Feedfetcher unterbinden, indem Sie Ihren Server so konfigurieren, dass er dem User-Agent Feedfetcher-Google eine Fehlermeldung mit dem Code 404 oder 410 zurückgibt. Weitere Informationen über den Feedfetcher

War dieser Artikel hilfreich?
Wie können wir die Seite verbessern?