Der Googlebot

Der Googlebot ist der Webcrawler (auch "Spider" genannt) von Google. Crawling wird der Prozess genannt, durch den Googlebot neue und aktualisierte Seiten ermittelt, damit diese dem Google-Index hinzugefügt werden.

Wir setzen eine enorme Anzahl von Computern ein, die täglich Milliarden von Webseiten durchsuchen ("crawlen"). Der Googlebot verwendet einen algorithmischen Prozess. Dabei wird durch Computerprogramme bestimmt, welche Websites wann und wie oft durchsucht werden und wie viele Seiten von jeder Website abgerufen werden.

So greift der Googlebot auf Ihre Website zu

In den meisten Fällen greift der Googlebot im Durchschnitt nur einmal alle paar Sekunden auf Ihre Website zu. Aufgrund von Netzwerkverzögerungen kann die Frequenz über kurze Zeiträume gesehen jedoch höher erscheinen.

Der Googlebot wurde für die Verteilung auf mehrere Computer konzipiert, um so analog zum Wachstum des Webs die Leistung verbessern und den Umfang steigern zu können. Um die benötigte Bandbreite zu reduzieren, führen wir zudem zahlreiche Crawler auf Computern aus, die sich in der Umgebung der indexierten Websites im Netzwerk befinden. Aus diesem Grund weisen Ihre Protokolle bei google.com eventuell Aufrufe verschiedener Computer mit dem User-Agent "Googlebot" auf. Wir bemühen uns, bei jedem Besuch möglichst viele Seiten Ihrer Website zu crawlen, ohne die Bandbreite Ihres Servers übermäßig zu beanspruchen. Fordern Sie eine andere Crawling-Frequenz an.

Inhalte Ihrer Website für den Googlebot sperren

Es ist praktisch unmöglich, einen Webserver geheim zu halten, indem Sie keine Links zu ihm veröffentlichen. Sobald jemand einem Link von Ihrem "geheimen" Server zu einem anderen Webserver folgt, kann Ihre "geheime" URL im Verweis-Tag vorkommen und von dem anderen Webserver in dessen Verweisprotokoll veröffentlicht werden. Außerdem gibt es im Web zahlreiche veraltete und fehlerhafte Links. Sollte jemand einen falschen Link zu Ihrer Website veröffentlichen oder die Links nicht aktualisieren, wenn sich auf Ihrem Server etwas ändert, versucht der Googlebot einen falschen Link von Ihrer Website herunterzuladen.

Wenn Sie nicht möchten, dass der Googlebot Inhalte auf Ihrer Website crawlt, haben Sie verschiedene Möglichkeiten. Dabei können Sie entweder verhindern, dass der Googlebot eine Seite crawlt, dass er sie indexiert oder dass sowohl Crawler als auch Nutzer überhaupt auf die Seite zugreifen können.

Probleme mit Spammern und anderen User-Agents

Die vom Googlebot verwendeten IP-Adressen ändern sich von Zeit zu Zeit. Der Googlebot kann über einen User-Agent-String identifiziert werden, der sich jedoch fälschen lässt. Um herauszufinden, ob ein Zugriff vom Googlebot stammt, nutzt man daher am besten einen umgekehrten DNS-Lookup.

Der Googlebot und alle seriösen Suchmaschinen-Bots berücksichtigen die Anweisungen von robots.txt, einige bösartige Nutzer und Spammer jedoch nicht. Spam bei Google melden

Es gibt einige weitere User-Agents von Google, beispielsweise den Feedfetcher (User-Agent Feedfetcher-Google). Da die Feedfetcher-Anfragen nicht von automatisierten Crawlern, sondern aus bewussten Handlungen menschlicher Nutzer stammen, die die Feeds Ihrer Google-Startseite hinzugefügt haben, berücksichtigt der Feedfetcher die Richtlinien von robots.txt nicht. Sie können das Crawlen Ihrer Website durch den Feedfetcher unterbinden, indem Sie Ihren Server so konfigurieren, dass er dem User-Agent Feedfetcher-Google eine Fehlermeldung mit dem Code 404 oder 410 zurückgibt. Weitere Informationen über den Feedfetcher

War dieser Artikel hilfreich?
Wie können wir die Seite verbessern?