Googlebot

Googlebot ist der allgemeine Name für den Web-Crawler von Google. Genauer gesagt handelt es sich dabei um zwei verschiedene Arten von Crawlern: einen Computer-Crawler, der einen Nutzer auf einem Computer simuliert, und einen mobilen Crawler, der einen Nutzer auf einem Mobilgerät simuliert.

Ihre Website wird wahrscheinlich sowohl vom Googlebot für Computer als auch vom Googlebot-Mobile gecrawlt. Um welchen der beiden es sich handelt, sehen Sie im User-Agent-String in der Anfrage. Allerdings gilt für beide Crawler-Typen das gleiche Produkt-Token (User-Agent-Token) in der Datei "robots.txt" und es ist nicht möglich, gezielt den Googlebot für Computer oder den Googlebot-Mobile auszuwählen.

Wenn Ihre Website bei Google auf Mobile First umgestellt wurde, kommen die meisten Googlebot-Anfragen über den mobilen Crawler und ein kleiner Teil über den Computer-Crawler. Bei Websites, die noch nicht umgestellt wurden, wird meistens über den Computer-Crawler gecrawlt. Derjenige der Crawler, der seltener genutzt wird, crawlt in beiden Fällen nur URLs, die bereits vom Haupt-Crawler gecrawlt wurden.

 

So greift der Googlebot auf Ihre Website zu

In den meisten Fällen greift der Googlebot im Durchschnitt nur einmal alle paar Sekunden auf Ihre Website zu. Aufgrund von Verzögerungen kann die Frequenz über kurze Zeiträume gesehen jedoch höher erscheinen.

Der Googlebot wurde so entwickelt, dass er gleichzeitig über tausende Computer ausgeführt werden kann, um so analog zum Wachstum des Webs die Leistung zu verbessern und den Umfang zu steigern. Um nicht unnötig Bandbreite zu beanspruchen, führen wir viele Crawler auf Computern aus, die sich in der Nähe der Websites befinden, die sie crawlen. Aus diesem Grund weisen Ihre Protokolle bei google.com eventuell Aufrufe verschiedener Computer mit dem User-Agent "Googlebot" auf. Wir bemühen uns, bei jedem Besuch möglichst viele Seiten Ihrer Website zu crawlen, ohne dass die Bandbreite Ihres Servers zu sehr beansprucht wird. Wenn Ihre Website nicht mit den Crawling-Anfragen von Google mithalten kann, können Sie eine Änderung der Crawling-Frequenz beantragen.

Googlebot für das Crawlen Ihrer Website blockieren

Es ist praktisch unmöglich, einen Webserver geheim zu halten, indem Sie keine Links zu ihm veröffentlichen. Sobald beispielsweise jemand einem Link von Ihrem "geheimen" Server zu einem anderen Server folgt, kommt Ihre "geheime" URL im Verweis-Tag vor und kann von dem anderen Webserver in dessen Verweisprotokoll gespeichert und veröffentlicht werden. Außerdem gibt es im Web zahlreiche veraltete und fehlerhafte Links. Sollte jemand einen falschen Link zu Ihrer Website veröffentlichen oder die Links nicht aktualisieren, wenn sich auf Ihrem Server etwas ändert, versucht der Googlebot einen falschen Link von Ihrer Website zu crawlen.

Wenn Sie nicht möchten, dass der Googlebot Inhalte auf Ihrer Website crawlt, haben Sie verschiedene Möglichkeiten. Dabei können Sie entweder verhindern, dass der Googlebot eine Seite crawlt, dass er sie indexiert oder dass sowohl Crawler als auch Nutzer überhaupt auf die Seite zugreifen können.

Googlebot überprüfen

Bevor Sie sich dazu entscheiden, den Googlebot zu blockieren, sollten Sie wissen, dass der vom Googlebot verwendete User-Agent-String oftmals von anderen Crawlern gefälscht wird. Es ist wichtig, zu überprüfen, ob eine problematische Anfrage tatsächlich von Google stammt. Die beste Möglichkeit, um zu überprüfen, ob eine Anfrage tatsächlich vom Googlebot stammt, besteht darin, einen umgekehrten DNS-Lookup für die Quell-IP der Anfrage zu verwenden.

Der Googlebot und alle seriösen Suchmaschinen-Bots berücksichtigen die Anweisungen von robots.txt, einige bösartige Nutzer und Spammer jedoch nicht. Google bekämpft Spammer aktiv. Wenn Sie Spamseiten oder -websites in den Google-Suchergebnissen entdecken, können Sie Google diesen Spam melden.

 

War das hilfreich?
Wie können wir die Seite verbessern?