Der Googlebot ist der Webcrawler (auch "Spider" genannt) von Google. Crawling wird der Prozess genannt, durch den Googlebot neue und aktualisierte Seiten ermittelt, damit sie dem Google-Index hinzugefügt werden.
Wir setzen eine gewaltige Anzahl von Computern ein, die täglich Milliarden von Webseiten durchsuchen ("crawlen"). Der Googlebot verwendet einen algorithmischen Prozess. Durch Computerprogramme wird bestimmt, welche Websites wann und wie oft durchsucht werden und wie viele Seiten von jeder Website abgerufen werden.
Der Crawling-Prozess des Googlebot beginnt mit einer Liste von Webseiten-URLs, die aus vorhergehenden Crawling-Prozessen generiert und mit den von den Webmastern bereitgestellten XML-Sitemap-Daten vervollständigt wurde. Beim Besuch auf diesen Websites erkennt der Googlebot Links (SRC and HREF) auf jeder Seite und fügt sie der Liste der zu crawlenden Seiten hinzu. Neue Websites, Änderungen an bestehenden Websites und veraltete Links werden ermittelt und zur Aktualisierung des Google-Indexes verwendet.
Für Webmaster: der Googlebot und Ihre Website
So greift der Googlebot auf Ihre Website zu
In den meisten Fällen greift der Googlebot im Durchschnitt nur einmal alle paar Sekunden auf Ihre Website zu. Aufgrund von Netzwerkverzögerungen kann die Frequenz über kurze Zeiträume gesehen jedoch höher erscheinen. Im Allgemeinen sollte der Googlebot jeweils nur ein Exemplar der einzelnen Seiten herunterladen. Sollten Sie feststellen, dass der Googlebot eine Seite mehrfach herunterlädt, liegt dies möglicherweise daran, dass der Crawler gestoppt und neu gestartet wurde.
Der Googlebot wurde für die Verteilung auf mehrere Computer konzipiert, um so analog zum Wachstum des Webs die Leistung verbessern und den Umfang steigern zu können. Außerdem führen wir, um die benötigte Bandbreite zu reduzieren, zahlreiche Crawler auf Computern aus, die sich in der Umgebung der indexierten Websites im Netzwerk befinden. Aus diesem Grund enthalten Ihre Protokolle möglicherweise Besuche von mehreren Computern von google.com mit dem User-Agent-Googlebot. Dabei ist es das Ziel, bei jedem Besuch möglichst viele Seiten Ihrer Website zu crawlen, ohne die Bandbreite Ihres Servers übermäßig zu beanspruchen. Fordern Sie eine andere Crawling-Frequenz an.
Sperren des Contents Ihrer Website für den Googlebot
Es ist praktisch unmöglich, einen Webserver geheim zu halten, indem Sie keine Links zu ihm veröffentlichen. Sobald jemand einem Link von Ihrem "geheimen" Server zu einem anderen Webserver folgt, kann Ihre "geheime" URL im Verweis-Tag vorkommen und von dem anderen Webserver in dessen Verweisprotokoll veröffentlicht werden. Außerdem gibt es im Web zahlreiche veraltete und fehlerhafte Links. Sollte jemand einen falschen Link zu Ihrer Website veröffentlichen oder die Links nicht aktualisieren, wenn sich auf Ihrem Server etwas ändert, versucht der Googlebot einen falschen Link von Ihrer Website herunterzuladen.
Sie haben mehrere Möglichkeiten, zu verhindern, dass der Googlebot Content Ihrer Website crawlt. Sie können beispielsweise mithilfe von robots.txt den Zugriff auf die Dateien und Verzeichnisse auf Ihrem Server sperren.
Nachdem Sie Ihre "robots.txt"-Datei erstellt haben, dauert es möglicherweise ein wenig, bis der Googlebot Ihre Änderungen erkennt. Sollte der Googlebot Content, den Sie über "robots.txt" gesperrt haben, weiterhin crawlen, überprüfen Sie, ob sich die Datei "robots.txt" am richtigen Speicherort befindet. Hierbei handelt es sich um das oberste Verzeichnis des Servers, beispielsweise "www.myhost.com/robots.txt". Wird die Datei in einem Unterverzeichnis gespeichert, ist sie wirkungslos.
Falls Sie lediglich verhindern möchten, dass Ihr Webserverprotokoll Fehlermeldungen des Typs "Datei nicht gefunden" aufweist, können Sie eine leere Datei namens "robots.txt" erstellen. Möchten Sie jegliche Verfolgung von Links auf einer Seite Ihrer Website durch den Googlebot unterbinden, können Sie das Meta-Tag"nofollow" verwenden. Falls Sie verhindern möchten, dass der Googlebot einem einzelnen Link folgt, fügen Sie dem Link selbst das Attribut rel="nofollow" hinzu.
Hier einige weitere Tipps:
- Überprüfen Sie, ob Ihre "robots.txt"-Datei erwartungsgemäß funktioniert. Mit dem Tool zum Testen der robots.txt-Datei auf der Seite Blockierte URLs (unter Status) können Sie genau feststellen, wie der Googlebot den Inhalt Ihrer robots.txt-Datei interpretiert. Der Google-User-Agent ist, sinnvollerweise,
Googlebot. - Mit dem Tool Abruf wie durch Google in den Webmaster-Tools können Sie Ihre Website genau so sehen, wie sie der Googlebot sieht. Dies kann bei der Behebung von Problemen mit dem Content Ihrer Website oder bei der Auffindbarkeit in Suchergebnissen sehr hilfreich sein.
Sicherstellen, dass Ihre Website gecrawlt werden kann
Der Googlebot findet Websites, indem er den Links von einer Seite zur nächsten folgt. Auf der Crawling-Fehler-Seite in Webmaster-Tools werden alle Probleme aufgelistet, die der Googlebot beim Crawlen Ihrer Website festgestellt hat. Es wird empfohlen, diese Crawling-Fehler regelmäßig zu überprüfen. So können Sie feststellen, ob es Probleme mit Ihrer Website gibt.
Wenn Sie eine AJAX-Anwendung mit Inhalten ausführen, die Sie in den Suchergebnissen anzeigen möchten, sollten Sie unser Angebot, AJAX-Content crawl- und indexierbar zu machen, überprüfen.
Falls Ihre "robots.txt"-Datei erwartungsgemäß funktioniert, Ihre Website jedoch nicht besucht wird, finden Sie hier einige Gründe, aus denen Ihr Content bei der Suche keine gute Leistung erzielt.
Probleme mit Spammern und anderen User-Agents
Die vom Googlebot verwendeten IP-Adressen ändern sich von Zeit zu Zeit. Zugriffe durch den Googlebot identifizieren Sie am einfachsten mithilfe des User-Agents (Googlebot). Sie können überprüfen, ob der auf Ihren Server zugreifende Bot wirklich der Googlebot ist, indem Sie eine umgekehrte DNS-Suche durchführen.
Der Googlebot und alle seriösen Suchmaschinen-Bots berücksichtigen die Anweisungen von "robots.txt", einige bösartige Nutzer und Spammer jedoch nicht. Spam an Google melden
Es gibt einige weitere User-Agents von Google, beispielsweise den Feedfetcher (User-Agent Feedfetcher-Google). Da die Feedfetcher-Anfragen nicht von automatisierten Crawlern, sondern aus expliziten Aktionen von menschlichen Nutzern stammen, die die Feeds Ihrer Google-Startseite oder Google Reader hinzugefügt haben, befolgt der Feedfetcher die Richtlinien von "robots.txt" nicht. Sie können das Crawlen Ihrer Website durch den Feedfetcher unterbinden, indem Sie Ihren Server so konfigurieren, dass er dem User-Agent Feedfetcher-Google eine Fehlermeldung mit dem Code 404 oder 410 zurückgibt. Weitere Informationen über den Feedfetcher
