URLs mit robots.txt blockieren

Informationen zur robots.txt-Datei

Was ist eine robots.txt-Datei?

Eine robots.txt-Datei teilt Suchmaschinen-Crawlern mit, welche Seiten oder Dateien der Crawler von Ihrer Website anfordern kann und welche nicht. Dies dient hauptsächlich dazu, eine Überlastung Ihrer Website mit Anfragen zu vermeiden. Es handelt sich dabei nicht um einen Mechanismus, um eine Website aus Google auszuschließen. Wenn Sie eine Website aus Google ausschließen möchten, verwenden Sie am besten noindex-Tags oder -Anweisungen oder schützen Sie Ihre Seite mit einem Passwort.

Wofür wird die robots.txt-Datei verwendet?

Die robots.txt-Datei wird hauptsächlich zur Verwaltung des Crawler-Traffics auf Ihrer Website verwendet und gelegentlich dazu, eine Seite aus Google auszuschließen. Dies hängt vom Dateityp ab:

Seitentyp Traffic-Verwaltung Vor Google verbergen Beschreibung
Webseite

Für Webseiten (HTML, PDF oder andere Formate, die von Google gelesen werden können) kann die robots.txt-Datei zur Verwaltung des Crawling-Traffics verwendet werden, wenn Sie der Ansicht sind, dass Ihr Server mit Anfragen vom Google Crawler überlastet ist, oder um das Crawlen unwichtiger oder ähnlicher Seiten auf Ihrer Website zu vermeiden.

Verwenden Sie die robots.txt-Datei nicht, um Ihre Webseiten vor der Google-Suche zu verbergen. Der Grund dafür ist, dass Ihre Seite trotzdem auch ohne Seitenaufruf indexiert werden kann, wenn andere Seiten mit beschreibendem Text auf Ihre Seite verweisen. Wenn Sie Ihre Seite von den Suchergebnissen ausschließen möchten, sollten Sie eine andere Methode wie den Passwortschutz oder eine noindex-Anweisung verwenden.

Wenn Ihre Website über eine robots.txt-Datei blockiert ist, kann sie zwar weiterhin in den Suchergebnissen erscheinen, aber das Suchergebnis enthält keine Beschreibung und sieht in etwa so aus. Bilddateien, Videodateien, PDFs und andere Nicht-HTML-Dateien werden ausgeschlossen. Wenn Sie dieses Suchergebnis für Ihre Seite sehen und dieses Problem beheben möchten, entfernen Sie den robots.txt-Eintrag, der die Seite blockiert. Wenn Sie die Seite vollständig von den Suchergebnissen ausschließen möchten, verwenden Sie eine andere Methode.

Mediendatei

Verwenden Sie die robots.txt-Datei, um den Crawling-Traffic zu verwalten oder zu verhindern, dass Bild-, Video- und Audiodateien in den Google-Suchergebnissen angezeigt werden. Beachten Sie jedoch, dass dies andere Seiten oder Nutzer nicht daran hindert, auf Ihre Bild-/Video-/Audiodatei zu verweisen.

Ressourcendatei

Sie können mit der robots.txt-Datei Ressourcendateien, wie unwichtige Bild-, Skript- oder Stildateien, blockieren. Tun Sie dies, wenn Sie glauben, dass Seiten nicht erheblich beeinträchtigt werden, wenn sie ohne diese Ressourcen geladen werden. Wenn jedoch die Abwesenheit dieser Ressourcen dazu führt, dass die Seite für den Google Crawler schwieriger verständlich ist, sollten Sie sie nicht blockieren. Ansonsten kann Google Seiten, die diese Ressourcen benötigen, nicht gut analysieren.

Ich verwende einen Hostanbieter

Wenn Sie einen Hostanbieter wie WIX, Drupal oder Blogger verwenden, müssen (oder können) Sie Ihre robots.txt-Datei möglicherweise nicht direkt bearbeiten. Stattdessen kann Ihr Anbieter eine Seiteneinstellung oder einen anderen Mechanismus bereitstellen, um Suchmaschinen mitzuteilen, ob Ihre Seite gecrawlt werden soll oder nicht.

Um zu überprüfen, ob Ihre Seite von der Google-Suche gecrawlt wurde, suchen Sie in Google nach der Seiten-URL.

Um zu erreichen, dass Ihre Seite angezeigt bzw. nicht angezeigt wird, können Sie Anmeldeanforderungen für Seiten hinzufügen bzw. entfernen. Außerdem können Sie in der Google-Suche nach einer Anleitung suchen, die erklärt, wie Sie bei Ihrem Hostanbieter die Sichtbarkeit Ihrer Seite in Suchmaschinen ändern. Hier eine Beispielsuche: wix Seite vor Suchmaschinen verbergen

Einschränkungen von robots.txt

Bevor Sie die robots.txt-Datei erstellen oder bearbeiten, sollten Sie die Einschränkungen dieser URL-Blockierungsmethode kennen. Manchmal sind andere Methoden besser geeignet, um sicherzustellen, dass Ihre URLs im Internet nicht auffindbar sind.

  • Die Anweisungen in der robots.txt-Datei müssen nicht zwingend befolgt werden.
    Durch die Anweisungen in robots.txt-Dateien kann kein bestimmtes Crawler-Verhalten bezüglich Ihrer Website erzwungen werden. Sie dienen den Crawlern, die auf Ihre Website zugreifen, lediglich als Richtlinien. Der Googlebot und andere seriöse Webcrawler befolgen die Anweisungen in einer robots.txt-Datei, andere Crawler tun dies jedoch vielleicht nicht. Wenn Sie sicherstellen möchten, dass Webcrawler auf bestimmte Informationen nicht zugreifen können, sollten Sie daher andere Blockierungsmethoden einsetzen, beispielsweise passwortgeschützte Dateien auf Ihrem Server.
  • Unterschiedliche Crawler interpretieren auch die Syntax unterschiedlich.
    Die in einer robots.txt-Datei festgelegten Anweisungen werden zwar von seriösen Webcrawlern respektiert, allerdings können verschiedene Crawler sie jeweils unterschiedlich interpretieren. Informieren Sie sich über die korrekte Syntax für Anweisungen an verschiedene Webcrawler, da sonst manche von ihnen möglicherweise nicht alle Befehle verstehen.
  • Eine Seite, die eine robots.txt.-Datei verwendet, kann weiterhin indiziert werden, wenn von anderen Websites auf sie verwiesen wird.
    Zwar crawlt oder indexiert Google die von der robots.txt-Datei blockierten Inhalte nicht, aber es ist dennoch möglich, dass nicht zugelassene URLs gefunden und indexiert werden, wenn von anderen Orten im Internet auf sie verwiesen wird. Aus diesem Grund können die URL und eventuell andere öffentlich verfügbare Daten, wie der Ankertext im Link zu einer Webseite, in den Google-Suchergebnissen erscheinen. Sie können verhindern, dass Ihre URL in den Suchergebnissen erscheint, indem Sie Dateien auf Ihrem Server mit einem Passwort schützen, noindex-Meta-Tags oder Antwort-Header verwenden oder die Seite vollständig entfernen.
Hinweis: Der kombinierte Einsatz mehrerer Crawling- und Indexierungsrichtlinien kann Konflikte zwischen sich widersprechenden Richtlinien verursachen. Im Abschnitt zur Kombination von Crawling-Richtlinien mit Indexierungs-/Bereitstellungsrichtlinien der Google Developers-Dokumentation können Sie nachlesen, wie Sie diese Richtlinien richtig konfigurieren.

Seite auf robots.txt-Blockierungen prüfen

Sie können prüfen, ob eine Seite oder Ressource durch eine robots.txt-Regel blockiert wird.

Verwenden Sie zum Prüfen auf noindex-Anweisungen das URL-Prüftool.

War dieser Artikel hilfreich?
Wie können wir die Seite verbessern?