Suche
Suche löschen
Suche schließen
Google-Apps
Hauptmenü

URLs mit robots.txt blockieren

Informationen zur robots.txt-Datei

Eine robots.txt-Datei ist eine Datei im Stammverzeichnis Ihrer Website, in der die Teile Ihrer Website angegeben sind, auf die Suchmaschinen-Crawler nicht zugreifen sollen. Die Datei verwendet den Robots Exclusion Standard, ein Protokoll mit einigen Befehlen. Damit werden die Zugriffsmöglichkeiten auf Ihre Website für einzelne Abschnitte und für verschiedene Typen von Web-Crawlern angegeben, wie z. B. mobile Crawler im Gegensatz zu Desktop-Crawlern.

Wofür wird die robots.txt-Datei verwendet?

Nicht-Bilddateien

Für Nicht-Bilddateien, also Webseiten, sollte die robots.txt-Datei nur verwendet werden, um Crawling-Zugriffe zu steuern. Damit können Sie verhindern, dass Ihr Server vom Google Crawler überlastet wird oder Ihr Crawling-Budget verschwendet wird, indem unwichtige oder ähnliche Seiten auf Ihrer Website gecrawlt werden. Verwenden Sie die robots.txt-Datei nicht, um Ihre Webseiten vor der Google-Suche zu verbergen. Andere Seiten könnten nämlich auf Ihre Seite verweisen. Auf diese Weise könnte Ihre Seite indexiert und die robots.txt-Datei umgangen werden. Wenn Sie Ihre Seite von den Suchergebnissen ausschließen möchten, verwenden Sie eine andere Methode wie den Passwortschutz oder noindex-Tags oder -Anweisungen.

Bilddateien

Die Datei robots.txt verhindert, dass Bilddateien in Google-Suchergebnissen erscheinen. Sie hindert jedoch nicht andere Seiten oder Nutzer daran, eine Verknüpfung zu Ihrem Bild herzustellen.

Ressourcendateien

Sie können mit der robots.txt-Datei Ressourcendateien, wie unwichtige Bild-, Script- oder Stildateien, blockieren. Tun Sie dies, wenn Sie glauben, dass Seiten nicht erheblich beeinträchtigt werden, wenn sie ohne diese Ressourcen geladen werden. Wenn jedoch die Abwesenheit dieser Ressourcen dazu führt, dass die Seite für den Google Crawler schwieriger verständlich ist, sollten Sie sie nicht blockieren. Ansonsten kann Google Seiten, die diese Ressourcen benötigen, nicht gut analysieren.

Einschränkungen von robots.txt

Bevor Sie Ihre robots.txt-Datei erstellen, sollten Sie die Risiken dieser URL-Blockierungsmethode kennen. Manchmal sind andere Methoden besser geeignet, um sicherzustellen, dass Ihre URLs im Internet nicht auffindbar sind.

  • Die Anweisungen in der robots.txt-Datei müssen nicht zwingend befolgt werden.

    Durch die Anweisungen in robots.txt-Dateien kann kein bestimmtes Crawler-Verhalten bezüglich Ihrer Website erzwungen werden. Sie dienen den Crawlern, die auf Ihre Website zugreifen, lediglich als Richtlinien. Der Googlebot und andere seriöse Webcrawler befolgen die Anweisungen in einer robots.txt-Datei, andere Crawler tun dies jedoch vielleicht nicht. Wenn Sie sicherstellen möchten, dass Web-Crawler auf bestimmte Informationen nicht zugreifen können, sollten Sie daher andere Blockierungsmethoden einsetzen, beispielsweise passwortgeschützte Dateien auf Ihrem Server.
  • Unterschiedliche Crawler interpretieren auch die Syntax unterschiedlich.

    Die in einer robots.txt-Datei festgelegten Anweisungen werden zwar von seriösen Webcrawlern respektiert, können aber von einigen anderen Crawlern anders interpretiert werden. Informieren Sie sich über die korrekte Syntax für Anweisungen an verschiedene Webcrawler, da sonst manche von ihnen möglicherweise nicht alle Befehle verstehen.
  • Die Richtlinien in Ihrer robots.txt-Datei können nicht verhindern, dass auf anderen Websites Verweise auf Ihre URLs verwendet werden.

    Zwar crawlt oder indexiert Google die von der robots.txt-Datei blockierten Inhalte nicht, aber es ist dennoch möglich, dass nicht zugelassene URLs auf anderen Seiten im Internet gefunden und indexiert werden. Folglich können die URL und eventuell andere öffentlich verfügbare Daten, wie der Ankertext in Links zur Website, in den Google-Suchergebnissen erscheinen. Sie können verhindern, dass Ihre URL in den Suchergebnissen erscheint, indem Sie andere URL-Blockierungsmethoden verwenden. Dazu gehören u. a. passwortgeschützte Dateien auf Ihrem Server oder die Verwendung des "noindex"-Meta-Tags oder -Antwort-Headers.
Hinweis: Der kombinierte Einsatz mehrerer Crawling- und Indexierungsrichtlinien kann Konflikte zwischen sich widersprechenden Richtlinien verursachen. Im Abschnitt zur Kombination von Crawling-Richtlinien mit Indexierungs-/Bereitstellungsrichtlinien der Google Developers-Dokumentation können Sie nachlesen, wie Sie diese Richtlinien richtig konfigurieren.
War dieser Artikel hilfreich?