Blockieren von Google News mit Robots

Nachrichtendienstleister veröffentlichen viele verschiedene Inhalte, die aber nicht alle unbedingt für Google News geeignet sind. Sie können verhindern, dass bestimmte Teile Ihrer Website von unseren Crawlern indexiert werden, indem Sie eine robots.txt-Datei, Meta-Tags oder eine HTTP-Header-Spezifikation erstellen. Google News verwendet zum Crawling den gleichen Robot wie die Google Websuche, nämlich den Googlebot Neues Fenster.

Falls Sie Ihre Website lieber nicht in Google News aufnehmen lassen, aber in der Google Websuche bleiben möchten, folgt Google News einem Robots-Eintrag für den Googlebot für Nachrichten, falls dieser restriktiver als der Robots-Eintrag für den Googlebot ist. Anders gesagt:

  • Falls Sie den Zugriff für den Googlebot für Nachrichten blockieren, indexieren wir Ihre Website nicht in Google News.
  • Falls Sie den Zugriff für den Googlebot blockieren, indexieren wir Ihre Website weder in Google News noch in der Google Websuche.

Robots.txt-Datei erstellen

Durch Verwendung einer robots.txt-Datei können Sie weitgehend selbst steuern, welche Teile Ihrer Website von Google indexiert werden. Eine ausführliche Anleitung zum Erstellen und Verwalten von robots.txt-Dateien finden Sie in unserer Hilfe für Webmaster Neues Fenster .

Hinweis:

  • Wenn Sie nicht möchten, dass Ihre Website durch Google News indexiert wird, können Sie den Zugriff für den Googlebot für Nachrichten mithilfe einer robots.txt-Datei blockieren.
  • Wenn Sie nicht möchten, dass Ihre Website durch Google News und Google Websuche indexiert wird, können Sie den Zugriff für den Googlebot mithilfe einer robots.txt-Datei blockieren.

Achten Sie darauf, unserem Crawler Zugriff auf Ihre robots.txt-Datei zu geben. So wissen wir Bescheid, falls Sie bestimmte Bereiche Ihrer Website angegeben haben, die nicht gecrawlt werden sollen.

Ein Meta-Tag erstellen

Anstatt eine robots.txt-Datei zum Blockieren des Crawler-Zugriffs auf bestimmte Seiten zu verwenden, können Sie auch ein Meta-Tag zu einer HTML-Seite hinzufügen. Hierdurch werden Robots angewiesen, bestimmte Seiten nicht zu indexieren. Dieser Standard wird in unserer Hilfe für Webmaster Neues Fenster beschrieben.

Hinweis:

  • Wenn Sie verhindern möchten, dass bestimmte Artikel auf Ihrer Website durch Google News indexiert werden, können Sie den Zugriff für den Googlebot für Nachrichten mithilfe eines Meta-Tags blockieren.

  • Wenn Sie verhindern möchten, dass bestimmte Artikel auf Ihrer Website durch Google News und Google Websuche indexiert werden, können Sie den Zugriff für den Googlebot mithilfe eines Meta-Tags blockieren.

  • Wenn Sie verhindern möchten, dass bestimmte Artikel auf Ihrer Website durch jegliche Robots indexiert werden, können Sie den Zugriff mithilfe des folgenden Meta-Tags blockieren.

    <meta name="robots" content="noindex, nofollow">

  • Um die Indexierung eines bestimmten Artikels durch Robots zu verhindern, können Sie den Zugriff darauf mithilfe des folgenden Meta-Tags verhindern:

    <meta name="robots" content="noimageindex">

  • Wenn Sie uns informieren möchten, dass ein Artikel zu einem bestimmten Zeitpunkt abläuft und zu diesem Zeitpunkt auch aus dem Google-Index entfernt werden sollte, verwenden Sie folgendes Tag:

    <meta name="googlebot" content="unavailable_after: 25-Aug-2011 15:00:00 EST">

    Datum und Uhrzeit müssen im RFC 850-Format Neues Fenster angegeben sein. Diese Information wird als Antrag auf das Entfernen von Einträgen behandelt. Die Seite wird ungefähr einen Tag nach Ablauf des angegebenen Datums aus den Suchergebnissen entfernt. Damit das Tag ordnungsgemäß funktioniert, muss es jedoch zu dem Zeitpunkt, zu dem Ihr Artikel das erste Mal gecrawlt wird, im Artikel enthalten sein.

HTTP-Header-Spezifikationen verwenden

Sie können Anweisungen für Robots auch im HTTP-Header angeben. Weitere Informationen finden Sie im Google Developers-Artikel HTTP Header Specifications Neues Fenster.