Blockieren von Google News mit Robots

Nachrichtendienstleister veröffentlichen viele verschiedene Inhalte, die aber nicht alle unbedingt für Google News geeignet sind. Google News verwendet zum Crawling den gleichen Robot wie die Google Websuche, nämlich den Googlebot.

Die Google-Suche und Google News unterstützen zwei unterschiedliche Robot-Optionen, Googlebot und Googlebot-News, die Sie als Meta-Tags in Ihrem Robots-Eintrag verwenden können, um zu kontrollieren, wo Ihre Inhalte angezeigt werden.

Anders gesagt:

  • Wenn Sie den Zugriff für Googlebot-News blockieren, indexieren wir Ihre Website nicht in Google News.
  • Wenn Sie den Zugriff für den Googlebot blockieren, indexieren wir Ihre Website weder in Google News noch in der Google Websuche.

Beachten Sie dabei, dass Google sich, wenn mehrere Robot-Optionen auszuführen sind, nach der restriktiveren Interpretation Ihrer Angaben richtet.

Robots.txt-Datei erstellen

Durch Verwendung einer robots.txt-Datei können Sie weitgehend selbst steuern, welche Teile Ihrer Website von Google indexiert werden. Eine ausführliche Anleitung zum Erstellen und Verwalten von robots.txt-Dateien finden Sie in unserer Webmaster-Tools-Hilfe.

Bitte beachten Sie Folgendes:

  • Wenn Sie nicht möchten, dass Ihre Website durch Google News indexiert wird, können Sie den Zugriff für Googlebot-News mithilfe einer robots.txt-Datei blockieren.
  • Wenn Sie nicht möchten, dass Ihre Website durch Google News und die Google-Suche indexiert wird, können Sie den Zugriff für den Googlebot mithilfe einer robots.txt-Datei blockieren.

Achten Sie darauf, unserem Crawler Zugriff auf Ihre robots.txt-Datei zu geben. So wissen wir Bescheid, falls Sie bestimmte Bereiche Ihrer Website angegeben haben, die nicht gecrawlt werden sollen.

Meta-Tags erstellen

Anstatt eine robots.txt-Datei zum Blockieren des Crawler-Zugriffs auf bestimmte Seiten zu verwenden, können Sie auch ein Meta-Tag zu einer HTML-Seite hinzufügen. Hierdurch werden Robots angewiesen, bestimmte Seiten nicht zu indexieren. Dieser Standard wird in unserer Webmaster-Tools-Hilfe beschrieben.

Bitte beachten Sie Folgendes:

  • Wenn Sie nicht möchten, dass bestimmte Artikel auf Ihrer Website durch Google News indexiert werden, können Sie den Zugriff für Googlebot-News mithilfe des folgenden Meta-Tags blockieren:
  • <meta name="Googlebot-News" content="noindex, nofollow">

  • Wenn Sie nicht möchten, dass bestimmte Artikel auf Ihrer Website durch Google News und die Google Websuche indexiert werden, können Sie den Zugriff für den Googlebot mithilfe des folgenden Meta-Tags blockieren:
  • <meta name="googlebot" content="noindex, nofollow">

  • Wenn Sie nicht möchten, dass bestimmte Artikel auf Ihrer Website durch jegliche Robots indexiert werden, können Sie den Zugriff mithilfe des folgenden Meta-Tags blockieren:
  • <meta name="robots" content="noindex, nofollow">

  • Um die Indexierung von Bildern in einem bestimmten Artikel durch Robots zu verhindern, können Sie den Zugriff darauf mithilfe des folgenden Meta-Tags blockieren:
  • <meta name="robots" content="noimageindex">

  • Wenn Sie uns informieren möchten, dass ein Artikel zu einem bestimmten Zeitpunkt abläuft und zu diesem Zeitpunkt auch aus dem Google-Index entfernt werden sollte, verwenden Sie folgendes Tag:

<meta name="googlebot" content="unavailable_after: 25-Aug-2014 15:00:00 EST">

Datum und Uhrzeit müssen im RFC 850-Format angegeben sein. Diese Information wird wie ein Antrag auf das Entfernen von Einträgen behandelt. Die betreffende Seite wird ungefähr einen Tag nach Ablauf des angegebenen Datums aus den Suchergebnissen entfernt. Damit das Tag ordnungsgemäß funktioniert, muss es jedoch zu dem Zeitpunkt, zu dem Ihr Artikel das erste Mal gecrawlt wird, im Artikel enthalten sein.

HTTP-Header-Spezifikationen verwenden

Sie können Anweisungen für Robots auch im HTTP-Header angeben. Weitere Informationen hierzu finden Sie im Google Developers-Artikel HTTP Header Specifications.