Google News mithilfe von Robots blockieren

Nachrichtendienstleister veröffentlichen viele verschiedene Inhalte, die aber nicht unbedingt alle für Google News geeignet sind. Google News verwendet zum Crawling den gleichen Robot wie die Google Websuche, nämlich den Googlebot.

Die Google-Suche und Google News unterstützen zwei unterschiedliche Robot-Optionen, Googlebot und Googlebot-News, die Sie als Meta-Tags in Ihrem Robots-Eintrag verwenden und dadurch steuern können, wo Ihre Inhalte angezeigt werden.

Anders ausgedrückt:

  • Wenn Sie den Zugriff für Googlebot-News blockieren, werden Ihre Inhalte nicht in Google News angezeigt.
  • Wenn Sie den Zugriff für den Googlebot blockieren, werden Ihre Inhalte weder in Google News noch in der Google Websuche angezeigt.

Beachten Sie, dass Google, wenn Sie mehrere Robot-Optionen gewählt haben, der restriktiveren Interpretation Ihrer Angaben folgt.

Robots.txt-Datei erstellen

Durch Verwendung einer robots.txt-Datei können Sie weitgehend selbst steuern, welche Teile Ihrer Website in der Google-Suche und in Google News erscheinen. Eine ausführliche Anleitung zum Erstellen und Verwalten von robots.txt-Dateien finden Sie in unserer Search Console-Hilfe.

Beachten Sie Folgendes:

  • Wenn Sie nicht möchten, dass Ihre Website durch Google News indexiert wird, können Sie mithilfe einer robots.txt-Datei den Zugriff für Googlebot-News blockieren.
  • Wenn Sie nicht möchten, dass Ihre Website durch Google News und die Google-Suche indexiert wird, können Sie den Zugriff für den Googlebot blockieren.

Achten Sie in jedem Fall darauf, unserem Crawler Zugriff auf Ihre robots.txt-Datei zu geben. So wissen wir Bescheid, falls Sie bestimmte Bereiche Ihrer Website angegeben haben, die nicht gecrawlt werden sollen.

Meta-Tags erstellen

Anstatt eine robots.txt-Datei zum Blockieren des Crawler-Zugriffs auf bestimmte Bereiche Ihrer Website zu verwenden, können Sie auch einer HTML-Seite ein Meta-Tag hinzufügen. Hierdurch werden Robots angewiesen, bestimmte Seiten nicht zu crawlen. Dieser Standard wird in unserer Webmaster-Hilfe beschrieben.

Beachten Sie Folgendes:

  • Wenn Sie nicht möchten, dass bestimmte Artikel auf Ihrer Website durch Google News indexiert werden, können Sie den Zugriff für Googlebot-News mithilfe des folgenden Meta-Tags blockieren:

<meta name="Googlebot-News" content="noindex, nofollow">

  • Wenn Sie nicht möchten, dass bestimmte Artikel auf Ihrer Website durch Google News und die Google Websuche indexiert werden, können Sie den Zugriff für den Googlebot mithilfe des folgenden Meta-Tags blockieren:

<meta name="googlebot" content="noindex, nofollow">

  • Wenn Sie nicht möchten, dass bestimmte Artikel auf Ihrer Website durch jegliche Robots indexiert werden, können Sie den Zugriff mithilfe des folgenden Meta-Tags blockieren:

<meta name="robots" content="noindex, nofollow">

  • Um zu verhindern, dass Bilder eines bestimmten Artikels durch Robots gecrawlt werden, können Sie den Zugriff darauf mithilfe des folgenden Meta-Tags blockieren:

<meta name="robots" content="noimageindex">

  • Wenn Sie uns informieren möchten, dass ein Artikel zu einem bestimmten Zeitpunkt abläuft und zu diesem Zeitpunkt auch aus dem Google-Index entfernt werden sollte, verwenden Sie folgendes Tag:

<meta name="googlebot" content="unavailable_after: 25-Aug-2011 15:00:00 EST">

Datum und Uhrzeit müssen im RFC-850-Format angegeben sein. Diese Angabe von Ihnen wird wie ein Antrag auf das Entfernen von Einträgen behandelt. Das heißt, die betreffende Seite wird ungefähr einen Tag nach Ablauf des angegebenen Datums aus den Suchergebnissen entfernt. Damit das Tag ordnungsgemäß funktioniert, muss es jedoch zu dem Zeitpunkt, zu dem Ihr Artikel das erste Mal gecrawlt wird, im Artikel enthalten sein.

HTTP-Header-Spezifikationen verwenden

Sie können Anweisungen für Robots auch im HTTP-Header angeben. Weitere Informationen finden Sie im Google Developers-Artikel HTTP-Header-Spezifikationen.

War dieser Artikel hilfreich?