Zugriff auf Inhalte Ihrer Website blockieren

In diesem Artikel wird erläutert, wie Sie den Zugriff auf Inhalte Ihrer Website blockieren.

Einige der Inhalte, die Sie veröffentlichen, sind möglicherweise nicht für Google News relevant. Sie können den Zugriff auf bestimmte Inhalte einschränken, indem Sie den Zugriff der Web-Crawler von Google, Googlebot und Googlebot-News, blockieren.

Robots.txt-Datei erstellen

Wenn Sie eine robots.txt-Datei verwenden, können Sie weitgehend selbst festlegen, welche Teile Ihrer Website in der Google-Suche und in Google News erscheinen dürfen. Weitere Informationen zu robots.txt-Dateien finden Sie hier.

Der Zugriff lässt sich so blockieren:

Wenn Sie nicht möchten, dass Ihre Website durch Google News indexiert wird, können Sie mithilfe einer robots.txt-Datei den Zugriff für Googlebot-News blockieren.
Wenn Sie nicht möchten, dass Ihre Website durch Google News und die Google-Suche indexiert wird, können Sie mithilfe einer robots.txt-Datei den Zugriff für den Googlebot blockieren.

Achten Sie darauf, dass unser Crawler Zugriff auf Ihre robots.txt-Datei hat. So wissen wir Bescheid, falls Sie bestimmte Bereiche Ihrer Website angegeben haben, die nicht gecrawlt werden sollen.

Meta-Tag erstellen

Sie können einer HTML-Seite Meta-Tags hinzufügen. Meta-Tags teilen Suchmaschinen mit, welche Einschränkungen beim Einblenden von Seiten in den Suchergebnissen gelten. Informationen zum Blockieren der Aufnahme in den Suchindex finden Sie hier.

Hier sind einige gängige Meta-Tags, die Sie Ihren HTML-Seiten hinzufügen können:

Wenn Sie nicht möchten, dass bestimmte Artikel auf Ihrer Website durch Google News indexiert werden, können Sie den Zugriff für Googlebot-News mithilfe des folgenden Meta-Tags blockieren: <meta name="Googlebot-News" content="noindex, nofollow">.
Wenn Sie nicht möchten, dass bestimmte Artikel auf Ihrer Website durch Google News und die Google-Suche indexiert werden, können Sie den Zugriff für den Googlebot mithilfe des folgenden Meta-Tags blockieren: <meta name="googlebot" content="noindex, nofollow">.
Wenn Sie nicht möchten, dass bestimmte Artikel auf Ihrer Website durch jegliche Robots indexiert werden, verwenden Sie das folgende Meta-Tag: <meta name="robots" content="noindex, nofollow">.
Wenn Sie nicht möchten, dass Bilder eines bestimmten Artikels durch Robots gecrawlt werden, verwenden Sie das folgende Meta-Tag: <meta name="robots" content="noimageindex">.
Wenn Sie uns mitteilen möchten, dass ein Artikel zu einem bestimmten Zeitpunkt aus dem Google-Index entfernt werden soll, verwenden Sie das folgende Meta-Tag: <meta name="googlebot" content="unavailable_after: 25-Aug-2011 15:00:00 EST">.
Geben Sie Datum und Uhrzeit im RFC-850-Format an. Dieses Meta-Tag wird wie ein Antrag auf Entfernung behandelt. Das heißt, die betreffende Seite wird ungefähr einen Tag nach Ablauf des angegebenen Datums aus den Suchergebnissen entfernt. Damit das Tag ordnungsgemäß funktioniert, muss es jedoch zu dem Zeitpunkt, zu dem Ihr Artikel das erste Mal gecrawlt wird, im Artikel enthalten sein.
Es gibt noch weitere Möglichkeiten, den Inhalt eines Suchergebnisses einzuschränken. Weitere Informationen finden Sie in der Entwicklerdokumentation.

HTTP-Header-Spezifikationen

Sie können Anweisungen für Robots auch im HTTP-Antwort-Header angeben. Weitere Informationen zu HTTP-Header-Spezifikationen finden Sie hier.

Wichtig: Wenn Sie mehrere Robot-Optionen ausgewählt haben, folgt Google der restriktivsten Interpretation Ihrer Angaben.