サイトのコンテンツへのアクセスをブロックする

この記事では、サイトのコンテンツへのアクセスをブロックする方法について説明します。

公開するコンテンツの中には、Google ニュースとは無関係なコンテンツが含まれていることもあります。そのような場合は、Google のロボットクローラ、Googlebot、Googlebot-News によるアクセスをブロックすることで、Google によるコンテンツへのアクセスを制限できます。

robots.txt ファイルを作成する

robots.txt ファイルを使用すると、Google 検索と Google ニュースにサイト内のどの部分の掲載を許可するかをより詳細に管理できます。詳しくは、robots.txt ファイルについての記事をご覧ください。

アクセスをブロックする方法は次のとおりです。

Google ニュースにサイトが掲載されないようにするには、Googlebot-News によるアクセスを robots.txt ファイルでブロックします。
Google ニュースと Google 検索にサイトが掲載されないようにするには、Googlebot によるアクセスを robots.txt ファイルでブロックします。

サイト内の特定セクションをクロール対象外に指定した場合は、Google のクローラがその robots.txt ファイルにアクセスできる状態であることをご確認ください。

メタタグを作成する

HTML ページにはメタタグを追加できます。メタタグは、検索結果にページを表示する際に適用される制限を検索エンジンに指示します。詳しくは、メタタグを使用して検索インデックス登録をブロックする方法をご確認ください。

HTML ページに追加できる一般的なメタタグは次のとおりです。

サイト内の特定の記事が Google ニュースに掲載されないように Googlebot-News によるアクセスをブロックするメタタグ: <meta name="Googlebot-News" content="noindex, nofollow">
サイト内の特定の記事が Google ニュースと Google 検索に掲載されないように Googlebot によるアクセスをブロックするメタタグ: <meta name="googlebot" content="noindex, nofollow">
サイト内の特定の記事がどのロボットにもインデックス登録されないようにするメタタグ: <meta name="robots" content="noindex, nofollow">
特定の記事の画像がロボットにクロールされないようにするメタタグ: <meta name="robots" content="noimageindex">
特定の時点の Google インデックスから記事を削除するように Google に指示するメタタグ: <meta name="googlebot" content="unavailable_after: 25-Aug-2011 15:00:00 EST">
日付と時刻は RFC 850 形式で指定してください。このメタタグは削除リクエストとして処理されます。該当するページが検索結果に表示されなくなるのは、インデックスより削除されてから約 1 日後ですただし、タグを正常に機能させるには、記事が最初にクロールされる時点でこのタグが記事に追加されている必要があります。
検索結果に表示されるコンテンツを制限する方法は、他にもあります。詳しくは、デベロッパー向けドキュメントをご覧ください。

HTTP ヘッダーの仕様

HTTP 応答ヘッダーでロボットに指示することもできます。詳しくは、HTTP ヘッダーの仕様についての記事をご覧ください。

注: Google では、bot 選択の中でも最も限定的な解釈が優先されます。