サイトのコンテンツへのアクセスを管理する

この記事では、サイトのコンテンツへのアクセスを管理する方法について説明します。

公開するコンテンツの中には、Google ニュースに登録したくないコンテンツが含まれていることもあります。そのような場合は、Google のロボット クローラ、Googlebot、Googlebot-News によるアクセスをブロックすることで、該当コンテンツへの Google によるアクセスを制限できます。

詳しくは、Google ニュースのカスタマイズ方法をご覧ください。優先する提供元からの記事をさらに表示する方法や、希望しないニュース提供元をブロックする方法をご紹介しています。

: 詳しくは、スニペットを管理する方法についての説明をご覧ください。

robots.txt ファイルを作成する

robots.txt ファイルを使用すると、Google 検索と Google ニュースにサイト内のどの部分を掲載するかをより詳細に管理できます。詳しくは、robots.txt ファイルについての記事をご覧ください。

アクセスをブロックする方法は次のとおりです。

  • Google ニュースにサイトが掲載されないようにするには、robots.txt ファイルを使用して Googlebot-News によるアクセスをブロックします。
  • Google ニュースと Google 検索にサイトが掲載されないようにするには、robots.txt ファイルを使用して Googlebot によるアクセスをブロックします。

サイト内の特定セクションをクロール対象外に指定するには、Google のクローラが robots.txt ファイルにアクセスできる状態であることをご確認ください。

メタタグを作成する

HTML ページにメタタグを追加できます。メタタグがロボットにクロール対象外のページを指示します。詳しくは、メタタグで検索インデックスをブロックする方法をご覧ください。

HTML ページに追加できる一般的なメタタグは次のとおりです。

  • サイト内の特定の記事を Google ニュースに掲載しないように Googlebot-News によるアクセスをブロックする: <meta name="Googlebot-News" content="noindex, nofollow">
  • サイト内の特定の記事を Google ニュースと Google 検索に掲載しないように Googlebot によるアクセスをブロックする: <meta name="googlebot" content="noindex, nofollow">
  • サイト内の特定の記事がどのロボットにもインデックス登録されないようにする: <meta name="robots" content="noindex, nofollow">
  • 特定の記事の画像がロボットによりクロールされないようにする: <meta name="robots" content="noimageindex">
  • 特定の期限を過ぎたら Google インデックスから記事を削除するよう指定する:
    <meta name="googlebot" content="unavailable_after: 25-Aug-2011 15:00:00 EST">
    • 日付と時刻は RFC 850 形式で指定してください。このメタタグは削除リクエストとして処理されます。該当するページが検索結果に表示されなくなるのは、インデックスより削除されてから約 1 日後です。ただし、タグを正常に機能させるには、記事が最初にクロールされる時点でこのタグが記事に追加されている必要があります。

HTTP ヘッダーの仕様

HTTP ヘッダーでロボットに指示することもできます。詳しくは、HTTP ヘッダーの仕様についての記事をご覧ください。
 

注: Google では、ロボット選択の中でも最も限定的な解釈が優先されます。

この情報は役に立ちましたか?
改善できる点がありましたらお聞かせください。