robots.txt の概要

robots.txt ファイルとは、検索エンジンのクローラーに対して、サイトのどの URL にアクセスしてよいかを伝えるものです。これは主に、サイトでのリクエストのオーバーロードを避けるために使用するもので、Google にウェブページが表示されないようにするためのメカニズムではありません。Google にウェブページが表示されないようにするには、noindex を使用してインデックス登録をブロックするか、パスワードでページを保護します。

robots.txt ファイルの使用目的

robots.txt ファイルは、基本的にはサイトに対するクローラーのトラフィックを管理するために使用され、通常は、ファイル形式に応じて Google に対して非公開にするファイルを設定します。

さまざまなファイル形式に対する robots.txt の影響

ウェブページ

さまざまなファイル形式に対する robots.txt の影響
ウェブページ	Google のクローラーからのリクエストによってサーバーが過負荷になっていると考えられる場合に、ウェブページ（HTML や PDF など、メディア以外の Google が読み取れる形式）に対して robots.txt ファイルを使用することで、クロールトラフィックを管理できます。また、サイト上の重要でないページや類似したページのクロールを防ぐこともできます。警告: robots.txt ファイルは、ウェブページ（Google がサポートする PDF やその他のテキストベースの形式を含む）を Google 検索結果に表示しないようにする目的で使用しないでください。説明テキストの付いたページが他のページから参照されている場合、Google は、クロールせずに URL をインデックスに登録することがあります。検索結果にページが表示されないようにするには、パスワード保護や `noindex` などの他の方法を使用してください。ウェブページが robots.txt ファイルでブロックされている場合でも、その URL が検索結果に表示されることはありますが、説明は表示されません。ブロックされたページに埋め込まれた画像ファイル、動画ファイル、PDF など、HTML 以外のファイルも、クロールが許可されている他のページから参照されていない限り、クロールから除外されます。検索結果でページがこのように表示される場合、修正するには、このページをブロックしている robots.txt エントリを削除してください。ページが検索結果に完全に表示されないようにするには、別の方法を使用します。
メディアファイル	robots.txt ファイルを使用することで、クロールトラフィックを管理するだけでなく、Google 検索結果に画像ファイル、動画ファイル、音声ファイルが表示されないようにすることもできます。これにより、他のページやユーザーが画像、動画、音声ファイルにリンクできなくなることはありません。画像を Google 検索結果で非表示にする方法の詳細をご覧ください。 Google 検索結果から動画を削除、制限する方法の詳細をご覧ください。
リソースファイル	重要でない画像、スクリプト、スタイルファイルなどのリソースなしにページが読み込まれても、ページが重大な影響を受けないと考えられる場合は、robots.txt ファイルを使用してそうしたリソースファイルをブロックできます。ただし、それらのリソースがないと Google のクローラーがページを把握しにくくなる場合はブロックしないでください。ブロックすると、それらのリソースを利用しているページを Google が適切に分析できなくなります。

Google のクローラーからのリクエストによってサーバーが過負荷になっていると考えられる場合に、ウェブページ（HTML や PDF など、メディア以外の Google が読み取れる形式）に対して robots.txt ファイルを使用することで、クロールトラフィックを管理できます。また、サイト上の重要でないページや類似したページのクロールを防ぐこともできます。

ウェブページが robots.txt ファイルでブロックされている場合でも、その URL が検索結果に表示されることはありますが、説明は表示されません。ブロックされたページに埋め込まれた画像ファイル、動画ファイル、PDF など、HTML 以外のファイルも、クロールが許可されている他のページから参照されていない限り、クロールから除外されます。検索結果でページがこのように表示される場合、修正するには、このページをブロックしている robots.txt エントリを削除してください。ページが検索結果に完全に表示されないようにするには、別の方法を使用します。

メディアファイル

robots.txt ファイルを使用することで、クロールトラフィックを管理するだけでなく、Google 検索結果に画像ファイル、動画ファイル、音声ファイルが表示されないようにすることもできます。これにより、他のページやユーザーが画像、動画、音声ファイルにリンクできなくなることはありません。

リソースファイル 重要でない画像、スクリプト、スタイルファイルなどのリソースなしにページが読み込まれても、ページが重大な影響を受けないと考えられる場合は、robots.txt ファイルを使用してそうしたリソースファイルをブロックできます。ただし、それらのリソースがないと Google のクローラーがページを把握しにくくなる場合はブロックしないでください。ブロックすると、それらのリソースを利用しているページを Google が適切に分析できなくなります。

robots.txt ファイルの制約について

robots.txt ファイルを作成または編集する前に、URL をブロックする手段として robots.txt を使用した場合の制約を理解しておく必要があります。目的や状況によっては、URL がウェブで見つからないようにするために他の方法を検討することが必要になる場合もあります。

すべての検索エンジンが robots.txt ルールに対応するとは限らない
サイトに対するクローラーの動作に対して、robots.txt ファイルの指示を強制適用することはできません。指示に従うかどうかはクローラー次第です。Googlebot などの信頼できるウェブクローラーは robots.txt ファイルの指示に従いますが、他のクローラーも従うとは限りません。そのため、ウェブクローラーから情報を保護するには、サーバー上の非公開ファイルをパスワードで保護する方法など、他のブロック方法を利用することをおすすめします。
クローラーによって構文解釈が異なる
信頼できるウェブクローラーは robots.txt ファイルのルールに従いますが、各クローラーでルールの解釈が異なる可能性があります。ウェブクローラーによっては、特定の指示が理解されない可能性があるため、さまざまなウェブクローラーに対応する適切な構文を把握する必要があります。
robots.txt で許可していないページが他のサイトからリンクされている場合、そのページはインデックスに登録される可能性がある
Google では、robots.txt ファイルでブロックされているコンテンツをクロールしたりインデックスに登録したりすることはありませんが、ブロック対象の URL がウェブ上の他の場所からリンクされている場合、その URL を検出してインデックスに登録する可能性はあります。そのため、該当の URL アドレスや、場合によってはその他の公開情報（該当ページへのリンクのアンカーテキストなど）が、Google 検索結果に表示されることもあります。Google 検索の検索結果に特定の URL が表示されるのを確実に防ぐには、サーバー上のファイルをパスワードで保護するか、noindex meta タグまたはレスポンスヘッダーを使用する、もしくは該当ページを完全に削除する必要があります。

robots.txt ファイルを作成または更新する

ファイルが必要な場合は robots.txt ファイルを作成する方法を、すでに作成している場合は、ファイルの更新方法をご覧ください。

詳しくは、次のリンクをご確認ください。