robots.txt を使用して URL をブロックする

robots.txt ファイルについて

robots.txt ファイルはサイトのルートに配置するファイルで、検索エンジンのクローラにアクセスされたくないサイトのコンテンツを指定します。このファイルでは、Robots Exclusion Standard(数種類のコマンドを使用できるプロトコル)を使用します。このプロトコルでは、項目別やウェブクローラ(モバイル クローラまたはデスクトップ クローラなど)別にサイトへのアクセスを指定できます。

robots.txt の使用目的

画像以外のファイル

画像以外のファイル(つまり、ウェブページ)の場合、Google のクローラによってサーバーに大きな負荷がかかったり、サイト上の重要でないページや類似するページのクロールにクロールの割り当てを費やしたりするのを避けることを主な目的として、トラフィックのクロールをコントロールするためだけに robots.txt を使用します。Google 検索結果でウェブページを非表示にすることを目的に robots.txt を使用しないでください。 これは、他のページからそのページへのリンクがあると、robots.txt ファイルを経由しなくてもページがインデックス登録される可能性があるためです。検索結果からページをブロックする場合は、パスワードでの保護や noindex タグまたはディレクティブなど、別の方法を使用してください。

画像ファイル

robots.txt は、画像ファイルが Google 検索結果に表示されないようにします(ただし、他のページやユーザーが画像にリンクするのを防ぐことはできません)。

リソース ファイル

重要でない画像、スクリプト、スタイル ファイルなどのリソースなしにページが読み込まれても、その欠如によってページが重大な影響を受けないと考えられる場合は、robots.txt を使用してそうしたリソース ファイルをブロックすることができます。ただし、それらのリソースがないと Google のクローラがページを判断しにくくなる場合は、リソースをブロックしないでください。ブロックしてしまうと、Google では、これらのリソースに依存しているページを適切に分析できなくなります。

robots.txt の限界を理解する

robots.txt を作成する前に、URL をブロックする手段として robots.txt を使用した場合のリスクを理解する必要があります。他の方法で URL がウェブで見つからないようにすることを検討することが必要になる場合もあります。

  • robots.txt の指示はディレクティブのみ

    robots.txt ファイル内の指示は、サイトにアクセスするクローラの動作に対し強制力はなく、サイトにアクセスするクローラへのディレクティブとして機能します。Googlebot などの信頼できるウェブクローラは robots.txt ファイルの指示に従いますが、他のクローラも従うとは限りません。そのため、ウェブクローラから情報を継続して保護するには、サーバー上の非公開ファイルをパスワードで保護する方法など、他のブロック方法を利用することをおすすめします。
  • クローラによって構文解釈が異なる

    信頼できるウェブクローラは robots.txt ファイルのディレクティブに従いますが、各クローラでディレクティブの解釈が異なる可能性があります。ウェブクローラによっては、特定の指示が理解されない場合もあるので、さまざまなウェブクローラに対応する適切な構文を把握する必要があります。
  • クローラをブロックしているページでも他のサイトからリンクされていればインデックス登録が可能

    Google では、robots.txt でブロックされているコンテンツをクロールしたりインデックスに登録したりすることはありませんが、ブロック対象の URL がウェブ上の他の場所からリンクされている場合、その URL を検出してインデックスに登録する可能性はあります。そのため、該当の URL アドレスや、場合によってはその他の公開情報(該当ページへのリンクのアンカー テキストなど)が、Google の検索結果に表示されることもあります。特定の URL が Google 検索結果に表示されるのを確実に防ぐためには、サーバー上の該当ファイルをパスワードで保護するか、noindex メタタグやレスポンス ヘッダーを使用する(もしくは該当ページを完全に削除する)必要があります。
注: 複数のクロール ディレクティブやインデックス ディレクティブを併用すると、一部のディレクティブが他のディレクティブの妨げとなる恐れがあります。このようなディレクティブを適切に設定する方法については、Google Developers ドキュメントのクロール ディレクティブをインデックス ディレクティブまたは配信ディレクティブと併用する方法に関する項目をご覧ください。
この記事は役に立ちましたか?
改善できる点がありましたらお聞かせください。