ファイルへのアクセスをブロックする

Google の検索結果にページやコンテンツを表示しないようにするには、さまざまなオプションがあります。

  • 機密情報をサーバー上に保管する必要がある場合は、パスワードで保護されたディレクトリに保存する。 こうすることで、Googlebot や他のスパイダーがコンテンツにアクセスできなくなります。これは、Googlebot や他のスパイダーがサイトをクロールしてコンテンツをインデックス登録するのを防ぐ最も簡単で効果的な方法です。Apache Web Server を使用している場合は、.htaccess ファイルを編集して、サーバーのディレクトリをパスワードで保護できます。ウェブ上には、この操作を簡単に行うためのツールが多数あります。

  • robots.txt を使用してサーバーのファイルやディレクトリへのアクセスを管理する。 robots.txt ファイルは、進入禁止の電子標識のようなものです。このファイルにより、Googlebot や他のクローラがクロールすべきでない、サーバー上のファイルやディレクトリを指定できます。

    robots.txt ファイルを使用する場合、ホストのルートにアクセスできる必要があります(不明な場合は、ウェブ ホスティング業者にご確認ください)。ドメインのルートにアクセスできない場合は、それぞれのページでロボットのメタ タグを使用してアクセスを制限します。

    robots.txt ファイルを使用して、スパイダーがサイトのコンテンツをクロールしないようブロックしても、他の方法でインデックスに追加される場合があります。たとえば、他のサイトからリンクされている場合などがこれに該当します。その結果、ページの URL、またはサイトへのリンクのアンカー テキストや Open Directory Project のタイトルといった他の公開情報が Google の検索結果に表示される可能性があります。また、信頼できるロボットは robots.txt ファイルの指示に従いますが、ロボットによってはファイルの指示を別の意味に解釈する可能性もあります。いずれにしろ、robots.txt には強制力がないため、不正行為者は指示を無視する可能性があります。このため、機密情報はパスワードで保護することをおすすめします(上記を参照)。

    作成した robots.txt ファイルのテストは、[クローラのアクセス] ページの [ブロックされた URL(robots.txt)] タブで行うことができます。

    詳しくは、robots.txt を使用してサイトへのアクセスを管理する方法についてのページをご覧ください。


  • noindex メタ タグを使用して、コンテンツを検索結果に表示しないよう指定する。 他のページからリンクされている場合でも、該当するページで noindex メタ タグが検出されると、Google は検索結果からそのページを完全に削除します。現在 Google のインデックスに登録されているコンテンツは、次回クロールと再処理が行われた後に削除されます(早急に削除する場合は、Google ウェブマスター ツールの URL 削除リクエスト ツールをご利用ください)。ただし、他の検索エンジンではこの指示を別の意味に解釈する場合があります。そのため、その検索エンジンを使用した検索結果には、ページへのリンクが表示される可能性があります。

    noindex メタ タグを認識するにはページをクロールする必要があるため、わずかな確率ですが、Googlebot が noindex メタ タグを見落として、その指示に従わない場合があります(たとえば、タグを追加してからまだサイトがクロールされていない場合など)。

    詳しくは、メタ タグを使用してサイトへのアクセスを管理する方法についてのページをご覧ください。