Googlebot により、サイトで膨大な数の URL が検出された

Googlebot により、サイトで膨大な数の URL が検出された場合、Googlebot が同一または類似のコンテンツを示す多数の URL を不必要にクロールしているか、サイト内のクロール対象ではない箇所をクロールしている可能性があります。その結果、Googlebot が必要以上に帯域幅を消費する場合や、サイトのコンテンツの一部をインデックスに登録できない場合があります。

この問題の主な原因
  • URL で問題のあるパラメータ。たとえば、セッション ID や並べ替えの方法により膨大な数の重複や URL が生成されることがあります。同様に、動的に生成されるカレンダーでは、開始日や終了日の制限がない場合、将来または過去の日付のリンクが生成されることがあります。
  • アイテム セットを追加するフィルタ。多くのサイトでは、同じアイテム セットや検索結果を異なる方法で表示できます。フィルタを組み合わせる(たとえば、ビーチに面した、犬を同伴可能な、フィットネス センターのあるホテルを検索する)と、ほとんどが冗長な膨大な数の URL が結果として生成されます。
  • ドキュメントの動的な生成。カウンタ、タイムスタンプ、広告などにより生成されます。
  • 壊れた相対リンク。相対リンクが壊れていると、無限のスペースが生じることがあります。多くの場合、パスの要素の繰り返しによって生じます。次に例を示します:
    http://www.example.com/index.shtml/discuss/category/school/061121/
     html/interview/category/health/070223/html/category/business/070302
     /html/category/community/070413/html/FAQ.htm
この問題の解決方法

URL の構造による問題を避けるには、次の方法をおすすめします:

  • 可能な限り、不必要なパラメータを削除して URL を短くします。パラメータ処理ツールを使用すると、Google が無視しても問題のない URL パラメータがわかります。こうして改善した URL を、すべての内部リンクで使用するようにします。不必要に長い URL を改善した URL にリダイレクトするか、優先する短い canonical URL をrel="canonical" リンク要素を使用して指定することを検討します。
  • 可能な限り、URL でセッション ID は使わずに、代わりに Cookie を使用することを検討します。詳しくはウェブマスター向けガイドラインをご覧ください。
  • サイトに無限のカレンダーがある場合、動的に作成される将来のカレンダー ページへのリンクに nofollow 属性を追加します。
  • サイトに壊れた相対リンクがないかどうか確認します。
  • 上記のいずれも実行できない場合は、robots.txt ファイルを使用して、問題のある URL への Googlebot によるアクセスをブロックします。一般的には、検索結果を生成する URL などの動的な URL や、カレンダーなど無限のスペースを生成する URL へのアクセスをブロックします。robots.txt ファイルでワイルドカードを使用すると、多数の URL を簡単にブロックできます。
この情報は役に立ちましたか?
改善できる点がありましたらお聞かせください。