Googlebot がサイトで膨大な数の URL を検出した場合、Googlebot が、同一または類似のコンテンツに導く多数の URL を不必要にクロールしているか、サイト内のクロール対象ではない箇所をクロールしている可能性があります。、このため、Googlebot で必要以上に帯域幅を消費したり、サイト内のすべてのコンテンツをインデックスに登録できなかったりすることがあります。
- 問題を起こしやすい URL パラメータ。たとえば、セッション ID やソートメソッドは膨大な数の重複と URL を生成する可能性があります。同様に、動的に生成されるカレンダーで開始日や終了日の制限がない場合、将来または過去の日付のリンクが生成されることがあります。
- アイテムセットに対する複合条件でのフィルタリング。多くのサイトでは同じアイテムセットや検索結果をさまざまなビューで表示できるため、フィルタを組み合わせる(たとえば、ビーチに面した、犬を同伴可能な、フィットネス センターのあるホテルを検索する)と、ほとんどが重複している膨大な数の URL が生成されることがあります。
- ドキュメントの動的な生成(カウンタ、タイムスタンプ、広告のいずれかによる結果)。
- 破損した相対リンク。相対リンクが壊れていると、無限のスペースが生じることがあります。多くの場合、パスの要素の繰り返しによって生じます。次に例を示します。
http://www.example.com/index.shtml/discuss/category/school/061121/ html/interview/category/health/070223/html/category/business/070302 /html/category/community/070413/html/FAQ.htm
URL 構造による問題を回避する方法は次のとおりです。
- 可能な限り、不必要なパラメータを削除して URL を短くします。パラメータ処理ツールを使用して、Google が無視しても問題のない URL パラメータを指定します。こうして改善した URL を、すべての内部リンクで使用するようにします。無用に長い URL から改善した URL にリダイレクトするか、rel="canonical" リンク要素を使用して、優先する短く正規化した URL を指定することもご検討ください。
- 可能な限り、URL でセッション ID は使用せず、代わりに Cookie を使用します。詳しくは、URL ガイドラインをご覧ください。
- サイトに範囲制限のないカレンダーがある場合、動的に生成される将来のカレンダー ページへのリンクに nofollow 属性を追加します。
- サイトに壊れた相対リンクがないかどうか確認します。
- 上記のいずれの方法も適用できない場合は、robots.txt ファイルを使用して、問題のある URL への Googlebot のアクセスをブロックします。一般的に、検索結果を生成する URL などの動的 URL や、カレンダーなどの無限のスペースが生じる可能性のある URL へのアクセスはブロックします。robots.txt ファイルでワイルドカードを使用すると、多数の URL を簡単にブロックできます。