Googlebot がサイトで膨大な数の URL を検出した場合

Googlebot がサイトで膨大な数の URL を検出した場合、Googlebot が、同一または類似のコンテンツに導く多数の URL を不必要にクロールしているか、サイト内のクロール対象ではない箇所をクロールしている可能性があります。、このため、Googlebot で必要以上に帯域幅を消費したり、サイト内のすべてのコンテンツをインデックスに登録できなかったりすることがあります。

この問題の主な原因

  • 問題を起こしやすい URL パラメータ。たとえば、セッション ID やソートメソッドは膨大な数の重複と URL を生成する可能性があります。同様に、動的に生成されるカレンダーで開始日や終了日の制限がない場合、将来または過去の日付のリンクが生成されることがあります。
  • アイテムセットに対する複合条件でのフィルタリング。多くのサイトでは同じアイテムセットや検索結果をさまざまなビューで表示できるため、フィルタを組み合わせる(たとえば、ビーチに面した、犬を同伴可能な、フィットネス センターのあるホテルを検索する)と、ほとんどが重複している膨大な数の URL が生成されることがあります。
  • ドキュメントの動的な生成(カウンタ、タイムスタンプ、広告のいずれかによる結果)。
  • 破損した相対リンク。相対リンクが壊れていると、無限のスペースが生じることがあります。多くの場合、パスの要素の繰り返しによって生じます。次に例を示します。
    http://www.example.com/index.shtml/discuss/category/school/061121/
     html/interview/category/health/070223/html/category/business/070302
     /html/category/community/070413/html/FAQ.htm

この問題の解決方法

URL 構造による問題を回避する方法は次のとおりです。

  • 可能な限り、不必要なパラメータを削除して URL を短くします。パラメータ処理ツールを使用して、Google が無視しても問題のない URL パラメータを指定します。こうして改善した URL を、すべての内部リンクで使用するようにします。無用に長い URL から改善した URL にリダイレクトするか、rel="canonical" リンク要素を使用して、優先する短く正規化した URL を指定することもご検討ください。
  • 可能な限り、URL でセッション ID は使用せず、代わりに Cookie を使用します。詳しくは、URL ガイドラインをご覧ください。
  • サイトに範囲制限のないカレンダーがある場合、動的に生成される将来のカレンダー ページへのリンクに nofollow 属性を追加します。
  • サイトに壊れた相対リンクがないかどうか確認します。
  • 上記のいずれの方法も適用できない場合は、robots.txt ファイルを使用して、問題のある URL への Googlebot のアクセスをブロックします。一般的に、検索結果を生成する URL などの動的 URL や、カレンダーなどの無限のスペースが生じる可能性のある URL へのアクセスはブロックします。robots.txt ファイルでワイルドカードを使用すると、多数の URL を簡単にブロックできます。

この情報は役に立ちましたか?

改善できる点がありましたらお聞かせください。

さらにサポートが必要な場合

次の手順をお試しください。

true
Search Console へようこそ

Search Console を使うのは初めてですか?完全な初心者の方も、SEO エキスパートの方も、ウェブサイトのデベロッパーの方も、ここから始めましょう。

検索
検索をクリア
検索を終了
メインメニュー
17613996538132534437
true
ヘルプセンターを検索
true
true
true
true
true
83844
false
false