重複した URL を統合する

類似ページや重複ページについて正規ページを設定する

お持ちのサイトにおいて、複数の URL で同じページにアクセスできる場合や、別個のページのコンテンツが類似している場合(たとえば、ページにモバイル版と PC 版の両方がある場合)、こうしたページは Google で同じページの重複と見なされます。これらの URL の 1 つが「正規」版として選択されてクロールされ、その他の URL はすべて「重複」URL と見なされてクロールの頻度が減ります。

このような正規 URL を明確に指定しないと、Google によって URL が選択されるか、いずれの URL も同等の重要性を持つものと見なされることになります。そのため、下記の「正規 URL の指定が重要な理由」で説明するような望ましくない動作につながることがあります。

正規 URL とは
正規 URL とは、サイトの重複するページの中で Google が最も代表的と考えるページの URL です。たとえば、同じページに対して複数の URL がある場合(例: example.com?dress=1234 と example.com/dresses/1234)、Google はそのうちの 1 つを正規 URL として選択します。なお、これらのページは完全に同一である必要はありません。リストページの並べ替えやフィルタリングによるわずかな変化は重複と見なされます(価格による並べ替え、アイテムの色によるフィルタリングなど)。
正規のページは重複するページとはドメインが異なる場合があります。
詳細
Googlebot は、サイトをインデックスに登録する際、各ページの主なコンテンツを特定しようとします。同一のサイト内に、同じものを扱っていると思われるページが複数見つかった場合、Googlebot では、最も完成度が高く有用であると判断したページを選び、そのページを正規と見なします。この正規ページが定期的に最も頻繁にクロールされることになり、重複したページについては、サイトに対する Google のクロールの負荷を削減するためにクロール頻度が下がります。
Google は、さまざまな要因(シグナル)に基づいて正規ページを選択します。こうした要因の例としては、ページが http と https のどちらで配信されるか、ページの品質はどうか、サイトマップに該当 URL が存在するか、「rel=canonical」のラベルがあるかなどが挙げられます。これらの手法を使って Google に希望を伝えることはできますが、さまざまな理由から Google が別のページを正規として選択する場合もあります。
あるページの別言語のバージョンは、メイン コンテンツが元の言語と同じ場合にのみ、重複と見なされます(つまり、ヘッダーやフッターなどの重要でないテキストのみが翻訳されていて、本文が翻訳されていない場合、それらのページは重複と見なされます)。
コンテンツと品質を評価するための主なソースには正規ページが使用されます。また、Google 検索では、通常は正規ページが検索結果に表示されます。ただし、重複ページの方が明らかにユーザーに適している場合は異なります。たとえば、ユーザーがモバイル デバイスで検索した場合は、PC 向けページが正規として指定されていても、検索結果にはモバイル向けページが表示される可能性が高くなります。

類似ページや重複ページが生じる原因

サイトにおいて、別々の URL が同一のページを指していたり、URL の異なるページのコンテンツが重複または非常に類似していたりすることには、正当な理由があります。最も一般的なものを以下に示します。

  • さまざまな種類のデバイスに対応するため:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
    
  • 検索パラメータやセッション ID などで動的 URL を有効にするため:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • ブログで複数の項目下に同じ投稿を配置したため、ブログのシステムにより自動的に複数の URL が保存された場合:
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • サーバーの設定により、www ありと www なし、http と https のような類似バージョンに対して同じコンテンツが配信される場合:
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • ブログで他サイトへのシンジケーション用に提供したコンテンツの一部またはすべてが、他サイトのドメインで複製された場合:
    https://news.example.com/green-dresses-for-every-day-155672.html(シンジケートされた投稿)https://blog.example.com/dresses/green-dresses-are-awesome/3245/(元の投稿)

正規 URL の指定が重要な理由

次のような理由から、重複ページや類似ページについて正規ページを指定することをおすすめします。

  • 検索結果でユーザーに表示する URL を指定するため。たとえば、緑のワンピースの商品ページにユーザーをアクセスさせる際の URL として、https://example.com/dresses/cocktail?gclid=ABCD ではなく https://www.example.com/dresses/green/greendress.html を選ぶことができます。
  • 類似ページや重複ページについてリンクのシグナルを統合するため。これにより、検索エンジンで、個々の URL について得られた情報(その URL へのリンクなど)を、選んだ 1 つの URL に統合できるようになります。つまり、他のサイトからの http://example.com/dresses/cocktail?gclid=ABCD へのリンクが、https://www.example.com/dresses/green/greendress.html へのリンクに統合されます。
  • 1 つの商品やトピックのトラッキング指標を単純化するため。URL が複数あると、特定のコンテンツについて指標を統合することが難しくなります。
  • シンジケーション コンテンツを管理するため。 他のドメインで公開するコンテンツをシンジケートする場合、使用する URL にページ ランキングを統合する必要があります。
  • 重複したページのクロールに時間がかかるのを防ぐため。Googlebot でサイトが最大限に活用されるようにするには、サイト内の同一ページの PC 版とモバイル版のクロールよりも、新しい(または更新された)ページのクロールに多くの時間をかけられるようにするのが効果的です。

Google で正規と見なされる URL

URL 検査ツールを使用して、Google でどのページが正規と見なされるかを調べます。なお、正規ページを明示した場合でも、さまざまな理由(パフォーマンスやコンテンツなど)から Google のアルゴリズムで別のページが正規として選択されることもあります。

困ったときに

正規 URL が所有していないプロパティにある場合、重複ページのトラフィックは確認できません。正規 URL が別のプロパティに存在する一般的な理由としては次のようなものがあります。
  • 誤ってマークされた言語のバリエーション: 複数のウェブサイトで、実質的に同じコンテンツをさまざまな言語にローカライズして配信する場合は、必ずローカライズされたサイトに関するガイドラインに従ってください
  • 不適切な正規タグ: コンテンツ管理システム(CMS)や CMS プラグインによっては、正規化手法が誤って使用され外部ウェブサイトの URL が参照されることがあります。ご自分のコンテンツがこれに該当しないかどうかをご確認ください。サイトに意図しない正規 URL 設定が指定されている場合は、rel="canonical" または 301 リダイレクトの使い方が間違っている可能性があります。問題箇所を直接修正してください。
  • サーバーの構成ミス: ホスティングの構成が誤っていることが原因で、不適切なクロスドメイン URL の選択が行われることがあります。次に例を示します。
    • サーバーの構成が誤っていて、b.com 上の URL に対するリクエストに対し a.com のコンテンツが返される
    • 無関係の 2 つのサーバーから同一のソフト 404 ページが返され、これが Google でエラーページとして認識されない
  • 悪意のあるハッキング: ウェブサイトに対する攻撃の中には、HTTP 301 リダイレクトを返すコードや、クロスドメインの rel="canonical" リンク要素を HTML <head> つまり HTTP ヘッダーに挿入するコードを組み込むものがあります。そうしたコードは、たいていの場合、悪意のあるコンテンツやスパム コンテンツをホストする URL を参照します。このようなケースでは、Google のアルゴリズムによって、攻撃を受けたウェブサイト上の URL の代わりに悪意のあるコンテンツまたはスパム コンテンツのある URL が選択されることがあります。
  • 盗用ウェブサイト: Google のアルゴリズムによって、コンテンツを無断でホストしている外部サイトの URL が選択されることがまれにあります。別のサイトが著作権法に違反してご自分のコンテンツを複製しているとお考えの場合は、そのサイトの管理者に連絡して削除を要求することをおすすめします。さらに、デジタル ミレニアム著作権法に基づく通知を提出することによって、権利侵害にあたるページを Google の検索結果から除外するよう Google にリクエストできます。

正規ページを指定する

重複した複数のページから正規ページを指定するには、用途に応じて方法がいくつかあります。

方法 説明
一般的なガイドライン すべての正規化方法については、こちらのガイドラインをご覧ください。
rel=canonical <link> タグ

すべての重複ページのコードに、正規ページへのリンクを示す <link> タグを追加します。

メリット:

  • 重複したページの数に関係なく、すべての重複ページをマッピングできる

デメリット:

  • ページのサイズが大きくなる場合がある
  • 大規模なサイトや、URL が頻繁に変更されるサイトの場合、マッピングの維持が複雑になることがある
  • 対象は HTML ページのみとなり、PDF などのファイルには利用できない(このような場合、rel=canonical HTTP ヘッダーを利用可能)
rel=canonical HTTP ヘッダー

ページのレスポンスで rel=canonical ヘッダーを送信します。

メリット:

  • ページのサイズが大きくならない
  • 重複したページの数に関係なく、すべての重複ページをマッピングできる

デメリット:

  • 大規模なサイトや、URL が頻繁に変更されるサイトの場合、マッピングの維持が複雑になることがある
サイトマップ

サイトマップで正規ページを指定します。

メリット:

  • 特に大規模なサイトの場合、正規ページの指定や維持管理が簡単にできる

デメリット:

  • Googlebot では依然として、サイトマップで宣言された正規ページについて、関連する重複ページを特定しなければならない
  • rel=canonical マッピングに比べると、Googlebot に対するシグナルとしては効果が弱い
301 リダイレクト 301 リダイレクトを使用して、リダイレクト先の URL が元の URL よりも優先されるバージョンであることを Googlebot に伝えます。この方法は、重複したページを廃止するときにのみ使用します。
ページの AMP バージョン ページの類似バージョンに AMP ページがある場合は、AMP ガイドラインに沿って、正規ページと AMP バージョンのページを指定する必要があります。

 

Google では、上記の方法のいずれかを使用することをおすすめしていますが、いずれの方法も必須ではありません。正規 URL を指定しない場合は、Google で正規ページとして最適だと判断されたバージョンまたは URL が選ばれることになります。

一般的なガイドライン

すべての正規化方法については、こちらの一般的なガイドラインをご覧ください。

一般的なガイドライン
  • 正規化を目的として robots.txt ファイルを使用しないでください
  • 正規化を目的として URL 削除ツールを使用しないでください。URL 削除ツールはすべてのバージョンの URL を検索結果から削除します。
  • 同じ正規化方法を使用するか異なる正規化方法を使用するかにかかわらず、複数の異なる URL を同じページの正規 URL として指定しないでください(たとえば、サイトマップで特定の URL を指定しているにもかかわらず、同じページに対し、rel="canonical" を使って別の URL を指定するようなことはしないでください)。
  • 正規ページの選択を妨げる手段として noindex使用しないでください。このディレクティブは、正規ページの選択を管理するものではなく、インデックスからページを除外するためのものです。
  • hreflang タグを使用する場合は、正規ページを指定してください。正規ページは、同じ言語で指定するか、または、同じ言語について正規ページが存在しない場合は最適と思われる代替の言語を使用します。

  • サイト内でリンクする場合は、重複した URL ではなく正規 URL にリンクしてください。自分が正規と見なしている URL に一貫してリンクすることで、Google がサイト管理者の意向を理解しやすくなります。

正規 URL として HTTPS を HTTP よりも優先させる

Google では、HTTPS ページを同等の HTTP ページよりも優先的に正規 URL として選択します。ただし、以下のようにシグナルが競合する場合や問題がある場合は例外となります。

  • HTTPS ページに無効な SSL 証明書が含まれている。
  • HTTPS ページに安全でない依存関係が含まれている(画像以外)。
  • HTTPS ページで、ユーザーを HTTP ページに(または HTTP ページ経由で)リダイレクトしている。
  • HTTPS ページに HTTP ページへの rel="canonical" リンクが含まれている。

Google のシステムでは、デフォルトで HTTPS ページが HTTP ページよりも優先的に選択されますが、以下のいずれかを行うと、確実に優先されるようにすることができます。

  • HTTP ページから HTTPS ページへのリダイレクトを追加する。
  • HTTP ページから HTTPS ページへの rel="canonical" リンクを追加する。
  • HSTS を実装する。

Google で HTTP ページが誤って正規 URL とされるのを防ぐには、以下の点にご注意ください

  • 不適切な SSL 証明書や HTTPS から HTTP へのリダイレクトが原因で HTTP が強力に優先されることがあります。この優先は、HSTS を実装しても上書きできません。
  • サイトマップや hreflang エントリに、HTTPS バージョンではなく HTTP バージョンを含めるのは避けてください。
  • SSL や TLS の証明書を実装する際に、類似する誤ったホストで実装しないようにしてください(たとえば example.com で www.example.com の証明書を配信しないでください)。証明書はサイト URL と完全に一致させるか、ドメイン内の複数のサブドメインで使用できるワイルドカード証明書にします。

上級ユーザーのみ: 動的パラメータを無視するよう Google に伝える

パラメータ処理を使用して、クロール時に無視すべきパラメータについて Google に伝えます。特定のパラメータを無視することで、Google のインデックス内でコンテンツの重複を減らし、サイトをクロールしやすくできます。たとえば、パラメータ sessionid を無視するように指定すると、Googlebot では次の 2 つの URL が重複と見なされます。

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

具体的な方法

重複した URL、重複ページや類似ページについて正規 URL を指定するには、以下の方法のいずれかを使用します。

どの方法を選んだ場合でも必ず、上記の一般的なガイドラインを遵守してください。

rel="canonical" リンクタグを使用する

ページのヘッダーに <link> タグを使用すると、ページが別のページの重複であると示すことができます。

たとえば、特定のコンテンツがさまざまな URL からアクセス可能な状態である場合、そのコンテンツについて、https://example.com/dresses/green-dresses を正規 URL にしたいとしましょう。この URL を正規として指定する手順は、次のとおりです。

  1. 重複するすべてのページを rel="canonical" リンク要素でマークしますrel="canonical" 属性を指定した <link> 要素を、重複ページの <head> セクションに追加して、正規ページを指すようにします。この例では次のようになります。
    <link rel="canonical" href="https://example.com/dresses/green-dresses" />

  2. 正規ページにモバイル版がある場合rel="alternate" リンクを追加してモバイル版のページを指すようにします。
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="http://m.example.com/dresses/green-dresses">

  3. ページに合わせて任意の hreflang や他のリダイレクトを追加します。

rel="canonical" リンク要素では、相対パスではなく絶対パスを使用します。

適切な構造: https://www.example.com/dresses/green/greendresss.html
不適切な構造: /dresses/green/greendress.html
rel="canonical" HTTP ヘッダーを使用する

サーバーを構成する権限がある場合は、rel="canonical" HTTP ヘッダー(HTML タグではありません)を使用すると、HTML 以外のドキュメント(PDF ファイルなど)に正規 URL を指定できます。

たとえば、複数の URL で 1 つの PDF ファイルを表示する場合、重複した URL について次のような rel="canonical" HTTP ヘッダーを返して、その PDF ファイルの正規 URL がどれであるかを Google に伝えることが可能です。

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Google では現在、ウェブ検索結果についてのみ、この方法をサポートしています。

rel="canonical" リンク要素では、相対パスではなく絶対パスを使用します。つまり、次のようになります。
適切な構造: http://www.example.com/downloads/white-paper.pdf
不適切な構造: /downloads/white-paper.pdf
サイトマップを使用する

サイトの各ページについて正規 URL を選び、サイトマップで送信します。サイトマップに含まれるすべてのページが正規ページとして提示されるので、Googlebot は、コンテンツの類似性に基づいて、どのページが重複しているか(重複ページがあるかどうか)を判断することになります。

サイトマップ内の URL が正規と見なされることは保証されませんが、サイトマップを使うと、大規模なサイトでも正規 URL を簡単に設定でき、また、サイト上のどのページを最も重要と見なすかを Google に伝えるのに役立ちます。

サイトマップには、正規ページ以外のページを含めないでください。サイトマップを使用する場合、サイトマップでは正規 URL のみを指定します。

廃止する URL に 301 リダイレクトを使用する

既存の重複ページを削除したいが、古い URL を廃止する前にスムーズな移行を確実に行う必要がある場合、この方法を使用します。

たとえば、サイト内のあるページが次のような複数の URL でアクセス可能な状態だとしましょう。

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

上記の URL のいずれか 1 つを正規 URL として選び、301 リダイレクトを使って、他の URL からのトラフィックを、この優先的に使用する URL に送信します。サーバー側での 301 リダイレクトは、ユーザーや検索エンジンを正しいページに確実に誘導するのに最適な方法です。ステータス コード 301 は、ページが別の場所に完全に移転したことを意味します。

ウェブサイト ホスティング サービスをご利用の場合は、301 リダイレクトの設定方法についてそのサービスのドキュメントを検索してください。

この情報は役に立ちましたか?
改善できる点がありましたらお聞かせください。