重複した URL を統合する

類似ページや重複ページについて正規ページを設定する

概要

お持ちのサイトにおいて、複数の URL で同じページにアクセス可能な場合や、別個のページのコンテンツが類似している場合(たとえば、ページにモバイル版と PC 版の両方がある場合)、こうしたページは Google で同じページの重複版と見なされます。これらの URL の 1 つが「正規」版として選択されてクロールされ、その他の URL はすべて「重複」URL と見なされてクロールの頻度が減ります。

このような正規 URL を明確に指定しないと、Google によって URL が選択されるか、いずれの URL も同等の重要性を持つものと見なされることになります。そのため、下記の「正規 URL の指定が重要な理由」で説明するような望ましくない動作につながることがあります。

詳細
ここでは、正規化について詳しく説明していますが、不要であれば読み飛ばしていただいてかまいません。詳細情報をご希望の場合は続きをご覧ください。
Googlebot は、サイトをインデックスに登録する際、各ページのトピックを特定しようとします。同一のサイト内に、同じものを扱っていると思われるページが複数見つかった場合、Googlebot では、最も完成度が高く有用であると判断したページを選び、そのページを正規と見なします。この正規ページが定期的に最も頻繁にクロールされることになり、重複したページについては、該当サイトのクロールの割り当てを制限するためにクロール頻度が下がります。そのため、どのページが正規であるかを Googlebot に伝えないまま、別のページを正規ページとした場合には、ページの更新作業に労力を費やしても、そのページが実際には、Googlebot であまり頻繁にインデックス登録されない、検索結果に表示されない、といったことになりかねません。
Google では、内容と質の評価に関して、サイトの正規ページを、そのサイトのコンテンツを代表するものとして利用します。また、Google 検索においては、重複ページのいずれかが明らかにユーザーのクエリに最も合致するものでない限り、通常は正規ページが検索結果に表示されます。たとえば、ユーザーがモバイル端末で検索した場合は、PC 向けページが正規として指定されていても、検索結果にはモバイル向けページが表示される可能性が高くなります。
Google は、さまざまな要素(シグナル)に基づいて正規ページを選択します。こうした要素の例としては、ページが http または https のどちらで配信されるか、使用するドメインとして宣言されているドメイン、ページの質、サイトマップに該当 URL が存在するか、「rel=canonical」のラベル、といったものが挙げられます。正規ページを強制的に Google に選択させることはできませんが、ここに示す手法のいずれかを使って、そうした選択に影響を及ぼすことは可能です。

 

類似ページや重複ページが生じる原因

サイトにおいて、別々の URL が同一のページを指していたり、URL の異なるページのコンテンツが重複または非常に類似していたりすることには、正当な理由があります。最も一般的なものを以下に示します。

  • さまざまな種類の端末に対応するため:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
    
  • 検索パラメータやセッション ID などで動的 URL を有効にするため:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • ブログで複数の項目下に同じ投稿を配置したため、ブログのシステムにより自動的に複数の URL が保存された場合:
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • サーバーの設定により、www ありと www なし、http と https のような類似バージョンに対して同じコンテンツが配信される場合:
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • ブログで他サイトへのシンジケーション用に提供したコンテンツの一部またはすべてが、他サイトのドメインで複製された場合:
    https://news.example.com/green-dresses-for-every-day-155672.html(シンジケートされた投稿)https://blog.example.com/dresses/green-dresses-are-awesome/3245/(元の投稿)

正規 URL の指定が重要な理由

次のような理由から、重複ページや類似ページについて正規ページを指定することをおすすめします。

  • 検索結果でユーザーに表示する URL を指定するため。たとえば、緑のワンピースの商品ページにユーザーをアクセスさせる際の URL として、https://example.com/dresses/cocktail?gclid=ABCD ではなく https://www.example.com/dresses/green/greendress.html を選ぶことができます。
  • 類似ページや重複ページについてリンクのシグナルを統合するため。これにより、検索エンジンで、個々の URL について得られた情報(その URL へのリンクなど)を、選んだ 1 つの URL に統合できるようになります。つまり、他のサイトからの http://example.com/dresses/cocktail?gclid=ABCD へのリンクが、https://www.example.com/dresses/green/greendress.html へのリンクに統合されます。
  • 1 つの商品やトピックのトラッキング指標を単純化するため。URL が複数あると、特定のコンテンツについて指標を統合することはさらに難しくなります。
  • シンジケーション コンテンツを管理するため。 他のドメインで公開するコンテンツをシンジケートする場合、使用する URL にページ ランキングを統合する必要があります。
  • 重複したページのクロールに時間がかかるのを防ぐため。Googlebot でサイトが最大限に活用されるようにするには、サイト内の同一ページの PC 版とモバイル版のクロールよりも、新しい(または更新された)ページのクロールに多くの時間をかけられるようにするのが効果的です。

Google で正規(または重複)と見なされる URL

URL 検査ツールを使用して、Google でどのページが正規と見なされるかを調べます。なお、正規ページを明示した場合でも、さまざまな理由(パフォーマンスやコンテンツなど)から Google のアルゴリズムで別のページが正規として選択されることもあります。

正規ページを指定する

重複した複数のページから正規ページを指定するには、用途に応じて方法がいくつかあります。

方法 説明
一般的なガイドライン すべての正規化方法については、こちらのガイドラインをご覧ください。
使用するドメインを指定する

Search Console を使用して、特定のドメインの URL を正規として指定し、別のドメインの相似した URL よりも優先されるようにします。たとえば、www.example.com ではなく example.com を優先させることができます。この方法は、サブドメインだけが異なる類似サイトが 2 つあるときにのみ使用します。http または https を使用する相似サイトには使用しないでください。

メリット:

  • 実装、管理、変更が簡単にできる
  • 異なるドメインにまったく同じサイトが存在する場合に使用できる

デメリット:

  • ドメインが異なる場合にしか利用できず、ページが重複と見なされるにはパスと名前が同じでなければならない
  • パス名が同一のページについて単一のページ マッピングしか有効にできない
rel=canonical <link> タグ

すべての重複ページのコードに、正規ページへのリンクを示す <link> タグを追加します。

メリット:

  • 重複したページの数に関係なく、すべての重複ページをマッピングできる

デメリット:

  • ページのサイズが大きくなる場合がある
  • 大規模なサイトや、URL が頻繁に変更されるサイトの場合、マッピングの維持が複雑になることがある
  • 対象は HTML ページのみとなり、PDF などのファイルには利用できない(このような場合、rel=canonical HTTP ヘッダーを利用可能)
rel=canonical HTTP ヘッダー

ページのレスポンスで rel=canonical ヘッダーを送信します。

メリット:

  • ページのサイズが大きくならない
  • 重複したページの数に関係なく、すべての重複ページをマッピングできる

デメリット:

  • 大規模なサイトや、URL が頻繁に変更されるサイトの場合、マッピングの維持が複雑になることがある
サイトマップ

サイトマップで正規ページを指定します。

メリット:

  • 特に大規模なサイトの場合、正規ページの指定や維持管理が簡単にできる

デメリット:

  • Googlebot では依然として、サイトマップで宣言された正規ページについて、関連する重複ページを特定しなければならない
  • rel=canonical マッピングに比べると、Googlebot に対するシグナルとしては効果が弱い
301 リダイレクト 301 リダイレクトを使用して、リダイレクト URL が特定の URL よりも優先されるバージョンであることを Googlebot に伝えます。この方法は、重複したページを廃止するときにのみ使用します。
ページの AMP バージョン ページの類似バージョンとして AMP ページを使用する場合は、AMP ガイドラインに沿って、正規ページと AMP バージョンのページを指定する必要があります。

 

Google では、上記の方法のいずれかを使用することをおすすめしていますが、いずれの方法も必須ではありません。正規 URL を指定しない場合は、Google で正規ページとして最適だと判断されたバージョンまたは URL が選ばれることになります。

一般的なガイドライン

すべての正規化方法については、こちらの一般的なガイドラインをご覧ください。

一般的なガイドライン
  • 正規化を目的として robots.txt ファイルを使用しないでください
  • 正規化を目的として URL 削除ツールを使用しないでください。URL 削除ツールを使用するとすべてのバージョンの URL が検索結果から削除されます。
  • 同じ正規化方法でも異なる方法でも、複数の異なる URL を同じページの正規 URL として指定しないでください(たとえば、サイトマップで特定の URL を指定する一方で、同じページに対し、rel="canonical" を使って別の URL を指定するようなことはしないでください)。
  • 正規ページの選択を妨げる手段として noindex使用しないでください。このディレクティブは、正規ページの選択を管理するものではなく、インデックスからページを除外するためのものです。
  • hreflang タグを使用する場合は、正規ページを指定してください。正規ページは、同じ言語で指定するか、または、同じ言語について正規ページが存在しない場合は最適と思われる代替の言語を使用します。

正規 URL として HTTPS を HTTP よりも優先させる

Google では、正規 URL として、HTTPS ページを同等の HTTP ページよりも優先的に選択します。ただし、以下のようにシグナルが競合する場合や問題がある場合は例外となります。

  • HTTPS ページに無効な SSL 証明書が含まれている。
  • HTTPS ページに安全でない依存関係が含まれている(画像以外)。
  • HTTPS ページで、ユーザーを HTTP ページに(または HTTP ページ経由で)リダイレクトしている。
  • HTTPS ページに HTTP ページへの rel="canonical" リンクが含まれている。

Google のシステムでは、デフォルトで HTTPS ページが HTTP ページよりも優先的に選択されますが、以下のいずれかを行うと、確実に優先されるようにすることができます。

  • HTTP ページから HTTPS ページへのリダイレクトを追加する。
  • HTTP ページから HTTPS ページへの rel="canonical" リンクを追加する。
  • HSTS を実装する。

Google で HTTP ページが誤って正規 URL とされるのを防ぐには、以下のにご注意ください。

  • 不適切な SSL 証明書や HTTPS から HTTP へのリダイレクトが原因で HTTP が強力に優先されることがあります。この優先は、HSTS を実装しても上書きできません。
  • サイトマップや hreflang エントリに、HTTPS バージョンではなく HTTP バージョンを含めるのは避けてください。
  • SSL や TLS の証明書を実装する際に、類似する誤ったホストで実装しないようにしてください(たとえば example.com で www.example.com の証明書を配信しないでください)。証明書はサイト URL と完全に一致させるか、ドメイン内の複数のサブドメインで使用できるワイルドカード証明書にします。

動的パラメータを無視するよう Google に伝える

パラメータ処理を使用して、クロール時に無視すべきパラメータについて Google に伝えます。特定のパラメータを無視することで、Google のインデックス内でコンテンツの重複を減らし、サイトをクロールしやすくできます。たとえば、パラメータ sessionid を無視するように指定すると、Googlebot では次の 2 つの URL が重複と見なされます。

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

具体的な方法

重複した URL、重複ページや類似ページについて正規 URL を指定するには、以下の方法のいずれかを使用します。

どの方法を選んだ場合でも必ず、上記の一般的なガイドラインを遵守してください。

使用するドメインを設定する

Search Console を使って、サイトのドメインについて、どのバージョンのサイト URL を正規ページとして優先させるかを Google に伝えます。

  • https://www.example.com
  • https://example.com

使用するドメインを https://example.com に設定すると、Google では、www.example.com 上の類似した URL やページは、example.com 上のページの重複と見なされます。

詳しくは、使用するドメインの設定についての記事をご覧ください。

rel="canonical" リンクタグを使用する

ページのヘッダーに <link> タグを使用すると、ページが別のページの重複であると示すことができます。

たとえば、特定のコンテンツがさまざまな URL からアクセス可能な状態である場合、そのコンテンツについて、https://example.com/dresses/green-dresses を正規 URL にしたいとしましょう。この URL を正規として指定する手順は、次のとおりです。

  1. 重複したすべてのページを rel="canonical" リンク要素でマークします。rel="canonical" 属性を指定した <link> 要素を、重複ページの <head> セクションに追加して、正規ページを指すようにします。この例では次のようになります。
    <link rel="canonical" href="https://example.com/dresses/green-dresses" />

  2. 正規ページにモバイル版の類似バージョンがある場合は、rel="alternate" リンクを追加して、モバイル版のページを指すようにします。
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="http://m.example.com/dresses/green-dresses">

  3. 該当するページに合わせて適切な hreflang や他のリダイレクトを追加します。

rel="canonical" リンク要素では、相対パスではなく絶対パスを使用します。

適切な構造: https://www.example.com/dresses/green/greendresss.html
不適切な構造: /dresses/green/greendress.html
rel="canonical" HTTP ヘッダーを使用する

サーバーを設定する権限がある場合は、rel="canonical" の(HTML タグではなく)HTTP ヘッダーを使用すると、HTML 以外のドキュメント(PDF ファイルなど)について正規 URL を指定できます。

たとえば、複数の URL で 1 つの PDF ファイルを表示する場合、重複した URL について次のような rel="canonical" HTTP ヘッダーを返して、その PDF ファイルの正規 URL がどれであるかを Google に伝えることが可能です。

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Google では現在、ウェブ検索結果についてのみ、この方法をサポートしています。

rel="canonical" リンク要素では、相対パスではなく絶対パスを使用します。つまり、次のようになります。
適切な構造: http://www.example.com/downloads/white-paper.pdf
不適切な構造: /downloads/white-paper.pdf
サイトマップを使用する

サイトの各ページについて正規 URL を選び、サイトマップで送信します。サイトマップに含まれるすべてのページが正規ページとして提示されるので、Googlebot では、コンテンツの類似性に基づいて、どのページが重複しているか(重複ページがあるかどうか)を判断することになります。

サイトマップ内の URL が正規と見なされることは保証されませんが、サイトマップを使うと、大規模なサイトでも正規 URL を簡単に設定でき、また、サイト上のどのページを最も重要と見なすかを Google に伝えるのに役立ちます。

サイトマップには、正規ページ以外のページを含めないでください。サイトマップを使用する場合、サイトマップでは正規 URL のみを指定します。

廃止する URL に 301 リダイレクトを使用する

既存の重複ページを削除したいが、古い URL を廃止する前にスムーズな移行を確実に行う必要がある場合、この方法を使用します。

たとえば、サイトのページが次のような複数の方法でアクセス可能な状態だとしましょう。

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

上記の URL のいずれか 1 つを正規 URL として選び、301 リダイレクトを使って、他の URL からのトラフィックを、この優先的に使用する URL に送信します。サーバー側での 301 リダイレクトは、ユーザーや検索エンジンを正しいページに確実に誘導するのに最適な方法です。ステータス コード 301 は、ページが別の場所に完全に移転したことを意味します。

ウェブサイト ホスティング サービスをご利用の場合は、301 リダイレクトの設定方法についてそのサービスのドキュメントを検索してください。

この記事は役に立ちましたか?
改善できる点がありましたらお聞かせください。