Google 検索の仕組み

Google でウェブページが検出、クロールされ、検索結果に表示される仕組み

この記事では、Google 検索の仕組みについての説明を、簡易版と詳細版の 2 種類にわけて掲載しています。

Google は次のようなさまざまな場所から情報を取得します。

  • ウェブページ
  • Google マイビジネスやマップなどでユーザーが送信するコンテンツ
  • 書籍のスキャン
  • インターネット上の公開データベース
  • その他のさまざまなソース

このページではウェブページに焦点を当てて説明します。

簡易版

Google では、次の基本的な 3 つのステップによってウェブページから検索結果を生成しています。

クローリング

1 つ目のステップは、ウェブにどのようなページが存在するかを把握することです。すべてのウェブページが登録された一元的なレジストリはないため、Google は新しいページを絶えず検出し、既知のページのリストに加える必要があります。この検出プロセスは「クローリング」と呼ばれます。

Google がすでにクロールしているページは、既知のページとなります。Google が既知のページから新しいページへのリンクをたどることで、他のページが検出されます。また、ウェブサイトの所有者が Google によるクロールを希望するページのリスト(サイトマップ)を提出することで、検出されるページもあります。Wix や Blogger などの管理されたウェブホストを使用している場合、更新されたページや新しいページをクロールするように、ウェブホストから Google にリクエストされることがあります。

サイトのクローラビリティを改善する方法

  • 単一ページの変更については、個々の URL を Google に送信することができます。
  • Google がすでに検出している別のページに新しいページをリンクさせます。ただし、広告内のリンクや、他のサイトの有料リンク、コメント内のリンク、Google のウェブマスター向けガイドラインに準拠していないリンクはクロールされないのでご注意ください。

 

Google がサイトをより頻繁にクロールしたり、サイトの掲載順位を上げたりするためにお支払いをお願いすることはありません。これと反する内容を耳にしたとしても、それは事実ではありませんのでご注意ください。

インデックス登録

ページが検出されると、Google はそのページの内容を把握しようとします。このプロセスは「インデックス登録」と呼ばれます。Google では、ページのコンテンツを分析し、ページに埋め込まれている画像や動画ファイルのカタログを作成して、ページの内容を把握します。この情報は、「Google インデックス」に保存されます。Google インデックスは、膨大な数のコンピュータに格納された巨大なデータベースです。

より効果的なインデックス登録の方法

  • 短くわかりやすいページタイトルを作成します。
  • ページの内容が伝わる見出しを付けます。
  • 画像ではなくテキストを使用して、内容を伝達します(Google では一部の画像や動画については理解できますが、テキストの方が理解しやすくなります。せめて、alt テキストや他の属性を適宜使用して、動画画像にアノテーションを付けるようにしてください)。

検索結果の表示(およびランキング)

ユーザーが検索クエリを入力すると、Google はさまざまな要因に基づいて、インデックスから最も関連性の高い回答を見つけようとします。最も精度の高い回答を判断し、ユーザーの高い利便性と最適な回答を提供するため、他の要素も考慮します。この場合、ユーザーの所在地、言語、端末(パソコンかスマートフォンか)などの要素が考慮されます。たとえば「自転車修理店」を検索する場合、パリのユーザーと、香港のユーザーには異なる検索結果が表示されます。Google では、ページの掲載順位を上げるためにお支払いをお願いすることはありません。ランキングはプログラムによって決定されます。

検索結果の表示やランキングを向上させる方法

詳細版

さらに詳しい情報については、以下をご覧ください。

詳細版

 

クロール

クロールは、Googlebot が Google のインデックスに追加する、新しいページや更新されたページを検出するプロセスです。

Google では、大規模なコンピュータ群を使用して、ウェブ上の数十億のページを取得(クロール)します。取得プログラムは Googlebot と呼ばれ、ロボットやボット、スパイダーとも呼ばれます。Googlebot はアルゴリズムによるプロセスを使用します。クロールするサイト、クロールの頻度、各サイトから取得するページ数はコンピュータ プログラムによって決定されます。

クロールを開始する際は、前回のクロールで生成され、ウェブマスターから提供されたサイトマップによって補強された、ウェブページの URL リストを使用します。Googlebot はこれらのウェブサイトすべてにアクセスし、各ページのリンクを検出してクロール対象ページのリストに追加します。また、新しいサイト、既存のサイトへの変更、無効なリンクを検出し、Google インデックスの更新情報として使用します。

Google は、どのようにしてページを検出しているのですか?

Google では、次のようなさまざまな手法によってページを検索しています。

  • 他のサイトやページからのリンクをたどる
  • サイトマップを読み取る

Google は、どのようにしてページがクロールの対象かどうかを判断していますか?

  • robots.txt でブロックされたページはクロールされませんが、別のページにリンクされている場合には、インデックスに登録される可能性があります(Google は、ページへのリンクをもとにページの内容を推測し、コンテンツを解析せずにそのページをインデックス登録することがあります)。
  • Google では、匿名ユーザーがアクセスできないページはクロールできません。したがって、ログインなどの認証によって保護されたページはクロールされません。

クローラビリティを改善する

Google がサイトのページを適切に検出できるようにするには、以下の手法をお試しください。

インデックス登録

Googlebot は、クロールした各ページを処理し、検出したすべての単語とページ上の場所を大規模なインデックスに登録します。さらに、<title> タグや alt 属性などの主要なコンテンツタグや属性に含まれる情報も処理します。Googlebot ではさまざまなコンテンツを処理できますが、すべての種類を処理できるわけではありません。たとえば、一部のリッチメディア ファイルのコンテンツは処理できません。

noindex ディレクティブ(見出しまたはタグ)のあるページはクロールされません。ただし、クローラがディレクティブを認識できるようにする必要があります。robots.txt ファイル、ログインページ、他の端末などによってページがブロックされている場合、Google がページにアクセスしていなくてもインデックスに登録されてしまう可能性があります。

より効果的なインデックス登録を行う

Google がページのコンテンツを理解しやすくするための手法には、さまざまなものがあります。

検索結果の表示

ユーザーが検索クエリを入力すると、インデックスで一致するページが検索され、関連性が高いと判断された検索結果が返されます。ページの関連性は、200 以上もの要素によって判断されます。Google では、アルゴリズムの向上に常に取り組んでいます。Google では、ユーザーの利便性を考慮して検索結果の選択とランキングを決めているため、ページの読み込み速度を速くしモバイル対応にすることが必要です。

検索結果での表示を改善する

  • サイトが特定の地域や言語のユーザーを対象としている場合は、Google にその設定に指定することができます。
  • ページの読み込み速度を速くしモバイル対応にします。
  • ウェブマスター向けガイドラインに沿って、よくあるミスを回避し、サイトのランキングを上げます。
  • レシピカードや記事カードなど、検索結果機能をサイトに実装することを検討します。
  • モバイル端末でページを高速に読み込むため、AMP を実装します。一部の AMP ページでは、トップニュース カルーセルなどの追加の検索機能も利用できます。
  • Google のアルゴリズムは常に改善されています。アルゴリズムを推測して、それに合わせてページを設計しようとするのではなく、ユーザーが望む良質で新鮮なコンテンツを作成し、ガイドラインに準拠してください。

さらに詳しい説明

Google 検索の仕組みに関する、さらに詳しい説明はこちらから確認できます(画像や動画付きです)。

この記事は役に立ちましたか?
改善できる点がありましたらお聞かせください。