Googlebot

Googlebot は、Google のウェブクローラの総称です。デスクトップでユーザーをシミュレートするデスクトップ クローラと、モバイル デバイスでユーザーをシミュレートするモバイル クローラの 2 種類のクローラがあります。

通常、ウェブサイトは Googlebot Desktop と Googlebot Mobile の両方でクロールされます。Googlebot のサブタイプは、リクエストのユーザー エージェント文字列で確認できます。ただし、両方のクローラタイプが robots.txt 内の同じプロダクト トークン(ユーザー エージェント トークン)に従うため、robots.txt で Googlebot Mobile または Googlebot Desktop のどちらかをターゲットにすることはできません。

サイトを Google のモバイル ファーストに移行している場合、Googlebot のクロール リクエストの大部分はモバイル クローラを使用して行われ、一部がデスクトップ クローラを使用して行われます。まだ移行していないサイトの場合、クロールの大部分はデスクトップ クローラを使用して行われます。どちらの場合でも、一部を対象とするクローラは、大部分を対象とするクローラがすでにクロールしている URL のみをクロールします。

 

Googlebot がサイトにアクセスする方法

Googlebot は、平均して数秒に 1 回を超える頻度でサイトにアクセスすることはありません。ただし、遅延などにより、短時間にアクセス頻度が若干増えたように思える場合があります。

Googlebot は、数千台のマシンで同時に実行することでパフォーマンスを向上させ、ウェブの拡大に伴って拡張できるように設計されています。また、帯域幅の使用量を削減するために、クロール対象のサイトの近くにあるマシンで多数のクローラを実行します。そのため、google.com の複数のマシンからのアクセス(ユーザー エージェントはすべて Googlebot)がログに記録される場合があります。Google では、サーバーの帯域幅に大きな負荷をかけることなく、1 回のアクセスでサイトのできる限り多くのページをクロールすることを目標にしています。Google のクロール リクエストへの対応で問題が発生した場合は、クロール頻度の変更をリクエストできます。

Googlebot のサイトアクセスをブロックする

ウェブサーバーへのリンクを公開しないようにして、そのウェブサーバーの存在を隠すことはまず不可能です。誰かが「非公開」のサーバーからリンクをたどって別のウェブサーバーにアクセスすると、「非公開」の URL がリファラータグに追加され、他のウェブサーバーのリファラーログに保存、公開されます。同様に、ウェブ上には、古くなったリンクや無効になったリンクが多数存在します。サイトに対して間違ったリンクを公開したり、リンクの更新に失敗してサーバーでの変更を反映できなかったりすると、Googlebot は間違ったリンクをサイトからクロールしようとします。

Googlebot によるサイトのコンテンツのクロールをブロックする方法もあります。Googlebot によるページのクロールのブロック、Googlebot によるページのインデックス登録のブロック、クローラとユーザーによるページアクセスの完全なブロックの違いにご注意ください。

Googlebot かどうかの確認

Googlebot をブロックする前に、Googlebot が使用する user-agent 文字列を他のクローラが偽装していることがよくあるという点をご理解ください。問題のリクエストが本当に Google から送信されたものかどうかを確認することが重要になります。リクエストが実際に Googlebot から送信されたものかどうかを確認するには、リクエストの送信元 IP で DNS のリバース ルックアップをご利用ください。

Googlebot や信頼できる検索エンジンの bot はすべて robots.txt のディレクティブに従いますが、一部の悪質な bot やスパムは従っていません。Google は日々スパマーと闘っています。Google の検索結果でスパムページやスパムサイトを見かけた場合は、Google にスパムを報告してください。

 

この情報は役に立ちましたか?
改善できる点がありましたらお聞かせください。