Googlebot

Googlebot とは、Google のウェブクロール用の bot です(「スパイダー」と呼ばれる場合もあります)。クロールは、Googlebot が Google のインデックスに追加する、新しいページや更新されたページを検出するプロセスです。

Google では、大規模なコンピュータ群を使用して、ウェブ上の数十億のページを取得(クロール)します。Googlebot はアルゴリズムによるプロセスを使用します。クロールするサイト、クロールの頻度、各サイトから取得するページ数はコンピュータ プログラムによって決定されます。

Googlebot がサイトにアクセスする方法

Googlebot は、平均して数秒に 1 回を超える頻度でサイトにアクセスすることはありません。ただし、ネットワークの遅延などにより、短時間でアクセス頻度が少し増えたように見える場合があります。

Googlebot は、複数のマシンに分散させることでパフォーマンスを向上させ、ウェブの拡大に伴って拡張される設計になっています。また、帯域幅の使用量を節約するため、ネットワーク上で、インデックス登録するサイトの近くにあるマシンで多数のクローラーを稼働させています。そのため、google.com の複数のマシンからのアクセス(ユーザー エージェントはすべて Googlebot)がログに記録される場合があります。Google では、サーバーの帯域幅に大きな負荷をかけることなく、1 回のアクセスでサイトのできる限り多くのページをクロールすることを目標にしています。クロール頻度の変更をリクエストする方法をご確認ください。

サイトのコンテンツを Googlebot からブロックする

ウェブサーバーへのリンクを公開しないようにして、そのウェブサーバーの存在を隠すことはまず不可能です。誰かが「非公開」のサーバーからリンクをたどって別のウェブサーバーにアクセスすると、「非公開」の URL がリファラータグに追加され、他のウェブサーバーのリファラーログに保存、公開されます。同様に、ウェブ上には、古くなったリンクや無効になったリンクが多数存在します。サイトに対して間違ったリンクを公開したり、リンクの更新に失敗してサーバーでの変更を反映できなかったりすると、Googlebot は間違ったリンクをサイトからダウンロードしようとします。

Googlebot によるサイトのコンテンツのクロールをブロックする方法もあります。Googlebot によるページのクロールのブロック、Googlebot によるページのインデックス登録のブロック、クローラとユーザーによるページアクセスの完全なブロックの違いにご注意ください。

スパム行為や他のユーザー エージェントの問題

Googlebot が使用する IP アドレスはその都度変わります。Googlebot かどうかはユーザー エージェント文字列で確認できますが、誰かが Googlebot になりすますことも考えられます。そのため、Googlebot によるアクセスを識別する方法として、DNS リバース ルックアップの使用をおすすめします。

Googlebot や信頼できる検索エンジンの bot はすべて robots.txt のディレクティブに従いますが、一部の悪質な bot やスパムは従っていません。スパムを見つけたら Google に報告してください。

Google には、Feedfetcher(ユーザー エージェント Feedfetcher-Google)など、他にも使用しているユーザー エージェントがいくつかあります。Feedfetcher のリクエストは Google のホームページにフィードを追加したユーザーによる明示的なアクションから発生し、自動化されたクローラーからは発生しないため、Feedfetcher は robots.txt のガイドラインに従いません。Feedfetcher によるサイトのクロールをブロックするには、ユーザーエージェント Feedfetcher-Google に対して 404 や 410 などのエラー ステータス メッセージを返すようにサーバーを設定してください。Feedfetcher についての詳細をご確認ください。

この記事は役に立ちましたか?
改善できる点がありましたらお聞かせください。