Робот Googlebot

Робот Googlebot – это инструмент, с помощью которого Google сканирует контент в Интернете. Его задача – обнаруживать и добавлять в индекс Google новые и измененные страницы.

Для его работы используется огромное количество компьютеров, ведь он обрабатывает миллиарды страниц. Робот действует полностью автоматически: он самостоятельно определяет, какие сайты сканировать, как часто это нужно делать, а также какое количество страниц следует выбрать на каждом из них.

Как Googlebot работает с вашим сайтом?

Робот Googlebot не может обращаться к сайту чаще, чем раз в несколько секунд (в среднем). Это относится к большинству страниц. Если в сети наблюдаются задержки, эта периодичность может увеличиться.

Робот Googlebot – это распределенная система. Во-первых, это значит, что по мере расширения сети мы добавляем для него новые компьютеры, чтобы он мог действовать эффективно. А во-вторых, это позволяет уменьшить расстояние от его компьютеров до хостинговых серверов, чтобы сократить передачу трафика. Поэтому в ваших журналах могут быть записаны обращения от нескольких компьютеров в домене google.com, для которых в качестве агента пользователя указан робот Googlebot. Наша цель заключается в том, чтобы просканировать как можно больше страниц на сайте за один раз, не оказывая излишней нагрузки на ваш сервер. Запросить изменение скорости сканирования.

Как закрыть роботу Googlebot доступ к вашему контенту

Даже если вы сами не размещаете ссылки на ваш веб-сервер, сохранить его в секрете не удастся. Как только кто-нибудь перейдет по ссылке с вашего "секретного" сервера на другой, его URL, переданный в теге источника ссылки, может быть сохранен и опубликован на целевом сервере в журнале источников ссылок. Также в Интернете множество устаревших и неработающих ссылок. Если на другой странице размещена некорректная или устаревшая ссылка на ваш сайт, робот Googlebot попытается использовать ее.

Если вы хотите прекратить сканирование своего сайта роботом Googlebot, используйте эти инструменты. Убедитесь, что полностью понимаете разницу между прекращением сканирования своего сайта роботом Googlebot, прекращением индексирования страниц своего сайта роботом Googlebot и прекращением доступа к странице как для сканеров, так и для пользователей.

Проблемы, связанные с другими агентами пользователей, а также спамерами

IP-адреса, которые использует робот Googlebot, время от времени меняются. Робот Googlebot идентифицируется с помощью строки агента пользователя, которую можно подделать. Поэтому, чтобы узнать, посещал ли он ваш сайт, рекомендуем воспользоваться обратным DNS-запросом.

Googlebot и все распространенные поисковые системы выполняют инструкции, указанные в файле robots.txt, но некоторые роботы и спамеры этого не делают. Сообщить о спаме

Роботы Google используют и другие агенты пользователей. Например, если кто-то добавит ваш фид на свою главную страницу Google, система Feedfetcher может запрашивать контент с вашего сайта. Поскольку такие обращения не являются сканированием, правила в файле robots.txt для них не действуют. Если вы не хотите, чтобы этот робот заходил на ваш сайт, настройте сервер так, чтобы он выдавал агенту пользователя Feedfetcher-Google сообщения об ошибках 404, 410 и т. д. Подробнее...

Была ли эта статья полезна?
Как можно улучшить эту статью?