Робот Googlebot – это разработанная Google программа сканирования Интернета ("паук"). Сканирование – это процесс, в ходе которого робот Googlebot обнаруживает новые и обновленные страницы для добавления в индекс Google.
Мы используем огромную сеть компьютеров, чтобы извлечь (или "просканировать") содержание миллиардов веб-страниц. Робот Googlebot использует следующую алгоритмическую процедуру. Компьютерные программы определяют сайты, которые нужно сканировать, частоту сканирования и количество извлекаемых страниц на каждом сайте.
Процедура сканирования начинается с получения списка URL-адресов веб-страниц, который создается на основе результатов предыдущих сеансов сканирования. Его дополняют данные из файлов Sitemap, предоставленных веб-мастером. Просматривая каждый из этих сайтов, робот Googlebot находит на каждой странице ссылки (SRC и HREF) и добавляет их в список страниц, подлежащих сканированию. Все новые и обновившиеся сайты, а также неработающие ссылки помечаются для обновления в индексе Google.
Для веб-мастеров: робот Googlebot и ваш сайт
Каким образом робот Googlebot работает с вашим сайтом?
Робот Googlebot не должен обращаться к сайту чаще, чем раз в несколько секунд (в среднем). Это относится к большинству сайтов. Но из-за задержек сети в короткие периоды времени эта частота может оказаться несколько выше. Как правило, робот Googlebot должен загружать только одну копию каждой из страниц. Если робот Googlebot загружает страницу несколько раз, это может быть вызвано остановкой и перезапуском поискового робота.
Робот Googlebot предназначен для распределенной работы на нескольких компьютерах. Это обеспечивает рост эффективности и масштабирования системы по мере роста сети. Кроме того, для повышения пропускной способности сети некоторые поисковые роботы запускаются на компьютерах, расположенных рядом с индексируемыми сайтами. Поэтому в ваших журналах могут быть записаны обращения от нескольких компьютеров в домене google.com с роботом Googlebot, указанным в качестве агента пользователя. Наша цель заключается в том, чтобы просканировать как можно больше страниц на сайте за один раз, не снижая пропускной способности сервера. Запросить изменение скорости сканирования.
Блокирование содержания вашего сайта от робота Googlebot
Практически невозможно держать веб-сервер в секрете, не публикуя ссылки на него. Как только кто-нибудь перейдет по ссылке с вашего "секретного" сервера на другой сервер, его URL, переданный в теге источника ссылки, может быть сохранен и опубликован на другом веб-сервере в журнале источников ссылок. Также в сети имеется множество устаревших и неработающих ссылок. Если кто-нибудь опубликовал неверную ссылку на ваш сайт или не обновил ссылки (не отразив изменений на вашем сайте), робот Googlebot попытается обратиться к вашему сайту по неверной ссылке.
Если вы хотите заблокировать сканирование содержания своего сайта роботом Googlebot, то для этого существует целый ряд возможностей. Например, можно заблокировать доступ к файлам и каталогам на сервере с помощью файла robots.txt.
После создания файла robots.txt может пройти некоторое время, пока робот Googlebot обнаружит эти изменения. Если робот Googlebot по-прежнему сканирует содержание, которое было заблокировано в файле robots.txt, проверьте, в правильном ли местоположении находится этот файл. Он должен находиться в корневом каталоге сервера (например, www.myhost.com/robots.txt). Если этот файл находится в подкаталоге, то он не будет иметь никакого действия.
Если нужно просто избавиться от ошибки "файл не найден" в журнале веб-сервера, создайте пустой файл robots.txt. Если нужно заблокировать роботу Googlebot возможность перехода по ссылкам на страницы сайта, то можно воспользоваться метатегом nofollow. Чтобы заблокировать для робота Googlebot возможность перехода по конкретной ссылке, добавьте в нее атрибут rel="nofollow".
Вот еще несколько советов.
- Проверьте, правильно ли работает файл robots.txt. Инструмент "Проверка файла robots.txt" на вкладке Заблокированные URL (robots.txt) на странице Доступ для сканера позволяет просмотреть, как робот Googlebot будет обрабатывать содержание файла robots.txt. Агентом пользователя Google является
Googlebot. - Инструмент Просмотреть как Googlebot в Инструментах для веб-мастеров позволяет понять, как робот Googlebot видит ваш сайт. Это может оказаться полезным при устранении неполадок с содержанием сайта и его появлением в результатах поиска.
Проверка сканирования сайта
Робот Googlebot находит сайты, переходя по ссылкам от страницы к странице. На странице Ошибки сканирования в Инструментах для веб-мастеров перечислены неполадки, найденные роботом Googlebot во время сканирования вашего сайта. Рекомендуется регулярно просматривать ошибки сканирования и вовремя реагировать на возникающие проблемы.
Если вы хотите, чтобы содержание вашего приложения AJAX отображалось в результатах поиска, рекомендуем сделать его доступным для сканирования и индексирования.
Если файл robots.txt работает правильно, но на сайте нет посетителей, проверьте возможные причины низкой эффективности содержания при поиске.
Проблемы, связанные со спамерами и другими агентами пользователей
IP-адреса, которые использует робот Googlebot, время от времени меняются. Лучший способ определить обращение робота Googlebot – по агенту пользователя (Googlebot). С помощью обратного DNS-запроса можно проверить, действительно ли робот, который обращается к вашему серверу, является роботом Googlebot.
Робот Googlebot и все распространенные поисковые системы выполняют директивы в файле robots.txt, но некоторые роботы и спамеры этого не делают. Сообщить Google о спаме.
У Google имеется ряд других агентов пользователей, например Feedfetcher (агент пользователя Feedfetcher-Google). Поскольку запрос Feedfetcher является результатом явного запроса пользователя, добавившего фид на свою Главную страницу Google или в Google Reader, а не автоматическим действием, как у роботов, Feedfetcher не следует правилам в файле robots.txt. Чтобы Feedfetcher не сканировал ваш сайт, настройте сервер на выдачу сообщений об ошибках 404, 410 и других для агента пользователя Feedfetcher-Google. Подробнее о Feedfetcher...
