Общие сведения о наших поисковых роботах и инструментах для сбора данных (агентах пользователя)

Google использует поисковые роботы и инструменты для сбора данных, чтобы выполнять действия со своими продуктами автоматически или по запросу пользователя.

Поисковый робот (или "паук") – это программа, которая автоматически обнаруживает и сканирует сайты, переходя по ссылкам от страницы к странице. Основной поисковый робот, который используется в Google Поиске, называется Googlebot.

Инструменты для сбора данных, как и браузер, загружают один URL по запросу пользователя.

В приведенных ниже таблицах вы найдете информацию о том, как поисковые роботы и инструменты для сбора данных Google, используемые разными продуктами и сервисами, упоминаются в журналах переходов и как их указывать в файле robots.txt. Учтите, что в списках указаны лишь основные отправители запросов, которые представлены в файлах журналов.

  • Токен агента пользователя указывается в строке User-agent: файла robots.txt и позволяет выбирать, на каких поисковых роботов будет распространяться то или иное правило сканирования. Как видно из таблицы, некоторым роботам соответствует несколько токенов, но для того, чтобы правило действовало, достаточно одного. Приведенный ниже перечень не является исчерпывающим, но содержит информацию о роботах, которые с наибольшей вероятностью будут посещать ваш сайт.
  • Полная строка агента пользователя – это подробное описание поискового робота. Оно указывается в HTTP-запросах и журналах.

Основные поисковые роботы

Основные поисковые роботы Google используются для создания индексов Google Поиска, анализа и выполнения других операций сканирования в зависимости от конкретного продукта. Они всегда следуют правилам из файла robots.txt и, как правило, выполняют сканирование из диапазонов IP-адресов, опубликованных в объекте googlebot.json.

Основные поисковые роботы

Googlebot Smartphone

Токен агента пользователя Googlebot
Полная строка агента пользователя Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Googlebot Desktop

Токен агента пользователя Googlebot
Полные строки агента пользователя
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • Редко:
    • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot Image

Этот робот позволяет сканировать байты графических данных для Google Картинок и продуктов, в которых они используются.

Токены агента пользователя
  • Googlebot-Image
  • Googlebot
Полная строка агента пользователя Googlebot-Image/1.0

Googlebot-News

Googlebot News использует робот Googlebot для сканирования новостных статей, учитывая при этом и свой первоначальный токен агента пользователя Googlebot-News.

Токены агента пользователя
  • Googlebot-News
  • Googlebot
Полная строка агента пользователя Агент пользователя Googlebot-News задействует самые разные строки.

Googlebot Video

Этот робот позволяет сканировать байты видеоданных для Google Видео и продуктов, в которых они используются.

Токены агента пользователя
  • Googlebot-Video
  • Googlebot
Полная строка агента пользователя Googlebot-Video/1.0

Google StoreBot

Google StoreBot сканирует страницы с информацией о товаре, страницы корзины и оплаты и некоторые другие страницы аналогичных типов.

Токен агента пользователя Storebot-Google
Полные строки агента пользователя
  • Версия для компьютеров:
    Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Safari/537.36
  • Мобильная версия:
    Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36

Google-InspectionTool

Поисковый робот Google-InspectionTool используется инструментами тестирования Search Console, в том числе предназначенными для проверки расширенных результатов и проверки URL. Помимо агента пользователя и его токена, он имитирует работу робота Googlebot.

Токен агента пользователя
  • Google-InspectionTool
  • Googlebot
Полная строка агента пользователя
  • Мобильная версия:
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
  • Версия для компьютеров:
    Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)

GoogleOther

GoogleOther – поисковый робот общего назначения, который может использоваться командами по работе над разными продуктами для получения общедоступного контента с сайтов. Например, с его помощью можно выполнять однократные операции сканирования для внутренних исследований и разработки.

Токен агента пользователя GoogleOther
Полная строка агента пользователя GoogleOther

Google-Extended

Google-Extended – отдельный токен продукта, который позволяет веб-издателям указать, поддерживают ли их сайты оптимизацию с использованием приложений Gemini и Vertex (API для создания контента с помощью искусственного интеллекта), а также последующих поколений моделей, лежащих в основе этих продуктов. Google-Extended никак не влияет на показ или рейтинг сайта в Google Поиске.

Токен агента пользователя Google-Extended
Полная строка агента пользователя В Google-Extended нет отдельной строки агента пользователя HTTP-запроса. Сканирование выполняется с помощью имеющихся строк агента пользователя Google. При этом токен агента пользователя из файла robots.txt применяется в целях проверки.

Специальные поисковые роботы

Специальные поисковые роботы используются определенными продуктами при наличии договоренности между ними и сайтами, которые сканируются такими роботами. Например, AdsBot игнорирует глобальный агент пользователя из файла robots.txt (*), если это разрешено издателем объявления. Такие роботы могут не учитывать правила robots.txt, поэтому работают из диапазона IP-адресов, не используемого основными поисковыми роботами. Диапазоны IP-адресов опубликованы в объекте special-crawlers.json.

Специальные поисковые роботы

APIs-Google

Используется в API Google для отправки push-уведомлений. Игнорирует глобальный агент пользователя (*) из файла robots.txt.

Токен агента пользователя APIs-Google
Полная строка агента пользователя APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

AdsBot Mobile Web Android

Проверяет качество рекламы на веб-страницах, предназначенных для устройств Android. Игнорирует глобальный агент пользователя (*) из файла robots.txt.

Токен агента пользователя AdsBot-Google-Mobile
Полная строка агента пользователя Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

Проверяет качество рекламы на веб-страницах, предназначенных для устройств iOS. Игнорирует глобальный агент пользователя (*) из файла robots.txt.

Токен агента пользователя AdsBot-Google-Mobile
Полная строка агента пользователя Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

Проверяет качество рекламы на веб-страницах, предназначенных для компьютеров. Игнорирует глобальный агент пользователя (*) из файла robots.txt.

Токен агента пользователя AdsBot-Google
Полная строка агента пользователя AdsBot-Google (+http://www.google.com/adsbot.html)

AdSense

Робот AdSense заходит на ваш сайт и определяет его содержание с целью размещения релевантных объявлений. Игнорирует глобальный агент пользователя (*) из файла robots.txt.

Токен агента пользователя Mediapartners-Google
Полная строка агента пользователя Mediapartners-Google

Mobile AdSense

Робот Mobile AdSense заходит на ваш сайт и определяет его содержание с целью размещения релевантных объявлений. Игнорирует глобальный агент пользователя (*) из файла robots.txt.

Токен агента пользователя Mediapartners-Google
Полная строка агента пользователя (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Google-Safety

Агент пользователя Google-Safety выполняет сканирование, связанное со злоупотреблениями. Например, он ищет вредоносное ПО по общедоступным ссылкам, размещенным в сервисах Google. Этот агент игнорирует правила в файле robots.txt.

Полная строка агента пользователя Google-Safety

Инструменты для сбора данных о сайте, управляемые пользователем

Такие инструменты для сбора данных активируются пользователями и обеспечивают работу функций определенного продукта. Например, Google Site Verifier выполняет действия по запросу пользователя. Так как сбор данных инициирует пользователь, такие инструменты, как правило, игнорируют правила из файла robots.txt. Диапазоны IP-адресов, которые они используют, опубликованы в объекте user-triggered-fetchers.json.

Инструменты для сбора данных о сайте, управляемые пользователем

Feedfetcher

Feedfetcher используется, чтобы сканировать фиды RSS или Atom для Google Подкастов, Google Новостей и PubSubHubbub.

Токен агента пользователя FeedFetcher-Google
Полная строка агента пользователя FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Центр издателей

Извлекает и обрабатывает фиды, которые были явным образом предоставлены издателями с помощью Google Центра издателей и предназначены для использования на целевых страницах в Google Новостях.

Полная строка агента пользователя GoogleProducer; (+http://goo.gl/7y4SX)

Google Read Aloud

По запросу пользователя Google Read Aloud получает и зачитывает веб-страницы, преобразуя текст в речь.

Полные строки агента пользователя

Текущие агенты пользователя:

  • Версия для компьютеров:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • Мобильная версия:
    Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)

Прежняя версия (больше не поддерживается):

google-speakr

Google Site Verifier

Google Site Verifier по запросу пользователя получает токены подтверждения Search Console.

Полная строка агента пользователя Mozilla/5.0 (compatible; Google-Site-Verification/1.0)

Примечание о компоненте Chrome/W.X.Y.Z в строках агентов пользователей

В строках, которые содержат элемент Chrome/W.X.Y.Z, сочетание символов W.X.Y.Z – это плейсхолдер для версии браузера Chrome, используемой агентом пользователя. Пример: 41.0.2272.96. Это значение соответствует последней версии Chromium, которую использует робот Googlebot, и поэтому со временем оно будет возрастать.

При поиске агента пользователя в журнале или на сервере не указывайте точное значение версии, а используйте подстановочные знаки.

Агенты пользователей в файлах robots.txt

Если в файле robots.txt обнаружится несколько токенов агентов пользователей, робот Google последует правилу с наиболее точно соответствующим ему токеном. Если вы хотите оставить сайт доступным для всех наших роботов, такой файл вообще не нужен. Чтобы запретить или разрешить всем поисковым роботам Google доступ к определенному контенту, укажите в правиле агент пользователя Googlebot. К примеру, чтобы все страницы сайта появлялись в Google Поиске, а на самих страницах показывались объявления AdSense, не используйте файл robots.txt. Если же вы решите полностью запретить Google сканировать некоторые страницы, то правило для агента пользователя Googlebot заблокирует доступ к контенту и всем остальным нашим роботам.

Можно указать агент пользователя более точно. Предположим, вы хотите, чтобы все страницы сайта показывались в Google Поиске, но чтобы при этом не сканировались изображения из вашего личного каталога. В таком случае в файле robots.txt запретите агенту пользователя Googlebot-Image сканировать файлы в каталоге /personal. При этом робот Googlebot сохранит доступ к файлам во всех каталогах. Запись должна выглядеть следующим образом:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Рассмотрим другой пример. Вы хотите разместить на всех страницах рекламу, но сами страницы не должны появляться в Google Поиске. В таком случае следует полностью заблокировать доступ агенту пользователя Googlebot, но разрешить сканирование агенту пользователя Mediapartners-Google. Нужное правило должно выглядеть так:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Управление скоростью сканирования

Поисковые роботы Google посещают сайты с разными целями. Периодичность их появлений тоже отличается. Чтобы определить оптимальную частоту сканирования каждого сайта, Google использует ряд алгоритмов. Если наш поисковый робот посещает ваш ресурс слишком часто, вы можете уменьшить частоту сканирования.

Устаревшие поисковые роботы Google

Указанные поисковые роботы Google больше не используются и перечислены здесь лишь для справки.

Устаревшие поисковые роботы Google

Duplex в интернете

Обеспечивал работу сервиса "Duplex в интернете".

Токен агента пользователя DuplexWeb-Google
Полная строка агента пользователя Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

Web Light

Проверял наличие заголовка no-transform, когда пользователь нажимал на ссылку на вашу страницу в результатах поиска при определенных условиях. Агент пользователя Web Light действовал, только когда посетитель явным образом запрашивал страницу в браузере. При этом правила в файле robots.txt блокируют только автоматические запросы на сканирование, поэтому они не относились к Web Light.

Токен агента пользователя googleweblight
Полная строка агента пользователя Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

Mobile Apps Android

Проверяет качество рекламы в приложениях для устройств Android. Следует правилам AdsBot-Google из файла robots.txt, но игнорирует в нем глобальный агент пользователя (*).

Токен агента пользователя AdsBot-Google-Mobile-Apps
Полная строка агента пользователя AdsBot-Google-Mobile-Apps

Google Favicon

Токен агента пользователя
  • Googlebot-Image
  • Googlebot
Полная строка агента пользователя Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon