Отчет о статистике сканирования сайтов

В отчете о статистике сканирования вы найдете всю историю сканирования вашего сайта роботами Googlebot. Например, так можно узнать, сколько запросов было отправлено, когда именно, каким был ответ вашего сервера и возникали ли проблемы с доступностью. Анализ статистики позволяет выяснить, сталкиваются ли роботы Googlebot с ошибками при сканировании вашего сайта.

Отчет предназначен для опытных пользователей. Если на вашем сайте менее тысячи страниц, не используйте этот отчет. Настолько подробный анализ вам не нужен.

Этот отчет создается только для ресурсов корневого уровня, то есть для доменных ресурсов (например, example.com или m.example.com) и ресурсов корневого уровня с префиксом в URL (https://example.com, http://example.com, http://m.example.com).

Открыть отчет

Crawl Budget and the Crawl Stats report - Google Search Console Training

Чтобы открыть отчет о статистике сканирования в Search Console, нажмите "Настройки" Настройки и выберите Статистика сканирования.

Начало работы

Прежде чем начинать работу с отчетом, ознакомьтесь со следующей информацией:

Описание данных

  • В этом отчете показываются и подсчитываются именно те URL, которые запрашивались роботами Google. В отличие от некоторых других отчетов, данные не регистрируются как относящиеся к каноническим URL.
  • Если для URL настроена переадресация, каждый запрос в цепочке переадресаций учитывается отдельно. Предположим, страница 1 перенаправляет пользователя на страницу 2, а та – на страницу 3. Если робот Googlebot запросит страницу 1, то вы увидите в отчете отдельные запросы к странице 1 (код ответа 301 или 302), странице 2 (код ответа 301 или 302) и странице 3 (код ответа 200 при удачном исходе). Обратите внимание, что показываются только страницы из домена, выбранного в данный момент.
  • Попытки сканирования, которые допускались, но не проводились из-за недоступности файла robots.txt, учитываются в итоговой статистике, но не приводятся в разделах с расширенными сведениями о сканировании. Подробнее…
  • Объекты на страницах и охват отчета:
    • Все данные относятся к выбранному в данный момент домену. Запросы к другим доменам не показываются. Это касается и запросов на загрузку объектов (например, изображений), которые размещены вне вашего ресурса. К примеру, если ваша страница example.com/mypage содержит изображение с URL google.com/img.png, то запрос к google.com/img.png будет отсутствовать в отчете о статистике сканирования ресурса example.com.
    • Запросы к другим доменам того же уровня не показываются. Например, при просмотре статистики по домену en.example вы не увидите данных о запросах на загрузку изображения, которое находится в домене de.example.
    • Запросы к субдоменам отражаются в отчете по родительскому домену. Таким образом, если просматривать данные по домену example.com, то будут показаны все запросы к example.com, en.example, de.example.com и всем остальным дочерним доменам на любом уровне ниже example.com.
    • Если объекты с вашего сайта используются на какой-либо странице в другом домене, вы будете видеть связанные с ней запросы на сканирование, но у вас не будет информации о том, что определенный объект сканируется именно как часть страницы в другом домене. Например, вы не узнаете, что изображение example.com/imageX.png было просканировано потому, что оно включено в контент страницы anotherexample.com/mypage.
    • Отчет охватывает URL как с протоколом HTTP, так и с протоколом HTTPS, даже если выбран ресурс с префиксом в URL. Это значит, что в статистику по http://example.com будут включены запросы не только к http://example.com, но и к https://example.com. Однако примеры URL для ресурса с префиксом указываются только с соответствующим ему протоколом (HTTP или HTTPS).
Известная проблема: небольшая часть запросов на сканирование по разным причинам может не учитываться в отчете. Ожидается, что со временем в статистике начнут отражаться все или почти все запросы. До тех пор вероятны незначительные различия между отчетом и журналами запросов к вашему сайту.

Как работать с отчетом

Чтобы посмотреть подробные сведения, нажмите на отдельную строку в таблице. Выбрав URL в списке примеров, вы увидите данные о конкретном запросе. Например, если в таблице показаны ответы, сгруппированные по типу, нажмите на строку HTML, чтобы увидеть агрегированные данные обо всех HTML-страницах, которые были просканированы на вашем сайте, а также время сканирования, код и размер ответа и т. п.

Хосты и дочерние домены

Если ваш ресурс находится на уровне домена (example.com, http://example.com, https://m.example.com) и содержит от двух дочерних доменов (например, fr.example.com и de.example.com), вы можете посмотреть статистику по родительскому домену с охватом всех дочерних или по отдельному дочернему домену.

Если вас интересует второй вариант, откройте целевую страницу родительского домена и выберите нужный дочерний в списке Хосты. Показываются только 20 дочерних доменов, которые получили максимум трафика за последние 90 дней.

Примеры URL

Нажав на любую строку данных, сгруппированных по ответу, типу файла, цели или типу робота Googlebot, вы откроете список примеров URL.

Список примеров включает не все URL. Если определенный URL не указан, это не значит, что запросов по нему не было. Соотношение между примерами, которые связаны с различными типами запросов, может меняться день ото дня в зависимости от статистики. Со временем разница в количестве примеров должна сгладиться.

Всего запросов на сканирование

Общее количество запросов на сканирование, связанных с URL на вашем сайте. Учитываются как успешные, так и неуспешные запросы. Эта величина включает запросы в отношении размещенных на вашем сайте объектов, которые используются на различных страницах. Повторяющиеся запросы на сканирование страницы с одним и тем же URL регистрируются по отдельности. Если наблюдаются проблемы с доступом к содержанию файла robots.txt, в статистике учитываются попытки сканирования.

Неудачными считаются попытки сканирования, для которых справедливы следующие утверждения:

Общий размер скачивания

Общее количество байтов, скачанных с вашего сайта при сканировании за определенный период времени. Если система Google кешировала объект, используемый на нескольких страницах, то он больше не запрашивается.

Среднее время ответа

Среднее время ответа при получении объектов с вашего сайта за определенный период времени. Ответ каждого объекта, на который ссылается та или иная страница, учитывается отдельно.

Статус хоста

Статус хоста позволяет определить, возникали ли проблемы с доступностью при попытках сканирования вашего сайта. Возможные статусы:

  • No significant availability issues icon
    Робот Google не выявил серьезных проблем с доступностью ваших страниц за последние 90 дней. От вас не требуется никаких действий.
  • Some availability issues, but not recently
    Робот Google столкнулся как минимум с одной серьезной проблемой при сканировании вашего сайта за последние 90 дней. Однако это случилось более недели назад. Возможно, проблема уже решена или ошибка была случайной. Вам необходимо проверить данные в столбце Ответ HTTP, чтобы выяснить, с чем были связаны неполадки. Возможно, придется предпринять какие-то действия.
  • Recent availability issue
    Робот Google столкнулся как минимум с одной серьезной проблемой при сканировании вашего сайта за последнюю неделю. Поскольку это было недавно, рекомендуем определить, насколько часто возникают такие неполадки. Проверьте данные в таблице По ответу, чтобы выяснить, с чем связана проблема. Возможно, придется принять какие-то меры.
Внимание!

Желательно, чтобы значок статуса хоста был зеленым. Если он красный, нажмите на него. Изучите сведения о доступности файла robots.txt, DNS-преобразовании и проблемах с подключением к хосту.

Подробные сведения о статусе хоста

Статус доступности хоста оценивается по перечисленным ниже критериям. В случае серьезных ошибок в любой из категорий статус может быть понижен. Чтобы посмотреть подробную информацию, нажмите на категорию в отчете.

После нажатия вы увидите диаграмму с данными о сканировании за определенный период времени. Обратите внимание на пунктирную красную линию. Если показатель в выбранной категории выше нее (например, DNS-преобразование не удавалось выполнить более чем для 5 % запросов за день), это считается проблемой. Статус будет отражать то, насколько давно неполадка возникала в последний раз.

  • Доступ к файлу robots.txt
    На диаграмме показана частота возникновения сбоев при запросе файла robots.txt во время сканирования. Google часто обращается к этому файлу. Если получить действительный файл (с данными или пустой) не удается и не происходит ошибка 404, которая говорит о его отсутствии, то робот начинает сканировать сайт медленнее или прерывает процесс до получения подходящего ответа на запрос файла robots.txt. Подробнее об этом написано ниже.
  • DNS-преобразование
    На диаграмме показано, в каких случаях DNS-сервер во время сканирования не распознавал имя хоста или не отправлял ответ. Если вы видите ошибки, обратитесь к регистратору доменных имен, чтобы проверить, правильно ли настроен сайт и подключен ли сервер к Интернету.
  • Подключение к серверу
    На диаграмме показано, в каких случаях сервер во время сканирования не отвечал на запрос или отправлял неполный ответ о том или ином URL. Сведения о том, как устранять ошибки сервера, доступны в Справочном центре.
Дополнительные сведения о доступности файла robots.txt

Ниже подробно описано, как Google проверяет файл robots.txt при сканировании сайта и зачем это нужно.

Файл robots.txt не обязательно использовать на сайте. Однако он должен возвращать успешный ответ на запрос, как описано ниже. Иначе робот Google может прервать сканирование сайта.

  • Успешные ответы на запрос файла robots.txt
  • Успешным считается любой из следующих ответов:
    • HTTP 200 и файл robots.txt (он может быть пустым, действительным или недействительным). Если в файле есть синтаксические ошибки, запрос все равно считается успешно выполненным. Робот Google просто проигнорирует все правила с ошибками.
    • HTTP 403/404/410 (файл не существует). Размещать на сайте файл robots.txt не обязательно.
  • Ответы на неудачные запросы файла robots.txt
    • HTTP 429/5XX (проблема с подключением).

Google при сканировании сайта запрашивает и использует файлы robots.txt следующим образом:

  1. Перед сканированием робот Googlebot проверяет, есть ли успешные запросы файла robots.txt за последние 24 часа.
  2. Если недавно был получен подходящий ответ на такой запрос, начинается сканирование с учетом правил из этого файла.
  3. Если подходящего ответа нет или последний запрос не был успешным, Google запрашивает файл robots.txt снова.
    • В случае успеха начинается сканирование.
    • В противном случае процедура прекращается, а затем робот периодически запрашивает ваш файл robots.txt в течение примерно 30 дней. Если за этот срок получить подходящий ответ так и не удается, происходит следующее:
      • Если большинство остальных URL сайта доступны, Google сканирует страницы с учетом правил из файла robots.txt, который был получен в прошлый раз.
      • Если же сайт недоступен, робот Google постепенно прекратит его сканировать.
Попытки сканирования, которые были прекращены из-за недоступности файла robots.txt, учитываются в итоговой статистике. Но так как подобные попытки фактически не были выполнены, сведения о них не появятся в отчетах о сканировании с группировкой по цели, ответу и т. д.

Ответы при сканировании

В этой таблице показано, какие ответы получает Google при сканировании вашего сайта. Информация сгруппирована по типам ответов с указанием долей от общего числа. Учитывается общее количество запросов, а не URL. Если робот Google запрашивал URL два раза, но в первый раз получил ошибку сервера (500), а во второй – ОК (200), то данные будут распределены: 50 % — ошибка сервера, 50 % — ОК.

Внимание!
Большинство запросов должно относиться к типу 200 (или другим успешным вариантам), если только вы не выполняете реорганизацию или перенос сайта. О том, как быть с другими кодами ответа, читайте ниже.

 

Вот некоторые распространенные коды ответа и соответствующие рекомендации:

Подходящие коды ответа

Эти коды означают, что страницы не вызывают никаких проблем.

  • OK (200). В нормальной ситуации большинство запросов должно получать именно такие ответы.
  • Перемещено навсегда (код 301). Страница передает ответ с кодом HTTP 301 (перемещено навсегда). Вероятно, это соответствует вашим намерениям.
  • Временно перемещено (код 302). Страница передает ответ с кодом HTTP 302 (временно перемещено). Вероятно, это соответствует вашим намерениям. Если страница перемещена навсегда, измените код на 301.
  • Перемещено (другое). Ответ с кодом переадресации 3XX, но не 301 и не 302.
  • Не изменено (код 304). С момента отправки последнего запроса на сканирование страница не изменилась.

Условно подходящие коды ответа

Эти ответы могут быть не связаны с проблемами, однако вам следует убедиться в том, что все нормально.

  • Заблокировано в файле robots.txt. Как правило, это делается намеренно. Однако мы рекомендуем вам убедиться, что вы не заблокировали доступ к страницам и объектам, которые роботу Googlebot следует сканировать. Подробнее…
  • Ошибки типа Не найдено (404) могут быть связаны с неработающими ссылками как на вашем сайте, так и на сторонних ресурсах. Нет смысла пытаться устранить все ошибки 404 на своем сайте. Часто именно это и есть правильный ответ на запрос (например, если вы сами удалили страницу, ничем ее не заменив). Узнайте, когда и как нужно устранять ошибки 404.

Неподходящие коды ответа

Если страница возвращает такой код, необходимо исправить ошибки на ней, чтобы улучшить сканирование сайта.

  • Файл robots.txt недоступен. Если ваш файл robots.txt будет недоступен в течение суток, Google прекратит сканирование до тех пор, пока не получит подходящий ответ на запрос. В данном случае речь идет не о приемлемой ошибке 404, которая означает, что файл не найден. Подробнее о файле robots.txt
  • Неавторизованный запрос (код 401 или 407). Необходимо заблокировать доступ к таким страницам с помощью файла robots.txt или разрешить их сканирование. Если на них нет конфиденциальной информации и вы хотите их сканировать, рекомендуется перенести контент на незаблокированные страницы или разрешить роботу Googlebot доступ без входа в систему. Помните, что робот Googlebot может подвергнуться спуфингу, и не открывайте ему доступ к ценным сведениям.
  • Ошибка сервера (5XX). Такие ошибки сигнализируют о проблемах с доступностью. По возможности их необходимо устранять. На мини-диаграмме показано, когда примерно произошли ошибки. Нажмите на нее, чтобы увидеть точное время и более подробные сведения. Определите, случайные ли это неполадки или они связаны с более серьезными проблемами на сайте. Если робот Googlebot перегружает ваш сайт, запросите снижение частоты сканирования. Если вы обнаружите признаки серьезной проблемы с доступностью, почитайте о причинах резких изменений в статистике. О том, как устранять ошибки сервера, рассказывается здесь.
  • Другая ошибка клиента (код 4XX). Ошибка на стороне клиента, не описанная в других пунктах. Рекомендуем устранить такие неполадки.
  • DNS не отвечает. Ваш DNS-сервер не отвечает на запросы URL, отправленные в адрес сайта.
  • Ошибка DNS. Не описанная здесь ошибка DNS.
  • Ошибка при выполнении запроса. Страницу не удалось загрузить из-за проблемы с номером порта, IP-адресом или распознаванием ответа.
  • Страница недоступна. Прочие проблемы с загрузкой страницы, при которых запрос не достигает сервера. Поскольку сервер не регистрирует такие запросы, они не попадают в отчеты.
  • Время ожидания при обращении к странице истекло.
  • Ошибка переадресации. При запросе произошла ошибка переадресации. Примеры: слишком длинная цепочка переадресаций, пустой URL или бесконечное перенаправление.
  • Другая ошибка. Ошибка, которая не относится к перечисленным выше категориям.

Типы сканируемых файлов

Обозначается тип файла, который был отправлен в ответ на запрос. Доля каждого типа соответствует проценту ответов, а не проценту скачанных байтов.

Возможные значения:

  • HTML.
  • Изображение.
  • Видео (поддерживаются разные форматы).
  • JavaScript.
  • CSS.
  • PDF.
  • Другой тип файла XML (XML-файл, который не содержит RSS, KML и других типов файлов, созданных на основе XML).
  • JSON.
  • Синдикация (фид RSS или Atom).
  • Аудио.
  • Географические данные (KML или другой формат).
  • Другой тип файла (не указанный здесь).
  • Неизвестно (ошибка). Если запрос был неудачным, то тип файла остается неизвестным.
Внимание!
Если вы столкнулись с проблемами доступности или сайт отвечает слишком медленно, ознакомьтесь с этой таблицей. Вы поймете, какие объекты сканирует система Google и почему этот процесс может замедляться. Запрашивает ли Google много мелких изображений, которые стоит заблокировать? Запрашивает ли Google ресурсы, размещенные на другом сайте, на котором менее эффективно реализован адаптивный дизайн? Вы можете нажимать на разные типы файлов, чтобы посмотреть диаграмму с разбивкой среднего времени запроса по датам, а также сведения о количестве запросов за определенные даты. Это поможет вам узнать, насколько рост числа слишком медленных ответов мог приводить к общей недоступности страниц или замедлению их сканирования.

Цель сканирования

  • Обнаружение. Запрошенный URL ранее никогда не сканировался роботами Google.
  • Обновление. Повторное сканирование страницы, о которой уже есть данные.

Если страницы на вашем сайте быстро меняются и сканирование происходит недостаточно часто, убедитесь, что они включены в файл Sitemap. Для страниц, которые обновляются не так часто, можно вручную отправлять заявки на повторное сканирование. Если вы недавно добавили на сайт много нового контента или файл Sitemap, вы можете увидеть, что количество запросов типа "Обнаружение" увеличилось.

Тип робота Googlebot

Тип агента пользователя, с помощью которого отправлялся запрос на сканирование. Google поддерживает целый ряд агентов пользователя. Они применяются в разных случаях и по-разному себя ведут. Ниже перечислены те из них, которые можно увидеть в отчете.

  • Для мобильных страниц: Googlebot.
  • Для обычных страниц: Googlebot.
  • Для изображений: Googlebot Image. Если изображение загружается как объект страницы, засчитывается загрузка объекта страницы, а не изображения.
  • Для видео: Googlebot Video. Если видео загружается как объект страницы, засчитывается загрузка объекта страницы, а не видео.
  • Загрузка объектов страницы: второстепенный робот получает объекты, которые используются на странице. Сканируя страницу, Google загружает связанные с ней важные объекты, такие как изображения и файлы CSS. Это делается для отрисовки страницы перед попыткой индексирования. Подобные объекты запрашивает отдельный агент пользователя.
  • AdsBot: один из роботов AdsBot. Если от них вдруг стало поступать намного больше запросов, вероятно, вы недавно создали на своем сайте ряд новых целей для динамических поисковых объявлений. Ознакомьтесь с информацией в разделе Причины увеличения частоты сканирования. Робот AdsBot сканирует страницы примерно раз в две недели.
  • StoreBot: робот для товаров.
  • Агент другого типа: не указанный здесь робот Google.

Большинство запросов должно поступать от вашего основного поискового робота. Если вы замечаете резкие изменения в статистике, проверьте тип агента пользователя. Если скачки связаны с роботом AdsBot, ознакомьтесь с этой информацией.

Устранение неполадок

Слишком высокая частота сканирования

Google использует алгоритмы, которые ограничивают количество запросов на сканирование, чтобы не допустить перегрузки сайта. Если вам по какой-то причине нужно снизить частоту сканирования, следуйте инструкциям из этой статьи.

Несколько советов:

  • Запретите сканирование страниц в файле robots.txt.
  • В качестве кратковременного решения проблемы можно указать максимальную частоту сканирования в Search Console. Не рекомендуется оставлять такое ограничение надолго, поскольку вы не сможете дополнительно сообщить нам, какие страницы или объекты нужно сканировать, а какие не нужно.
  • Убедитесь, что страницы с бесконечными элементами (бесконечный календарь или страница поиска) заблокированы в файле robots.txt или содержат теги с директивой nofollow.
  • Если URL на вашем сайте менялись или каких-либо страниц больше нет, должны отправляться ответы с верным кодом: 404 или 410 для несуществующих страниц, 301 для перемещенных навсегда страниц, 302 для временно перемещенных, 503 для временно недоступных страниц и 500 при возникновении внутренней ошибки сервера.
  • Если сайт получает слишком много запросов и вам нужно срочно снизить их количество, ознакомьтесь с инструкциями ниже.

Причины увеличения частоты сканирования

Если вы недавно обновили сайт или на нем содержится полезная информация, мы можем сканировать его чаще обычного. Примеры:

  • Вы разрешили сканирование большой части сайта, которая раньше была заблокирована для роботов.
  • Вы добавили на сайт новый крупный раздел.
  • Вы добавили много новых целей для динамических поисковых объявлений. Это могут быть новые фиды страниц или правила URL_Equals.

Если роботы Googlebot сканируют ваш сайт слишком часто и это приводит к проблемам со сканированием, попробуйте решить эту проблему, выполнив описанные ниже действия.

  1. Определите, какой поисковый робот Google наиболее активно посещает ваш сайт. Изучите журналы сайта или отчет о статистике сканирования.
  2. Быстрое решение:
    • В качестве простого решения попробуйте с помощью файла robots.txt запретить доступ к своим страницам агенту пользователя, перегружающему сайт (например, роботу Googlebot или AdsBot). Для получения результата могут понадобиться сутки.
    • Если у вас есть инструменты, позволяющие автоматически отслеживать трафик и при необходимости принимать меры, то в случае приближения к лимиту на количество обращений к сайту начинайте возвращать сообщение с кодом состояния HTTP 5XX/429. Однако не следует возвращать код состояния 5XX или 429 более трех дней подряд, так как в этом случае Google может принять решение о снижении частоты сканирования вашего сайта на длительный срок.
  3. Если у вас есть доступ к странице настроек частоты сканирования, попробуйте выбрать подходящий вариант в ее меню.
  4. Через два или три дня, когда частота сканирования роботами Google изменится в соответствии с настройками, можно будет удалить правила блокировки из файла robots.txt или прекратить возвращать сообщения с кодами ошибок.
  5. Если излишнюю нагрузку оказывает робот AdsBot, вероятно, вы добавили слишком много страниц для таргетинга динамических поисковых объявлений (при помощи правила URL_Equals или фида страниц). Если ваш сервер не справляется с запросами на сканирование, вам следует ограничить количество целевых страниц для таргетинга объявлений, уменьшить число добавляемых за один раз URL или увеличить пропускную способность сервера. Обратите внимание, что робот AdsBot будет сканировать ваши страницы каждые две недели. Если вы не устраните причину проблемы, она возникнет повторно.
  6. Имейте в виду, что если вы ограничили частоту сканирования в Search Console, то через 90 дней Google снова начнет корректировать ее в автоматическом режиме.

Слишком низкая частота сканирования

Вы не можете увеличить частоту сканирования, если только ранее не ограничили ее для своего ресурса. Однако вы можете узнать больше о том, как управлять сканированием, если ваш сайт очень большой или часто обновляется.

Если у вас не очень большой сайт или вы заметили, что Google сканирует не все его страницы, обновите файлы Sitemap и убедитесь, что никакие страницы не блокируются.

Почему уменьшилась частота сканирования?

Скорость сканирования должна оставаться примерно на одном уровне на протяжении периода в одну-две недели. Резко снизиться она может по следующим причинам:

  • Вы добавили новое или очень объемное правило в файл robots.txt. Убедитесь, что вы не блокируете страницы без веских на то причин. Не закрывайте доступ к объектам, которые необходимы роботу Googlebot для определения контента сайта, например файлам CSS и JavaScript.
  • На сайте есть некорректная разметка HTML, неподдерживаемый контент или страницы, которые содержат только изображения. Робот Googlebot не сможет обработать разделы сайта с такими проблемами. Используйте инструмент проверки URL, чтобы узнать, как ваши страницы выглядят для робота Googlebot.
  • Если сайт медленно отвечает на запросы, робот Googlebot не будет отправлять их, чтобы не перегружать сервер. Проверьте в отчете, не снизилась ли скорость отклика вашего сайта.
  • Если на сервере возникают ошибки, робот Googlebot не будет отправлять запросы, чтобы не перегружать сервер.
  • Убедитесь, что вы не уменьшали максимальную скорость сканирования.
  • Если веб-страницы редко обновляются или содержат информацию не очень высокого качества, мы сканируем их не очень часто. Попросите ваших знакомых и коллег или сторонних специалистов оценить ваш сайт и подумайте, как его можно улучшить.

Почему общее число попыток сканирования может быть выше, чем количество попыток, указанное в журналах сканирования и в разделах с расширенными сведениями о сканировании

Иногда общее число попыток сканирования может быть намного выше, чем количество попыток в разделах отчетов с разбивкой данных по ответу, типу и т. д. Зачастую это происходит, когда роботы Google не могут просканировать ваш сайт, так как файл robots.txt недоступен слишком долго. В таких случаях система учитывает попытки сканирования, которые могли бы быть выполнены при наличии файла robots.txt, но не выполняет подобные вызовы. Чтобы узнать, произошло ли это в вашем случае, изучите сведения о получении файла robots.txt.

Эта информация оказалась полезной?
Как можно улучшить эту статью?
Поиск
Удалить поисковый запрос
Закрыть поиск
Приложения Google
Главное меню
Поиск по Справочному центру
true
83844
false