Отчет "Статистика сканирования"

В этом отчете представлена статистика сканирования вашего сайта роботом Googlebot. Например, можно узнать, сколько запросов было отправлено, когда именно, каким был ответ вашего сервера и возникали ли проблемы с доступностью. Анализ статистики позволяет выяснить, сталкивается ли робот Googlebot с ошибками при сканировании вашего сайта.

Отчет предназначен для опытных пользователей. Если на вашем сайте менее тысячи страниц, не используйте этот отчет. Настолько подробный анализ вам не нужен.

Этот отчет создается только для ресурсов корневого уровня, то есть для доменных ресурсов (например, example.com или m.example.com) и ресурсов корневого уровня с префиксом в URL (https://example.com, http://example.com, http://m.example.com).

Открыть отчет

C<span/>rawl Budget and the Crawl Stats report - Google Search Console Training

Чтобы открыть отчет "Статистика сканирования" в Search Console, нажмите "Настройки" Настройки и найдите раздел Статистика сканирования.

Начало работы

Прежде чем начинать работу с отчетом, ознакомьтесь со следующей информацией:

Описание данных

  • В этом отчете учитываются именно те URL, которые запрашивались роботами Google. В отличие от некоторых других отчетов данные не регистрируются как относящиеся к каноническим URL.
  • Если для URL настроена серверная переадресация, каждый запрос в цепочке переадресаций учитывается отдельно. Предположим, страница 1 перенаправляет пользователя на страницу 2, а та – на страницу 3. Если робот Googlebot запросит страницу 1, то вы увидите в отчете отдельные запросы к странице 1 (код ответа 301 или 302), странице 2 (код ответа 301 или 302) и странице 3 (код ответа 200 при удачном исходе). Обратите внимание, что показываются только страницы из домена, выбранного в данный момент. Ответ с переадресацией относится к типу "Другой тип файла". Клиентские переадресации не учитываются.
  • Операции сканирования, которые могли быть выполнены, но не выполнялись из-за недоступности файла robots.txt, учитываются в итоговой статистике, однако в отчетах могут отражаться не полностью. Подробнее…
  • Объекты на страницах и охват отчета:
    • Все данные относятся к выбранному в данный момент домену. Запросы к другим доменам не показываются. Это касается и запросов на загрузку объектов (например, изображений), которые размещены вне вашего ресурса. К примеру, если ваша страница example.com/mypage содержит изображение с URL google.com/img.png, то запрос к google.com/img.png будет отсутствовать в статистике сканирования ресурса example.com.
    • Запросы к другим доменам того же уровня не показываются. Например, при просмотре статистики по домену en.example вы не увидите данных о запросах на загрузку изображения, которое находится в домене de.example.
    • Запросы к субдоменам отражаются в отчете по родительскому домену. Таким образом, если просматривать данные по домену example.com, то будут показаны все запросы к example.com, en.example.com, de.example.com и всем остальным дочерним доменам на любом уровне ниже example.com.
    • Если объекты с вашего сайта используются на какой-либо странице в другом домене, вы будете видеть связанные с ней запросы на сканирование, но у вас не будет информации о том, что определенный объект сканируется именно как часть страницы в другом домене. Например, вы не узнаете, что изображение example.com/imageX.png было просканировано потому, что оно включено в контент страницы anotherexample.com/mypage.
    • Отчет охватывает URL как с протоколом HTTP, так и HTTPS, даже если выбран ресурс с префиксом в URL. Это значит, что в статистику по http://example.com будут включены запросы не только к http://example.com, но и к https://example.com. Однако примеры URL для ресурса с префиксом указываются только с соответствующим ему протоколом (HTTP или HTTPS).
Известная проблема: небольшая часть запросов на сканирование по разным причинам может не учитываться в отчете. Ожидается, что со временем в статистике начнут отражаться все или почти все запросы. До тех пор вероятны незначительные различия между отчетом и журналами запросов к вашему сайту.

Как работать с отчетом

Чтобы посмотреть подробные сведения, нажмите на отдельную строку в таблице. Выбрав URL в списке примеров, вы увидите данные о конкретном запросе. Например, если в таблице показаны ответы, сгруппированные по типу, нажмите на строку HTML, чтобы увидеть агрегированные данные обо всех HTML-страницах, которые были просканированы на вашем сайте, а также время сканирования, код и размер ответа и т. п.

Хосты и дочерние домены

Если ваш ресурс находится на уровне домена (example.com, http://example.com, https://m.example.com) и содержит от двух дочерних доменов (например, fr.example.com и de.example.com), вы можете посмотреть статистику по родительскому домену с охватом всех дочерних или по отдельному дочернему домену.

Если вас интересует второй вариант, откройте целевую страницу родительского домена и выберите нужный дочерний в списке Хосты. Показываются только 20 дочерних доменов, которые получили максимум трафика за последние 90 дней.

Примеры URL

Нажав на любую строку данных, сгруппированных по ответу, типу файла, цели или типу робота Googlebot, вы откроете список примеров URL.

Список примеров включает не все URL. Если определенный URL не указан, это не значит, что запросов по нему не было. Количество примеров, связанных с различными типами запросов, может быть разным и меняться день ото дня. Со временем разница в количестве примеров должна сгладиться.

Всего запросов на сканирование

Общее количество запросов на сканирование, связанных с URL на вашем сайте. Учитываются как успешные, так и неуспешные запросы. В отчет включены запросы всех ресурсов на странице, если они размещены на вашем сайте. Сторонние ресурсы не учитываются. Повторяющиеся запросы на сканирование страницы с одним и тем же URL регистрируются по отдельности. Если наблюдаются проблемы с доступом к содержанию файла robots.txt, в статистике учитываются попытки сканирования.

Неудачными считаются попытки сканирования, для которых справедливы следующие утверждения:

Общий размер скачивания

Общее количество байтов, скачанных с вашего сайта при сканировании за определенный период времени. Если система Google кешировала объект, используемый на нескольких страницах, то он больше не запрашивается.

Среднее время ответа

Среднее время ответа при получении объектов с вашего сайта за определенный период времени. Ответ каждого объекта, на который ссылается та или иная страница, учитывается отдельно.

Статус хоста

Статус хоста позволяет определить, возникали ли проблемы с доступностью при попытках сканирования вашего сайта. Возможные статусы:

  • No significant availability issues icon
    Робот Google не выявил серьезных проблем с доступностью ваших страниц за последние 90 дней. От вас не требуется никаких действий.
  • Some availability issues, but not recently
    Робот Google столкнулся как минимум с одной серьезной проблемой при сканировании вашего сайта за последние 90 дней. Однако это случилось более недели назад. Возможно, проблема уже решена или ошибка была случайной. Вам необходимо проверить данные в столбце Ответ HTTP, чтобы выяснить, с чем были связаны неполадки. Возможно, придется предпринять какие-то действия.
  • Recent availability issue
    Робот Google столкнулся как минимум с одной серьезной проблемой при сканировании вашего сайта за последнюю неделю. Поскольку это было недавно, рекомендуем определить, насколько часто возникают такие неполадки. Проверьте данные в столбце Ответ HTTP, чтобы выяснить, с чем связана проблема. Возможно, придется принять какие-то меры.
Внимание!

Желательно, чтобы значок статуса хоста был зеленым. Если он красный, нажмите на него. Изучите сведения о доступности файла robots.txt, DNS-преобразовании и проблемах с подключением к хосту.

Подробные сведения о статусе хоста

Статус доступности хоста оценивается по перечисленным ниже критериям. В случае серьезных ошибок в любой из категорий статус может быть понижен. Чтобы посмотреть подробную информацию, нажмите на категорию в отчете.

После нажатия вы увидите диаграмму с данными о сканировании за определенный период времени. Обратите внимание на пунктирную красную линию. Если показатель в выбранной категории выше нее (например, DNS-преобразование не удавалось выполнить более чем для 5 % запросов за день), это считается проблемой. Статус будет отражать то, насколько давно неполадка возникала в последний раз.

  • Доступ к файлу robots.txt
    На диаграмме показана частота возникновения сбоев при запросе файла robots.txt во время сканирования. Google часто обращается к этому файлу. Если запрос не возвращает файл (с данными или пустой) и не выдает ошибку 404 (файл не существует), то робот будет медленнее сканировать сайт или прервет процесс до получения подходящего ответа на запрос файла robots.txt. Подробные сведения об этом можно найти ниже.
  • DNS-преобразование
    На диаграмме показано, в каких случаях DNS-сервер во время сканирования не распознавал имя хоста или не отправлял ответ. Если вы видите ошибки, обратитесь к регистратору доменных имен, чтобы проверить, правильно ли настроен сайт и подключен ли сервер к интернету.
  • Подключение к серверу
    На диаграмме показано, в каких случаях сервер во время сканирования не отвечал на запрос или отправлял неполный ответ о том или ином URL. Сведения о том, как устранять ошибки сервера, доступны в Справочном центре.
Дополнительные сведения о доступности файла robots.txt

Ниже подробно описано, как Google проверяет файл robots.txt при сканировании сайта и зачем это нужно.

Файл robots.txt не обязательно использовать на сайте. Однако он должен возвращать успешный ответ на запрос, как описано ниже. Иначе робот Google может прервать сканирование сайта.

  • Успешные ответы на запрос файла robots.txt
  • Успешным считается любой из следующих ответов:
    • HTTP 200 и файл robots.txt (он может быть пустым, действительным или недействительным). Если в файле есть синтаксические ошибки, запрос все равно считается успешно выполненным. Робот Google просто проигнорирует все правила с ошибками;
    • HTTP 403/404/410 (файл не существует). Размещать на сайте файл robots.txt не обязательно.
  • Ответы на неудачные запросы файла robots.txt
    • HTTP 429/5XX (проблема с подключением).

Google при сканировании сайта запрашивает и использует файлы robots.txt следующим образом:

  1. Перед сканированием робот Googlebot проверяет, есть ли успешные запросы файла robots.txt за последние 24 часа.
  2. В случае успешного ответа на запрос файла robots.txt за последние 24 часа Google использует этот файл при сканировании вашего сайта. Ответ "404 (Не найдено)" считается успешным и свидетельствует об отсутствии файла robots.txt. В этом случае Google может сканировать любые страницы сайта.
  3. Если последний запрос был неуспешным или ответ на него был получен более 24 часов назад, Google ещё раз запрашивает файл robots.txt:
    • при успешном получении ответа начинается сканирование;
    • при неуспешном запросе:
      • на протяжении первых 12 часов Google не сканирует сайт, но продолжает запрашивать файл robots.txt;
      • по прошествии 12 часов на протяжении до 30 дней Google будет использовать последний успешно полученный файл robots.txt, одновременно запрашивая его актуальную версию.
      • Через 30 дней:
        • если главная страница сайта доступна, Google действует так же, как при отсутствии файла robots.txt, осуществляя сканирование без ограничений;
        • если главная страница сайта недоступна, Google прекращает сканирование сайта.
        • В любом случае Google будет периодически запрашивать файл robots.txt.
Операции сканирования, которые были прекращены из-за недоступности файла robots.txt, учитываются в итоговой статистике. Но поскольку такие операции фактически не были выполнены, сведения о них не появятся в специальных отчетах о сканировании с группировкой по цели, ответу и т. д.

Ответы при сканировании

В этой таблице показано, какие ответы получает Google при сканировании вашего сайта. Информация сгруппирована по типам ответов с указанием долей от общего числа. Учитывается общее количество запросов, а не URL. Если робот Google запрашивал URL два раза, но в первый раз получил ошибку сервера (500), а во второй – ОК (200), то данные будут распределены так: 50 % – ошибка сервера, 50 % – ОК.

Внимание!
Большинство запросов должно относиться к типу 200 (или другим успешным вариантам), если только вы не выполняете реорганизацию или перенос сайта. О том, как быть с другими кодами ответа, читайте ниже.

 

Вот некоторые распространенные коды ответа и соответствующие рекомендации:

Подходящие коды ответа

Эти коды означают, что страницы не вызывают никаких проблем.

  • OK (200). В нормальной ситуации большинство запросов должно получать именно такие ответы.
  • Перемещено навсегда (301). Страница возвращает ошибку HTTP 301 или 308 (перемещено навсегда). Возможно, так и должно быть.
  • Временно перемещено (302). Страница возвращает ошибку HTTP 302 или 307 (временно перемещено). Возможно, так и должно быть. Если страница перемещена навсегда, измените этот код на 301.
  • Перемещено (другое). Метатег обновления.
  • Не изменено (304). С момента отправки последнего запроса на сканирование страница не изменилась.

Условно подходящие коды ответа

Эти ответы могут быть не связаны с проблемами, однако вам следует убедиться в том, что все нормально.

  • Ошибки типа Не найдено (404) могут быть связаны с неработающими ссылками как на вашем сайте, так и на сторонних ресурсах. Нет смысла пытаться устранить все ошибки 404 на своем сайте. Часто именно это и есть правильный ответ на запрос (например, если вы сами удалили страницу, ничем ее не заменив). Узнайте, когда и как нужно устранять ошибки 404.

Неподходящие коды ответа

Если страница возвращает такой код, необходимо исправить ошибки на ней, чтобы улучшить сканирование сайта.

  • Файл robots.txt недоступен. Если файл robots.txt будет недоступен в течение суток, Google не будет выполнять сканирование, пока не получит подходящий ответ на запрос. Убедитесь, что ваш файл robots.txt не замаскирован от роботов Google и имеет одинаковое содержание для всех агентов пользователей.
    Этот код ответа не совпадает с приемлемой ошибкой 404, которая означает, что файл не найден. Подробнее о файле robots.txt
  • Неавторизованный запрос (код 401 или 407). Необходимо заблокировать доступ к таким страницам с помощью файла robots.txt или разрешить их сканирование. Если на них нет конфиденциальной информации и вы хотите их сканировать, рекомендуется перенести контент на незаблокированные страницы или разрешить роботу Googlebot доступ без входа в систему. Помните, что робот Googlebot может подвергнуться спуфингу, и не открывайте ему доступ к ценным сведениям.
  • Ошибка сервера (5XX). Такие ошибки сигнализируют о проблемах с доступностью. По возможности их необходимо устранять. На диаграмме показано, когда примерно произошли ошибки. Нажмите на нее, чтобы увидеть точное время и более подробные сведения. Определите, случайные ли это неполадки или они связаны с более серьезными проблемами на сайте. Если робот Googlebot перегружает ваш сайт, запросите снижение частоты сканирования. Если вы обнаружите признаки серьезной проблемы с доступностью, ознакомьтесь с информацией о причинах резких изменений в статистике. Узнайте, как устранять ошибки сервера.
  • Другая ошибка клиента (код 4XX). Ошибка на стороне клиента, не описанная в других пунктах. Рекомендуем устранить такие неполадки.
  • DNS не отвечает. Ваш DNS-сервер не отвечает на запросы URL, отправленные в адрес сайта.
  • Ошибка DNS. Не описанная здесь ошибка DNS.
  • Ошибка при выполнении запроса. Страницу не удалось загрузить из-за проблемы с номером порта, IP-адресом или распознаванием ответа.
  • Страница недоступна. Прочие проблемы с загрузкой страницы, при которых запрос не достигает сервера. Поскольку сервер не регистрирует такие запросы, они не попадают в отчеты.
  • Время ожидания при обращении к странице истекло.
  • Ошибка переадресации. При запросе произошла ошибка переадресации. Примеры: слишком длинная цепочка переадресаций, пустой URL или бесконечное перенаправление.
  • Другая ошибка. Ошибка, которая не относится к перечисленным выше категориям.

Типы сканируемых файлов

Тип файла, который был отправлен в ответ на запрос. Доля каждого типа соответствует проценту ответов, а не проценту скачанных байтов.

К числу возможных значений типа файла относятся:

  • HTML;
  • изображение;
  • видео (поддерживаются разные форматы);
  • JavaScript;
  • CSS;
  • PDF;
  • другой тип файла XML (XML-файл, который не содержит RSS, KML и других типов файлов, созданных на основе XML);
  • JSON;
  • синдикация (фид RSS или Atom);
  • аудио;
  • географические данные (KML или другой формат);
  • другой тип файла, не указанный здесь (переадресации не включаются в группы);
  • неизвестно (ошибка). При неудачном запросе тип файла остается неизвестным.
Внимание!
Если вы столкнулись с проблемами доступности или сайт отвечает слишком медленно, ознакомьтесь с этой таблицей. Вы поймете, какие объекты сканирует система Google и почему этот процесс может замедляться. Запрашивает ли Google много мелких изображений, которые стоит заблокировать? Запрашивает ли Google ресурсы, размещенные на другом сайте, который работает медленнее? Вы можете нажимать на разные типы файлов, чтобы посмотреть диаграмму с разбивкой среднего времени запроса по датам, а также сведения о количестве запросов за определенные даты. Это поможет вам узнать, насколько рост числа слишком медленных ответов мог приводить к общей недоступности страниц или замедлению их сканирования.

Цель сканирования

  • Обнаружение. Запрошенный URL ранее никогда не сканировался роботами Google.
  • Обновление. Повторное сканирование страницы, о которой уже есть данные.

Если страницы на вашем сайте быстро меняются и сканирование происходит недостаточно часто, убедитесь, что они включены в файл Sitemap. Для страниц, которые обновляются не так часто, можно вручную отправлять заявки на повторное сканирование. Если вы недавно добавили на сайт много нового контента или файл Sitemap, вы можете увидеть, что количество запросов типа "Обнаружение" увеличилось.

Тип робота Googlebot

Тип агента пользователя, который применялся для запроса на сканирование. Google поддерживает целый ряд агентов пользователя. Они применяются в разных случаях и по-разному себя ведут.

К числу возможных значений типа робота Googlebot относятся:

  • Для мобильных страниц: Googlebot.
  • Для обычных страниц: Googlebot.
  • Для изображений: Googlebot Image. Если изображение загружается как объект страницы, засчитывается загрузка объекта страницы, а не изображения.
  • Для видео: Googlebot Video. Если видео загружается как объект страницы, засчитывается загрузка объекта страницы, а не видео.
  • Загрузка объектов страницы: дополнительное сканирование объектов, используемых на странице. Сканируя страницу, Google загружает связанные с ней важные объекты, такие как изображения и файлы CSS. Это делается для отрисовки страницы перед попыткой индексирования. Подобные объекты запрашивает отдельный агент пользователя.
  • AdsBot: один из роботов AdsBot. Если от них вдруг стало поступать намного больше запросов, вероятно, вы недавно создали на своем сайте ряд новых целей для динамических поисковых объявлений. Ознакомьтесь с информацией в разделе Причины увеличения частоты сканирования. Робот AdsBot сканирует страницы примерно раз в две недели.
  • StoreBot: робот для товаров.
  • Агент другого типа: не указанный здесь робот Google.

Если вы замечаете резкие изменения в статистике, проверьте тип агента пользователя. Если скачки связаны с роботом AdsBot, ознакомьтесь с этой информацией.

Устранение неполадок

Слишком высокая частота сканирования

Google использует алгоритмы, которые ограничивают количество запросов на сканирование, чтобы не допустить перегрузки сайта. Если вам по какой-то причине нужно снизить частоту сканирования, следуйте инструкциям из этой статьи.

Причины увеличения частоты сканирования

Если вы недавно обновили сайт или на нем содержится полезная информация, мы можем сканировать его чаще обычного. Примеры:

  • вы разрешили сканирование большой части сайта, которая раньше была заблокирована для роботов;
  • вы добавили на сайт новый крупный раздел;
  • вы добавили много новых целей для динамических поисковых объявлений. Это могут быть новые фиды страниц или правила URL_Equals.

Если роботы Googlebot сканируют ваш сайт слишком часто и это приводит к проблемам с доступом, попробуйте выполнить описанные ниже действия.

  1. Определите, какой поисковый робот Google наиболее активно посещает ваш сайт. Изучите журналы сайта или отчет о статистике сканирования.
  2. Быстрое решение:
    • В качестве простого решения попробуйте с помощью файла robots.txt запретить доступ к своим страницам агенту пользователя, перегружающему сайт (например, роботу Googlebot или AdsBot). Для получения результата могут понадобиться сутки. Не вводите длительный запрет, так как это может оказать долговременное влияние на сканирование вашего ресурса.
    • Если у вас есть инструменты, позволяющие автоматически отслеживать трафик и при необходимости принимать меры, то в случае приближения к лимиту на количество обращений к сайту начинайте возвращать сообщение с кодом состояния HTTP 503/429. Однако не следует возвращать код состояния 503 или 429 более трех дней подряд, так как в этом случае Google может снизить частоту сканирования вашего сайта на длительный срок.
  3. Через два или три дня, когда частота сканирования роботами Google изменится в соответствии с настройками, можно будет удалить правила блокировки из файла robots.txt или прекратить возвращать сообщения с кодами ошибок 503 либо 429.
  4. Если излишнюю нагрузку оказывает робот AdsBot, вероятно, вы добавили слишком много страниц для таргетинга динамических поисковых объявлений (при помощи правила URL_Equals или фида страниц). Если ваш сервер не справляется с запросами на сканирование, вам следует ограничить количество целевых страниц для таргетинга объявлений, уменьшить число добавляемых за один раз URL или увеличить пропускную способность сервера. Обратите внимание, что робот AdsBot будет сканировать ваши страницы каждые две недели. Если вы не устраните причину проблемы, она возникнет повторно.

Слишком низкая частота сканирования

Вы не можете увеличить частоту сканирования. Однако вы можете узнать больше о том, как управлять сканированием, если ваш сайт очень большой или часто обновляется.

Если у вас не очень большой сайт или вы заметили, что Google сканирует не все его страницы, обновите файлы Sitemap и убедитесь, что никакие страницы не блокируются.

Почему уменьшилась частота сканирования?

Скорость сканирования должна оставаться примерно на одном уровне на протяжении периода в одну-две недели. Резко снизиться она может по следующим причинам:

  • вы добавили новое или очень объемное правило в файл robots.txt. Убедитесь, что вы не блокируете страницы без веских на то причин. Не закрывайте доступ к ресурсам, которые необходимы роботу Googlebot для определения контента сайта, например файлам CSS и JavaScript;
  • если сайт медленно отвечает на запросы, робот Googlebot не будет отправлять их, чтобы не перегружать сервер. Проверьте в отчете, не снизилась ли скорость отклика вашего сайта;
  • если на сервере возникают ошибки, робот Googlebot не будет отправлять запросы, чтобы не перегружать сервер;
  • если веб-страницы редко обновляются или содержат информацию не очень высокого качества, мы сканируем их не очень часто. Взгляните на свой сайт ещё раз. Также найдите тех, кто сможет оценить его непредвзято, и подумайте, как можно его улучшить.

Общее число операций сканирования превышает количество операций в журнале сервера

Иногда общее число операций сканирования может быть намного больше, чем количество запросов на него, зафиксированное в журнале сервера. Зачастую это происходит, когда роботы Google не могут просканировать ваш сайт, так как файл robots.txt недоступен слишком долго. В таких случаях наша система учитывает операции сканирования, которые могли быть выполнены при наличии файла robots.txt, но не производит такие операции. Чтобы узнать, произошло ли это в вашем случае, проверьте доступность файла robots.txt.

Эта информация оказалась полезной?

Как можно улучшить эту статью?
Поиск
Очистить поле поиска
Закрыть поиск
Приложения Google
Главное меню