Отчет о файлах robots.txt

Узнайте, может ли робот Google обработать ваши файлы robots.txt

Отчет о файлах robots.txt показывает, какие файлы robots.txt удалось найти роботу Google в 20 лучших доменах вашего сайта, когда они были просканированы в последний раз, какие предупреждения были отправлены и какие ошибки возникали. Отчет также позволяет запросить повторное сканирование файла robots.txt в экстренных случаях.

С помощью файла robots.txt вы можете запретить поисковым системам сканировать ваш сайт. Если вы хотите, чтобы контент не появлялся в результатах поиска, используйте тег noindex.

Этот отчет доступен только для ресурсов на уровне домена, то есть:

  • доменных ресурсов (таких как example.com или m.example.com); или
  • ресурсов с префиксом в URL без указания пути к конкретной странице, например https://example.com/, но не https://example.com/path/.

Открыть отчет о файлах robots.txt

 

Просмотр файлов robots.txt и статуса сканирования

Отчет для доменного ресурса содержит файлы robots.txt для 20 самых популярных доменов этого сайта.

Для каждого файла robots.txt, который был проверен инструментом Search Console, отображается следующая информация:

  • Путь файла. Полный URL, который был проверен роботом Google на наличие файла robots.txt. URL будет отображаться в отчете только в том случае, если за последние 30 дней ему был присвоен статус "Получен" или "Не получен". Подробнее о местонахождении файлов robots.txt
  • Статус получения. Статус последнего запроса на получение этого файла. Возможны следующие значения:
    • Не получен – не найден (404). Статус присваивается, если при запросе файла был получен код ответа 404 (файл не существует). Если вы разместили файл robots.txt по этому URL-адресу, но видите указанную ошибку, проверьте, доступен ли этот URL. Файл, имеющий статус Не найден (404) на протяжении 30 дней, не будет отражаться в отчете (но робот Google будет продолжать попытки получить его). Ошибка, свидетельствующая об отсутствии файла robots.txt, не является проблемой. Это означает, что робот Google может сканировать все URL на вашем сайте, но мы рекомендуем узнать больше о том, как действует робот Google при возникновении подобной ошибки.
    • Не получен – любая другая причина. Статус присваивается, если при запросе файла возникли другие проблемы. Список проблем с индексированием.
    • Получен. Статус присваивается, если во время последней попытки сканирования удалось получить файл robots.txt. Любые проблемы, обнаруженные во время обработки файла, будут отражены в столбце Проблемы. Робот Google игнорирует строки с ошибками и использует те, которые он может проанализировать.
  • Дата и время проверки. Дата и время сканирования этого URL роботом Google в вашем часовом поясе.
  • Размер. Размер полученного файла в байтах. Если последняя попытка сканирования оказалась неудачной, то это поле будет пустым.
  • Проблемы. Таблица с перечнем проблем, возникших при анализе содержимого файла во время последней удачной попытки сканирования. При наличии ошибок правило не выполняется. Однако предупреждения не препятствуют выполнению правила. Узнайте, как действует робот Google при обнаружении ошибки в файле robots.txt. Чтобы исправить ошибки, обнаруженные во время обработки файла, используйте валидатор для файла robots.txt.

Просмотр последней полученной версии

Чтобы посмотреть последнюю полученную версию файла robots.txt, необходимо нажать на него в списке файлов в отчете. Если в файле есть ошибки или предупреждения, они будут выделены. Для перехода к следующей/предыдущей ошибке или предупреждению можно использовать клавиши со стрелками.

Просмотр ранее полученных версий

Чтобы посмотреть версии файла robots.txt, полученные за последние 30 дней, нажмите на него в списке файлов в отчете и в контекстном меню выберите Версии. Нажмите на нужную версию, чтобы посмотреть содержимое файла. Запрос будет отражаться в истории, только если полученный файл или результат запроса отличается от предыдущего запроса на получение файла.

Если при последней попытке получения файла произошла ошибка, робот Google будет использовать последнюю полученную версию файла без ошибок, но не дольше 30 дней.

Запрос повторного сканирования

После исправления ошибки или внесения важных изменений вы можете запросить повторное сканирование файла robots.txt.

Когда следует запрашивать повторное сканирование

Робот Google довольно часто сканирует файлы robots.txt, поэтому повторное сканирование следует запрашивать только в экстренных случаях. Вот несколько ситуаций, когда это целесообразно:

  • вы внесли изменения в правила файла robots.txt, чтобы разблокировать ряд важных URL, и хотите, чтобы робот Google обработал эту информацию как можно скорее (это не значит, что разблокированные URL будут просканированы сразу);
  • вы исправили ошибку, возникшую при выполнении запроса, или другую критическую ошибку.

Как запросить повторное сканирование

Чтобы запросить повторное сканирование, нажмите на значок "Ещё" рядом с нужным файлом в списке выберите Запросить повторное сканирование.

Сайты, размещенные на веб-хостинге

Если ваш сайт размещен на веб-хостинге, то отредактировать файл robots.txt может быть непросто. В этом случае рекомендуем вам ознакомиться с документацией сервиса веб-хостинга, чтобы узнать, как предотвратить сканирование или индексирование определенных страниц. (Владельцы сайтов чаще стремятся предотвратить появление файлов в Google Поиске, нежели запретить их сканирование роботом Google. Если у вас такие же цели, то вам следует найти на сервисе веб-хостинга информацию о том, как предотвратить индексирование страниц поисковыми системами.)

Что происходит, когда роботу Google не удается получить или прочитать файл robots.txt

Если файл robots.txt для домена или субдомена не найден, то для робота Google это является сигналом о том, что он может сканировать любой URL на домене.

Если робот Google находит файл robots.txt, но не может получить его, то он действует в соответствии со следующим алгоритмом:

  1. Не сканирует сайт на протяжении первых 12 часов, но продолжает предпринимать попытки получить файл robots.txt.
  2. Если роботу Google не удается получить новую версию файла, то в течение следующих 30 дней он использует его последнюю доступную версию, не прекращая попыток получить новую версию файла. Вы можете посмотреть последнюю доступную версию файла в истории версий.
  3. Если по прошествии 30 дней ошибки не будут исправлены:
    • При отсутствии проблем с доступностью сайта робот Google будет действовать так, как будто файла robots.txt не существует (но при этом будет продолжать попытки получить новую версию файла).
    • При наличии общих проблем с доступностью сайта робот Google прекратит его сканирование и будет время от времени отправлять запрос на получение файла robots.txt.

Если робот Google находит и получает файл robots.txt, то он обрабатывает его построчно. Если какая-то строка содержит ошибку или роботу не удается проанализировать ее в соответствии с правилом robots.txt, то он ее пропускает. Если в файле нет допустимых строк, то робот Google считает его пустым, как если бы в отношении сайта не действовало никаких ограничений.

Местоположение файла robots.txt

Терминология

  • Протокол – HTTP или HTTPS.
  • Домен – часть URL после протокола (http:// or https://) без пути к конкретной странице. Так, адрес m.de.example.com подразумевает под собой три домена: m.de.example.com, de.example.com и example.com, для каждого из которых существует отдельный файл robots.txt.
  • Источник – это протокол плюс домен, например https://example.com/ или https://m.example.co.es/.

Согласно стандарту REP, файл robots.txt должен находится в корне каждой комбинации протоколов и доменов вашего сайта.

Для доменного ресурса:

  1. Search Console выбирает 20 доменов с самой высокой частотой сканирования и располагает их в порядке убывания. Для каждого домена в отчете может быть до двух источников, то есть таблица может содержать до 40 строк. Если вы не можете найти URL файла robots.txt для одного из ваших доменов, создайте доменный ресурс для отсутствующего субдомена.
  2. Для каждого домена Search Console проверяет два URL:
    • http://<host>/robots.txt
    • https://<host>/robots.txt
  3. Если файл robots.txt Не найден на запрашиваемом URL и этот статус не меняется на протяжении 30 дней, Search Console не включает этот URL в отчет, но робот Google продолжает проверять его. URL с любым другим статусом отображаются в отчете.

Для ресурсов на уровне домена с префиксом в URL (таких как https://example.com/) Search Console проверяет только один источник. То есть для ресурса https://example.com Search Console проверяет только https://example.com/robots.txt и не проверяет http://example.com/robots.txt или https://m.example.com/robots.txt.

Основные функции отчета

Просмотр файла robots.txt

Чтобы открыть файл robots.txt в данном отчете, нажмите на него в списке файлов robots.txt. Затем, чтобы открыть файл в вашем браузере, нажмите Открыть опубликованный файл robots.txt.

Вы можете открыть любой файл robots.txt в своем браузере. В следующем разделе рассказывается, какой URL для этого необходимо использовать.

Где можно найти файлы robots.txt

Файл robots.txt можно найти в корне протокола или домена. Чтобы определить URL-адрес, по которому можно посмотреть содержимое файла robots.txt, удалите из URL файла все, кроме домена (а при необходимости и порт), и добавьте к нему "/robots.txt". Если файл robots.txt существует, вы можете посмотреть его в своем браузере. Файлы robots.txt не наследуются субдоменами или родительскими доменами, и каждой страницей может управлять только один файл robots.txt. Ниже приведено несколько примеров.

URL файла URL-адрес, по которому можно открыть файл robots.txt
http://example.com/home http://example.com/robots.txt
https://m.de.example.com/some/page/here/mypage https://m.de.example.com/robots.txt
https://example.com?pageid=234#myanchor https://example.com/robots.txt
https://images.example.com/flowers/daffodil.png https://images.example.com/robots.txt

Определение файла robots.txt, который управляет страницей или изображением

Чтобы найти URL файла robots.txt, в котором содержатся правила для страницы или изображения, выполните следующие действия:

  1. Найдите точный URL страницы или изображения. Чтобы узнать URL изображения, нажмите на него правой кнопкой мыши в браузере Chrome и выберите Копировать URL изображения.
  2. Удалите из URL все, что идет после домена верхнего уровня (например, .com, .org, .co.il), и добавьте к нему "/robots.txt". Таким образом, файл robots.txt для изображения https://images.example.com/flowers/daffodil.png можно посмотреть по адресу https://images.example.com/robots.txt
  3. Откройте URL в браузере, чтобы убедиться, что файл существует. Если файл не открывается в браузере, значит его не существует.

Как узнать, не блокируется ли робот Google файлом robots.txt

  • Если вы хотите проверить, не заблокирован ли определенный URL файлом robots.txt, вы можете проверить доступность URL при помощи инструмента проверки URL.
  • Если вы хотите проверить, работает ли определенное правило robots.txt в отношении файла, который ещё не опубликован, или новое правило, вы можете воспользоваться сторонним инструментом проверки файла robots.txt.

Дополнительная информация

Эта информация оказалась полезной?

Как можно улучшить эту статью?
Поиск
Очистить поле поиска
Закрыть поиск
Приложения Google
Главное меню