О файле robots.txt

Часто задаваемые вопросы о роботах

Общие вопросы

Вопросы о файле robots.txt

Вопросы о метатеге robots

Вопросы о HTTP-заголовке X-Robots-Tag

Не нашли в этом разделе ответа на свой вопрос? Посетите справочный форум для веб-мастеров и задайте его там.

Общие вопросы

Обязательно ли использовать на сайте файл robots.txt?

Нет. Когда робот Googlebot посещает сайт, сначала он пытается найти файл robots.txt. Отсутствие файла robots.txt, метатегов robots или HTTP-заголовков X-Robots-Tag обычно не влияет на нормальное сканирование и индексирование сайта.

Какой метод лучше выбрать?

Это зависит от ситуации. Каждый из этих методов подходит для определенных целей:

  1. Файл robots.txt рекомендуется использовать, если в работе сервера возникают проблемы, связанные со сканированием контента. Например, можно запретить сканирование скриптов бесконечного календаря. Нельзя использовать файл robots.txt для блокирования конфиденциального контента (здесь поможет аутентификация на сервере), а также для канонизации. Подробнее об этом читайте в Справочном центре. Если требуется запретить индексирование конкретного URL, используйте метатег robots или HTTP-заголовок X-Robots-Tag.
  2. Советуем применять метатег robots для управления показом в результатах поиска отдельной страницы HTML (или для запрета ее показа).
  3. HTTP-заголовок X-Robots-Tag рекомендуется использовать для управления показом в результатах поиска контента в формате, отличном от HTML (или для запрета его показа).

Можно ли использовать эти методы для удаления чужих сайтов?

Нет. Они подходят только для сайтов, код которых вы можете менять. Чтобы удалить контент со сторонних сайтов, обратитесь к их веб-мастерам.

Как уменьшить скорость сканирования моего сайта поисковыми роботами Google?

Настроить частоту сканирования можно в аккаунте Search Console.

Вопросы о файле robots.txt

Я использую один файл robots.txt для нескольких сайтов. Можно ли указать полный URL, а не относительный?

Нет. Директивы в файле robots.txt (за исключением "Sitemap:") действительны только для относительных путей.

Можно ли разместить файл robots.txt в подкаталоге?

Нет. Этот файл должен быть размещен в корневом каталоге сайта.

Я хочу заблокировать доступ к личной папке. Можно ли сделать файл robots.txt недоступным для других пользователей?

Нет. Файл robots.txt доступен пользователям. Если вы не хотите, чтобы названия папок или файлов с содержанием стали известны другим пользователям, не указывайте их в файле robots.txt. Не рекомендуется предоставлять разные файлы robots.txt на основе агента пользователя или других атрибутов.

Нужно ли указывать директиву allow, чтобы разрешить сканирование?

Нет. Сканирование будет выполняться и без директивы allow. Она нужна только для переопределения директивы disallow в том же файле robots.txt.

Что произойдет, если в файле robots.txt окажется ошибка или неподдерживаемая директива?

Обычно поисковые роботы имеют достаточно гибкие алгоритмы, и незначительные ошибки в файле robots.txt никак не сказываются на их работе. В худшем случае неправильная или неподдерживаемая директива будет просто проигнорирована. Следует учесть, что при анализе файла robots.txt поисковый робот Google не сможет угадать, что имел в виду веб-мастер; он будет выполнять именно то, что написано в файле robots.txt. Вот почему рекомендуется исправить известные вам ошибки в этом файле. Как правило, это не представляет сложности.

В какой программе нужно создавать файл robots.txt?

Используйте любую программу, позволяющую создавать текстовые файлы. Часто файлы robots.txt создаются в Блокноте, TextEdit, vi или Emacs. Более подробную информацию вы найдете в Справочном центре. Создав файл, проверьте его с помощью специального инструмента.

Если я с помощью директивы Disallow файла robots.txt заблокирую роботу Googlebot доступ к странице, исчезнет ли она из результатов поиска?

Если заблокировать роботу Googlebot доступ к странице, вероятно, она пропадет из индекса Google. 

Однако даже при наличии директивы Disallow в файле robots.txt система Google может показать страницу в качестве подходящего результата поиска с учетом ссылок на нее с других ресурсов и прочей косвенной информации. Если вы хотите строго запретить индексирование страницы, используйте метатег robots со значением noindex или HTTP-заголовок X-Robots-Tag. В этом случае не следует блокировать доступ к странице в файле robots.txt, поскольку робот Google должен просканировать ее, чтобы обнаружить тег и выполнить директиву.

Через какое время изменения в файле robots.txt отразятся на результатах поиска?

Прежде всего должна обновиться копия файла robots.txt в кеше (обычно Google кеширует содержание не более чем на один день). Процесс сканирования и индексирования является достаточно сложным, поэтому даже после того как изменения будут обнаружены, потребуется некоторое время для обновления информации. Для некоторых URL это может занять продолжительное время, вот почему невозможно назвать точные сроки. Следует также иметь в виду, что URL может отображаться в результатах поиска даже в том случае, если доступ к нему заблокирован в файле robots.txt и Google не может его просканировать. Если вы хотите запросить удаление заблокированных страниц из результатов поиска Google, отправьте запрос с помощью Search Console.

Как полностью приостановить сканирование моего сайта на некоторое время?

Для временной приостановки сканирования всех URL следует отобразить для них код ответа HTTP 503 (в том числе и для файла robots.txt). Робот Google будет периодически пытаться получить доступ к файлу robots.txt до тех пор, пока он не станет вновь доступен. Не рекомендуется запрещать сканирование путем внесения изменений в файл robots.txt.

Мой сервер не учитывает регистр. Как полностью запретить сканирование некоторых папок?

Директивы в файле robots.txt зависят от регистра. В таком случае рекомендуется с помощью методов канонизации убедиться, что индексируется только одна версия URL. Это позволит упростить файл robots.txt. Если такой вариант невозможен, рекомендуем перечислить основные комбинации названия папки или максимально сократить его, оставив только несколько начальных символов вместо полного названия. Например, не нужно перечислять все возможные комбинации из строчных и прописных букв для "/MyPrivateFolder". Вместо этого можно просто указать варианты для "/MyP" (если вы уверены, что не существует других URL с теми же начальными символами, но которые следует сканировать). Если проблема заключается не в сканировании, можно указать метатег robots или HTTP-заголовок X-Robots-Tag.

Для всех URL на моем сайте, в том числе и для файла robots.txt, отображается код ответа 404 "Доступ запрещен". Почему мой сайт по-прежнему сканируется?

Код ответа HTTP 403, как и остальные коды ответа HTTP 4xx, является признаком того, что файл robots.txt не существует. Для поисковых роботов это свидетельствует о том, что сканирование всех URL данного сайта разрешено. Чтобы запретить сканирование веб-сайта, необходимо обеспечить поисковым роботам доступ к файлу robots.txt (с кодом ответа HTTP 200 "OK") и указать соответствующую директиву disallow в этом файле.

Вопросы о метатеге robots

Является ли метатег robots заменой файлу robots.txt?

Нет. Файл robots.txt управляет доступностью страниц. Метатег robots указывает, нужно ли индексировать страницу. Однако чтобы обнаружить этот тег, робот должен ее просканировать. Если нужно запретить сканирование страницы (например, когда она создает высокую нагрузку на сервер), используйте файл robots.txt. Если же просто требуется указать, должна ли страница отображаться в результатах поиска, можно воспользоваться метатегом robots.

Можно ли с помощью метатега robots запретить индексирование только части страницы?

Нет, метатег robots применяется ко всей странице.

Можно ли использовать метатег robots за пределами раздела <head>?

Нет. Метатег robots в настоящее время можно добавлять только в раздел <head> на странице.

Можно ли с помощью метатега robots запретить сканирование?

Нет. Даже если в метатеге robots указано noindex, система будет иногда сканировать URL, чтобы проверить, нет ли изменений.

Чем директива nofollow в метатеге robots отличается от атрибута rel="nofollow" в ссылке?

Директива nofollow применяется ко всем ссылкам на странице. Атрибут ссылки rel="nofollow" относится только к конкретным ссылкам на странице. Дополнительная информация представлена в статьях Справочного центра о спаме в комментариях и атрибуте rel="nofollow".

Вопросы о HTTP-заголовке X-Robots-Tag

Как проверить наличие X-Robots-Tag для URL?

Заголовки ответа сервера проще всего проверять с помощью одного из предназначенных для этого онлайн-инструментов или функции Просмотреть как Googlebot в Search Console.

Эта информация оказалась полезной?
Как можно улучшить эту статью?