Общие сведения о файлах robots.txt

Что такое файлы robots.txt и как с ними работать

Что такое файл robots.txt?

Файл robots.txt сообщает поисковым роботам, какие страницы или файлы на вашем сайте можно или нельзя обрабатывать. Используйте его, чтобы ограничить количество запросов, которые получает ваш сервер, и снизить нагрузку на него. Этот файл не предназначен для того, чтобы запрещать показ веб-страниц в результатах поиска Google. Если вы не хотите, чтобы какие-либо материалы с вашего сайта были представлены в Google, применяйте директивы noindex. Также вы можете создать на сайте разделы, защищенные паролем.

Для чего нужен файл robots.txt?

Файл robots.txt используется в первую очередь для управления трафиком поисковых роботов на вашем сайте. Как правило, он позволяет избежать показа контента в результатах поиска Google (это зависит от типа файла). Более подробные сведения представлены ниже.

Тип контента Управление трафиком Блокировка в результатах поиска Google Описание
Веб-страница

Файл robots.txt может использоваться для управления сканированием веб-страниц в форматах, которые не относятся к медийным и которые робот Googlebot может обработать (например, HTML или PDF). Эта функция позволяет сократить количество запросов, которые поступают на ваш веб-сервер от Google, или предотвратить сканирование неинформативных или одинаковых страниц на вашем сайте.

Файл robots.txt не предназначен для блокировки показа веб-страниц в результатах поиска Google. Если на других сайтах есть ссылки на вашу страницу, содержащие ее описание, то она все равно может быть проиндексирована, даже если роботу Googlebot запрещено ее посещать. Чтобы исключить страницу из результатов поиска, следует использовать другой метод, например защиту паролем или директиву noindex.

Если файл robots.txt запрещает роботу Googlebot обрабатывать веб-страницу, она все равно может показываться в Google, но связанный с ней результат поиска может не содержать описания и выглядеть, как на скриншоте в этой статье. Файлы PDF, изображения, видеоролики и прочие материалы не в формате HTML можно заблокировать в Google с помощью этой функции. Если результат поиска по вашей странице выглядит как в примере выше, удалите запись в файле robots.txt, которая препятствует обработке контента. Чтобы полностью исключить страницу из Google Поиска, следует использовать другие методы.

Медиафайл

Файл robots.txt может использоваться как для управления трафиком поисковых роботов, так и для блокировки показа изображений, видео- и аудиофайлов в результатах Google Поиска. При этом обратите внимание, что другие страницы могут по-прежнему ссылаться на ваш контент.

Файл ресурсов

При помощи файла robots.txt можно запрещать сканирование файлов ресурсов, например неинформативных изображений, скриптов или файлов стилей, если вы считаете, что эти ресурсы не оказывают существенное влияние на содержание страницы. Однако не следует блокировать доступ к ним, если это может затруднить поисковому роботу интерпретацию контента. В противном случае анализ страницы в Google будет неэффективным.

Я использую сервис управления хостингом сайта

Если вы используете сервис управления хостингом сайта, например WIX, Drupal или Blogger, вам обычно не нужно редактировать файл robots.txt напрямую (а в некоторых случаях вы не сможете это сделать). Вместо этого ваш провайдер может использовать страницу настроек поиска или какой-либо другой механизм, который запрещает или разрешает сканирование.

Чтобы узнать, доступна ли ваша страница в Google, попробуйте ввести ее URL в строке поиска Google.

Если вы хотите запретить или разрешить поисковым системам обработку вашей страницы, реализуйте на ней вход с использованием учетных данных или откажитесь от использования этой функции. Затем попробуйте найти в сервисе управления хостингом сайта информацию о том, как контролировать видимость представленного на сайте контента в поисковых системах. Пример запроса: wix как скрыть страницу от поисковых систем.

Ограничения при использовании файла robots.txt

Прежде чем создавать или изменять файл robots.txt, примите во внимание риски, связанные с этим методом. Иногда для запрета индексирования определенных URL лучше применять другие решения.

  • Директивы robots.txt поддерживаются не всеми поисковыми системами
    Директивы в файлах robots.txt не имеют обязывающей силы. Googlebot и большинство других поисковых роботов следуют инструкциям robots.txt, однако некоторые системы могут игнорировать их. Чтобы надежно защитить информацию от поисковых роботов, воспользуйтесь другими способами – например, парольной защитой файлов на сервере.
  • Каждый поисковый робот использует собственный алгоритм обработки файла robots.txt
    Большинство поисковых систем следуют директивам в robots.txt, однако конкретная интерпретация директив будет зависеть от настроек робота. Поэтому ознакомьтесь с синтаксисом для других систем.
  • Страница, заблокированная для поисковых роботов, все же может быть обработана, если на других сайтах есть ссылки на нее
    Googlebot не будет напрямую индексировать контент, указанный в файле robots.txt, однако сможет найти страницы с ним по ссылкам с других сайтов. Таким образом, URL, а также другие общедоступные сведения, например текст ссылок на страницу, могут появиться в результатах поиска Google. Чтобы предотвратить появление URL в результатах поиска Google, необходимо защитить файлы на сервере паролем или использовать директиву noindex в метатеге или HTTP-заголовке ответа (либо полностью удалить страницу).
Обратите внимание: одновременное применение нескольких методов может привести к конфликтам. Подробнее о настройке этих параметров можно узнать в статье на сайте Google Developers.

Как проверить, обеспечивает ли ваш файл robots.txt блокировку страниц

Используйте разработанный специалистами Google инструмент проверки файла robots.txt.

Чтобы проверить директивы noindex, следует использовать наш инструмент проверки URL.

Эта информация оказалась полезной?
Как можно улучшить эту статью?