Блокировка URL при помощи файла robots.txt

Общие сведения о файлах robots.txt

Что такое файл robots.txt?

Файл robots.txt сообщает поисковым роботам, какие страницы или файлы на вашем сайте можно или нельзя обрабатывать. Эта функция позволяет ограничить количество запросов, которые получает ваш веб-сервер, и снизить нагрузку на него. Она не предназначена для того, чтобы запрещать показ веб-страниц в результатах поиска Google. Если вы не хотите, чтобы какие-либо материалы с вашего сайта были представлены в Google, используйте теги или директивы noindex. Также вы можете создать на сайте разделы, защищенные паролем.

Для чего нужен файл robots.txt?

Файл robots.txt используется в первую очередь для управления трафиком поисковых роботов на вашем сайте. В некоторых случаях он позволяет запретить показ контента в результатах поиска Google (это зависит от типа файла). Более подробные сведения представлены ниже.

Тип контента Управление трафиком Блокировка в результатах поиска Google Описание
Веб-страница

Файл robots.txt может использоваться для управления сканированием веб-страниц в форматах, которые не относятся к медийным и которые робот Googlebot может обработать (например, HTML или PDF). Эта функция позволяет сократить количество запросов, которые поступают на ваш веб-сервер от Google, или предотвратить сканирование неинформативных или одинаковых страниц на вашем сайте.

Файл robots.txt не предназначен для блокировки показа веб-страниц в результатах поиска Google. Если на других сайтах есть ссылки на вашу страницу, содержащие ее описание, то она все равно может быть проиндексирована, даже если роботу Googlebot запрещено ее посещать. Чтобы исключить страницу из результатов поиска, следует использовать другой метод, например защиту паролем или директиву noindex.

Если файл robots.txt запрещает роботу Googlebot обрабатывать веб-страницу, она все равно может демонстрироваться в Google, но связанный с ней результат поиска может не содержать описания или выглядеть, как показано в нашем примере. Файлы PDF, изображения, видеоролики и прочие материалы не в формате HTML можно заблокировать в Google с помощью этой функции. Если результат поиска по вашей странице выглядит как в примере выше, удалите запись в файле robots.txt, которая препятствует обработке контента. Чтобы полностью исключить страницу из Google Поиска, следует использовать другие методы.

Медиафайл

Файл robots.txt может использоваться как для управления трафиком поисковых роботов, так и для блокировки показа изображений, видео- и аудиофайлов в результатах Google Поиска. При этом обратите внимание, что другие страницы могут по-прежнему ссылаться на ваш контент.

Файл ресурсов

При помощи файла robots.txt можно запрещать сканирование файлов ресурсов, например неинформативных изображений, скриптов или файлов стилей, если вы считаете, что эти ресурсы не оказывают существенное влияние на содержание страницы. Однако не следует блокировать доступ к ним, если это может затруднить поисковому роботу интерпретацию контента. В противном случае анализ страницы в Google будет неэффективным.

Я использую сервис управления хостингом сайта

Если вы используете сервис управления хостингом сайта, например WIX, Drupal или Blogger, вам обычно не нужно редактировать файл robots.txt напрямую (а в некоторых случаях вы не сможете это сделать). Вместо этого ваш провайдер может использовать настройки страницы или какой-либо другой механизм, который запрещает или разрешает ее сканировать.

Чтобы узнать, доступна ли ваша страница в Google, попробуйте ввести ее URL в строке поиска Google.

Если вы хотите запретить или разрешить роботу Googlebot обработку вашей страницы, реализуйте на ней вход с использованием учетных данных или откажитесь от использования этой функции. Затем попробуйте найти в Google информацию о том, как контролировать видимость представленного на сайте контента в результатах поиска. Пример запроса: wix как скрыть страницу от поисковых систем.

Ограничения при использовании файла robots.txt

Прежде чем создавать или изменять файл robots.txt, примите во внимание риски, связанные с этим методом. Иногда для запрета индексирования определенных URL лучше применять другие решения.

  • Инструкции robots.txt носят рекомендательный характер
    Настройки файла robots.txt являются указаниями, а не прямыми командами. Googlebot и большинство других поисковых роботов следуют инструкциям robots.txt, однако некоторые системы могут игнорировать их. Чтобы надежно защитить информацию от поисковых роботов, воспользуйтесь другими способами – например, парольной защитой файлов на сервере.
  • Каждый поисковый робот использует собственный алгоритм обработки файла robots.txt
    Большинство поисковых систем следуют директивам в robots.txt, однако конкретная интерпретация директив будет зависеть от настроек робота. Поэтому ознакомьтесь с синтаксисом для других систем.
  • Страница, заблокированная для поисковых роботов, все же может быть обработана, если на других сайтах есть ссылки на нее
    Googlebot не будет напрямую индексировать контент, указанный в файле robots.txt, однако сможет найти страницы с ним по ссылкам с других сайтов. Таким образом, URL, а также другие общедоступные сведения, например текст ссылок на страницу, могут появиться в результатах поиска Google. Чтобы исключить появление URL в результатах поиска Google, необходимо защитить файлы на сервере паролем или использовать метатеги с директивами по индексированию (либо полностью удалить страницу).
Обратите внимание: одновременное применение нескольких методов может привести к конфликтам. Подробнее о настройке этих параметров можно узнать в статье на сайте Google Developers.

Как проверить, обеспечивает ли ваш файл robots.txt блокировку страниц

Используйте разработанный специалистами Google инструмент проверки файла robots.txt.

Чтобы проверить директивы noindex, следует использовать наш инструмент проверки URL.

Была ли эта статья полезна?
Как можно улучшить эту статью?