О файле robots.txt

Как создать файл robots.txt

Если вы используете сервис хостинга сайтов, например WIX или Blogger, вам обычно не нужно создавать или изменять файл robots.txt.

Начало работы

Файл robots.txt находится в корневом каталоге вашего сайта. Например, на сайте www.example.com адрес файла robots.txt будет выглядеть как www.example.com/robots.txt. Файл robots.txt представляет собой обычный текстовый файл, который соответствует стандарту исключений для роботов, и включает одно или несколько правил, каждое из которых запрещает или разрешает тому или иному поисковому роботу доступ к определенному пути на сайте.

Вот пример простого файла robots.txt с двумя правилами. Ниже приведены пояснения.

# Группа 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Группа 2
User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

 

Пояснения

  1. Агент пользователя с названием Googlebot не должен сканировать каталог http://example.com/nogooglebot/ и его подкаталоги.
  2. У всех остальных агентов пользователя есть доступ ко всему сайту (можно опустить, результат будет тем же, так как полный доступ предоставляется по умолчанию).
  3. Файл Sitemap этого сайта находится по адресу http://www.example.com/sitemap.xml.

Далее представлен более подробный пример.

Основные рекомендации в отношении файлов robots.txt

Ниже представлено несколько советов по работе с файлами robots.txt. Мы рекомендуем вам изучить полный синтаксис этих файлов, так как используемые при их создании синтаксические правила являются неочевидными и вы должны разбираться в них.

Формат и расположение

Создать файл robots.txt можно почти в любом текстовом редакторе с поддержкой кодировки UTF-8. Не используйте текстовые процессоры, поскольку зачастую они сохраняют файлы в проприетарном формате и добавляют в них недопустимые символы, например фигурные кавычки, которые не распознаются поисковыми роботами.

При создании и тестировании файлов robots.txt используйте инструмент проверки. Он позволяет проанализировать синтаксис файла и узнать, как он будет функционировать на вашем сайте.

Правила в отношении формата и расположения файла

  • Файл должен носить название robots.txt.
  • На сайте должен быть только один такой файл.
  • Файл robots.txt нужно разместить в корневом каталоге сайта. Например, чтобы контролировать сканирование всех страниц сайта http://www.example.com/, файл robots.txt следует разместить по адресу http://www.example.com/robots.txt. Он не должен находиться в подкаталоге (например, по адресу http://example.com/pages/robots.txt). В случае затруднений с доступом к корневому каталогу обратитесь к хостинг-провайдеру. Если у вас нет доступа к корневому каталогу сайта, используйте альтернативный метод блокировки, например метатеги.
  • Файл robots.txt можно добавлять по адресам с субдоменами (например, http://website.example.com/robots.txt) или нестандартными портами (например, http://example.com:8181/robots.txt).
  • Комментарием считается любой текст после символа #.

Синтаксис

  • Файл robots.txt должен представлять собой текстовый файл в кодировке UTF-8 (которая включает коды символов ASCII). Другие наборы символов использовать нельзя.
  • Файл robots.txt состоит из групп.
  • Каждая группа может содержать несколько правил, по одному на строку. Эти правила также называются директивами.
  • Группа включает следующую информацию:
    • К какому агенту пользователя применяются директивы группы.
    • К каким каталогам или файлам у этого агента есть доступ.
    • К каким каталогам или файлам у этого агента нет доступа.
  • Инструкции групп считываются сверху вниз. Робот будет следовать правилам только одной группы с наиболее точно соответствующим ему агентом пользователя.
  • По умолчанию предполагается, что если доступ к странице или каталогу не заблокирован правилом Disallow:, то агент пользователя может их обрабатывать.
  • Правила чувствительны к регистру. Так, правило Disallow: /file.asp применимо к URL http://www.example.com/file.asp, но не к http://www.example.com/File.asp.

Директивы, которые используются в файлах robots.txt

  • User-agent: Обязательная директива, в группе таких может быть несколько. Определяет, к какому поисковому роботу должны применяться правила. С такой строки начинается каждая группа. Большинство агентов пользователя, относящихся к роботам Google, можно найти в специальном списке и в базе данных роботов Интернета. Поддерживается подстановочный знак * для обозначения префикса, суффикса пути или всего пути. Используйте знак *, как показано в примере ниже, чтобы заблокировать доступ всем поисковым роботам (кроме роботов AdsBot, которых нужно указывать отдельно). Рекомендуем ознакомиться со списком роботов Google. Примеры:
    # Пример 1. Блокировка доступа только роботу Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Пример 2. Блокировка доступа роботам Googlebot и AdsBot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
     
    # Пример 3. Блокировка доступа всем роботам, за исключением AdsBot
    User-agent: * 
    Disallow: /
  • Disallow: По крайней мере одна директива Disallow: или Allow: должна быть в каждой группе. Указывает на каталог или страницу относительно корневого домена, которые нельзя сканировать агенту пользователя, определенному выше. Если это страница, должен быть указан полный путь к ней, как в адресной строке браузера. Если это каталог, путь к нему должен заканчиваться косой чертой (/).  Поддерживается подстановочный знак * для обозначения префикса, суффикса пути или всего пути.
  • Allow: По крайней мере одна директива Disallow: или Allow: должна быть в каждой группе. Указывает на каталог или страницу относительно корневого домена, которые можно сканировать агенту пользователя, определенному выше. Используется, для того чтобы отменить директиву Disallow и разрешить сканирование подкаталога или страницы в закрытом для сканирования каталоге. Если это страница, должен быть указан полный путь к ней, как в адресной строке браузера. Если это каталог, путь к нему должен заканчиваться косой чертой (/). Поддерживается подстановочный знак * для обозначения префикса, суффикса пути или всего пути.
  • Sitemap: Необязательная директива, таких в файле может быть несколько или не быть совсем. Указывает на расположение файла Sitemap, используемого на этом сайте. URL должен быть полным. Google не обрабатывает и не проверяет варианты URL с префиксами http и https или с элементом www и без него. Файлы Sitemap сообщают Google, какой контент нужно сканировать и как отличить его от контента, который можно или нельзя сканировать. Узнайте больше о файлах Sitemap. Пример:
    Sitemap: https://example.com/sitemap.xml
    Sitemap: http://www.example.com/sitemap.xml

Другие правила игнорируются.

Ещё один пример

Файл robots.txt состоит из групп. Каждая из них начинается со строки User-agent, определяющей робота, который должен следовать правилам. Ниже приведен пример файла с двумя группами и с поясняющими комментариями к обеим.

# Блокировать доступ робота Googlebot к каталогам example.com/directory1/... и example.com/directory2/...
# но разрешить доступ к каталогу directory2/subdirectory1/...
# Доступ ко всем остальным каталогам разрешен по умолчанию.
User-agent: googlebot
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/subdirectory1/

# Блокировать доступ ко всему сайту другой поисковой системе.
User-agent: anothercrawler
Disallow: /

Полный синтаксис файла robots.txt

Полный синтаксис описан в этой статье. Рекомендуем вам ознакомиться с ней, так как в синтаксисе файла robots.txt есть некоторые важные нюансы.

Полезные правила

Вот несколько распространенных правил для файла robots.txt:

Правило Пример
Запрет сканирования всего сайта. Следует учесть, что в некоторых случаях URL сайта могут присутствовать в индексе, даже если они не были просканированы. Обратите внимание, что это правило не относится к роботам AdsBot, которых нужно указывать отдельно.
User-agent: *
Disallow: /
Чтобы запретить сканирование каталога и всего его содержания, поставьте после названия каталога косую черту. Не используйте файл robots.txt для защиты конфиденциальной информации! Для этих целей следует применять аутентификацию. URL, сканирование которых запрещено файлом robots.txt, могут быть проиндексированы, а содержание файла robots.txt может просмотреть любой пользователь, и таким образом узнать местоположение файлов с конфиденциальной информацией.
User-agent: *
Disallow: /calendar/
Disallow: /junk/
Чтобы разрешить сканирование только для одного поискового робота
User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Чтобы разрешить сканирование для всех поисковых роботов, за исключением одного
User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Чтобы запретить сканирование отдельной страницы, укажите эту страницу после косой черты.

User-agent: *
Disallow: /private_file.html

Чтобы скрыть определенное изображение от робота Google Картинок

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Чтобы скрыть все изображения с вашего сайта от робота Google Картинок

User-agent: Googlebot-Image
Disallow: /

Чтобы запретить сканирование всех файлов определенного типа (в данном случае GIF)

User-agent: Googlebot
Disallow: /*.gif$

Чтобы заблокировать определенные страницы сайта, но продолжать на них показ объявлений AdSense, используйте правило Disallow для всех роботов, за исключением Mediapartners-Google. В результате этот робот сможет получить доступ к удаленным из результатов поиска страницам, чтобы подобрать объявления для показа тому или иному пользователю.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Чтобы указать URL, который заканчивается на определенном фрагменте, применяйте символ $. Например, для URL, заканчивающихся на .xls, используйте следующий код:
User-agent: Googlebot
Disallow: /*.xls$
Эта информация оказалась полезной?
Как можно улучшить эту статью?