Поиск
Удалить поисковый запрос
Закрыть поиск
Приложения Google
Главное меню

Блокировка URL при помощи файла robots.txt

Как создать файл robots.txt

Чтобы создать файл robots.txt, необходимо иметь доступ к корневому каталогу своего домена. В случае затруднений обратитесь к поставщику услуг веб-хостинга или воспользуйтесь альтернативными методами блокировки, например защитой файлов на сервере паролем и метатегами в HTML-коде.

Создавать или изменять файлы robots.txt можно при помощи Инструмента проверки файлов robots.txt, который также позволяет незамедлительно узнать, как они работают.

Синтаксис файла robots.txt

В простейшем файле robots.txt используются два ключевых слова User-agent и Disallow. User-agent – это робот поисковой системы. Все они перечислены в базе данных роботов Интернета. Disallow – это команда, сообщающая роботу user-agent о том, какие URL не нужно сканировать Чтобы предоставить Googlebot доступ к определенному URL, являющемуся дочерним разделом вышестоящего каталога, который запрещено сканировать, используйте ключевое слово Allow.

Google использует различных роботов, например Googlebot для поисковой сети и Googlebot-Image для поиска картинок и т. д. Большинство роботов Google следуют правилам, установленным вами для Googlebot, но для каждого из них можно также задать отдельные команды.

Используйте следующий синтаксис для ключевых слов:

User-agent: [the name of the robot the following rule applies to]

Disallow: [the URL path you want to block]

Allow: [the URL path in of a subdirectory, within a blocked parent directory, that you want to unblock]

Последние две строки рассматриваются как одна запись в файле. Правило Disallow относится только к роботам, перечисленным перед ним. Количество записей не ограничено. В рамках любой из них несколько строк правила Disallow будут применяться к нескольким роботам. Вы также можете указать с помощью звездочки (*), что команде user-agent должны следовать все роботы. Пример:

User-agent: *

Команды блокировки URL для файла robots.txt

Блокировка

Пример

Чтобы заблокировать весь сайт, используйте косую черту (/):

Disallow: /

Чтобы заблокировать каталог и все его содержание, введите после названия каталога косую черту:

Disallow: /sample-directory/

Чтобы заблокировать страницу, укажите эту страницу после косой черты:

Disallow: /private_file.html

Чтобы удалить изображение из Google Картинок, добавьте следующие строки:

User-agent: Googlebot-Image

Disallow: /images/dogs.jpg

Чтобы удалить все изображения с вашего сайта из Google Картинок, добавьте следующие строки:

User-agent: Googlebot-Image

Disallow: /

Чтобы заблокировать все файлы определенного типа (например, .gif), используйте следующую запись:

User-agent: Googlebot

Disallow: /*.gif$

Чтобы заблокировать определенные страницы сайта, но продолжать на них показ объявлений AdSense, используйте правило Disallow для всех роботов за исключением Mediapartners-Google. В результате этот робот сможет получить доступ к удаленным из результатов поиска страницам, чтобы подобрать объявления для показа тому или иному пользователю.

User-agent: *

Disallow: /

User-agent: Mediapartners-Google

Allow: /

Помните, что в командах учитывается регистр. Например, команда Disallow: /file.asp будет блокировать страницу http://www.example.com/file.asp, но пропустит http://www.example.com/File.asp. Робот Google игнорирует пробелы и неизвестные команды в файле robots.txt.
Правила соответствия шаблону для оптимизации кода файла robots.txt

Соответствие шаблону

Пример

Чтобы заблокировать последовательность символов, используйте звездочку (*). Например, чтобы заблокировать доступ ко всем подкаталогам, название которых начинается с private, добавьте следующие строки:

User-agent: Googlebot

Disallow: /private*/

Чтобы заблокировать доступ ко всем URL, содержащим вопросительный знак (?), используйте этот пример. Здесь блокируются URL, которые начинаются с имени домена и содержат вопросительный знак.

User-agent: Googlebot

Disallow: /*?

Чтобы заблокировать URL, имеющие определенные окончания, используйте символ $. Например, для URL, заканчивающихся на .xls, используйте следующий код:

User-agent: Googlebot

Disallow: /*.xls$

О том, как блокировать URL при помощи команд Allow или Disallow, можно узнать из следующего примера. Знак ? обозначает идентификатор сеанса. Следует исключить URL с этим символом, чтобы робот Googlebot не сканировал повторяющиеся страницы. Но если у вас есть адреса, заканчивающиеся на ? и являющиеся версиями страницы, которую вы хотите сканировать, используйте следующее сочетание правил Allow и Disallow:

  1. Команда Allow: /*?$ разрешает доступ ко всем URL, заканчивающимся вопросительным знаком, (то есть к URL, которые начинаются с имени домена и содержат строку с символом ? на конце).
  2. Команда Disallow: / *? блокирует доступ ко всем URL со знаком вопроса (то есть адресам, которые начинаются с имени домена и содержат строку с вопросительным знаком).

User-agent: *

Allow: /*?$

Disallow: /*?

Сохраните файл robots.txt

Чтобы файл robots.txt был доступен роботу Googlebot и другим поисковым роботам, сохраните его следующим образом:

  • сохраните файл robots.txt в виде текстового файла;
  • поместите файл в каталог верхнего уровня своего сайта (или в в корневом каталоге домена);
  • файл должен называться robots.txt.

Например, файл robots.txt, сохраненный в корневой каталог example.com по адресу http://www.example.com/robots.txt, доступен поисковым роботам. Если же он сохранен по адресу  http://www.example.com/название_каталога/robots.txt, никакой поисковый робот не сможет его обнаружить.

Была ли эта статья полезна?
Как можно улучшить эту статью?