Общие сведения о файлах robots.txt

В файле robots.txt содержатся инструкции, которые говорят поисковым роботам, какие URL на вашем сайте им разрешено обрабатывать. С его помощью можно ограничить количество запросов на сканирование и тем самым снизить нагрузку на сайт. Файл robots.txt не предназначен для того, чтобы запрещать показ ваших материалов в результатах поиска Google. Если вы не хотите, чтобы какие-либо страницы с вашего сайта были представлены в Google, добавьте на них директиву noindex или сделайте их доступными только по паролю.

Если вы используете систему управления контентом, например Wix или Blogger, то вам вряд ли потребуется редактировать файл robots.txt напрямую (не исключено, что у вас даже не будет такой возможности). Вместо этого система управления контентом будет с помощью страницы настроек поиска или другого инструмента указывать поисковым системам, нужно ли сканировать ваши материалы.

Если же вы хотите самостоятельно запретить или разрешить поисковым системам обработку определенной страницы вашего сайта, попробуйте найти информацию о том, как управлять видимостью страниц в вашей системе управления контентом. Пример запроса: "wix как скрыть страницу от поисковых систем".

Для чего служит файл robots.txt

Файл robots.txt используется прежде всего для управления трафиком поисковых роботов на вашем сайте. Как правило, с его помощью также можно исключить контент из результатов поиска Google (это зависит от типа контента).

Как директивы из файла robots.txt обрабатываются при сканировании файлов разного типа

Веб-страница

Как директивы из файла robots.txt обрабатываются при сканировании файлов разного типа
Веб-страница	Файл robots.txt позволяет управлять сканированием веб-страниц в форматах, которые робот Googlebot может обработать (он поддерживает, например, HTML или PDF, но не мультимедийные файлы). С его помощью вы можете уменьшить количество запросов, которые Google отправляет вашему серверу, или запретить сканировать разделы сайта, в которых содержится неважная или повторяющаяся информация. Файл robots.txt не предназначен для блокировки показа веб-страниц (в том числе файлов PDF и других текстовых форматов, поддерживаемых Google) в результатах поиска Google. Если на определенную страницу ведут ссылки с информативным текстом, размещенные на других сайтах, то робот Googlebot может добавить ее в индекс, даже не открывая. Чтобы исключить ее из результатов поиска, следует использовать другой метод, например заблокировать доступ к ней с помощью пароля или директивы `noindex`. Страницы, сканирование которых запрещено в файле robots.txt, все равно могут показываться в результатах поиска, но без описания. Это относится только к контенту в формате HTML. Материалы другого формата (например, файлы PDF, изображения или видео), размещенные на заблокированной странице, будут допущены к сканированию, только если на них ссылаются другие страницы, сканирование которых разрешено. Если результат поиска со ссылкой на вашу страницу не содержит описания, удалите в файле robots.txt запись, которая препятствует обработке контента. Чтобы полностью исключить страницу из Google Поиска, следует использовать другие методы.
Медиафайл	Файл robots.txt может использоваться как для управления трафиком поисковых роботов, так и для блокировки показа изображений, видеороликов и аудиофайлов в результатах поиска Google. Такая блокировка не помешает другим владельцам сайтов и пользователям размещать ссылки на ваш медиаконтент. Советуем ознакомиться со следующими статьями: Как исключить из Google Поиска результаты с изображениями Как запретить или ограничить показ ваших видеофайлов в Google
Ресурсный файл	При помощи файла robots.txt вы можете запретить сканирование таких ресурсов, как второстепенные изображения, скрипты и файлы стилей, если считаете, что они лишь в незначительной степени влияют на оформление страниц. Однако не следует блокировать доступ к ним, если это может затруднить поисковому роботу интерпретацию контента. В противном случае страницы могут быть проанализированы неправильно.

Файл robots.txt позволяет управлять сканированием веб-страниц в форматах, которые робот Googlebot может обработать (он поддерживает, например, HTML или PDF, но не мультимедийные файлы). С его помощью вы можете уменьшить количество запросов, которые Google отправляет вашему серверу, или запретить сканировать разделы сайта, в которых содержится неважная или повторяющаяся информация.

Файл robots.txt не предназначен для блокировки показа веб-страниц (в том числе файлов PDF и других текстовых форматов, поддерживаемых Google) в результатах поиска Google.

Если на определенную страницу ведут ссылки с информативным текстом, размещенные на других сайтах, то робот Googlebot может добавить ее в индекс, даже не открывая. Чтобы исключить ее из результатов поиска, следует использовать другой метод, например заблокировать доступ к ней с помощью пароля или директивы noindex.

Страницы, сканирование которых запрещено в файле robots.txt, все равно могут показываться в результатах поиска, но без описания. Это относится только к контенту в формате HTML. Материалы другого формата (например, файлы PDF, изображения или видео), размещенные на заблокированной странице, будут допущены к сканированию, только если на них ссылаются другие страницы, сканирование которых разрешено. Если результат поиска со ссылкой на вашу страницу не содержит описания, удалите в файле robots.txt запись, которая препятствует обработке контента. Чтобы полностью исключить страницу из Google Поиска, следует использовать другие методы.

Медиафайл

Файл robots.txt может использоваться как для управления трафиком поисковых роботов, так и для блокировки показа изображений, видеороликов и аудиофайлов в результатах поиска Google. Такая блокировка не помешает другим владельцам сайтов и пользователям размещать ссылки на ваш медиаконтент. Советуем ознакомиться со следующими статьями:

Ресурсный файл При помощи файла robots.txt вы можете запретить сканирование таких ресурсов, как второстепенные изображения, скрипты и файлы стилей, если считаете, что они лишь в незначительной степени влияют на оформление страниц. Однако не следует блокировать доступ к ним, если это может затруднить поисковому роботу интерпретацию контента. В противном случае страницы могут быть проанализированы неправильно.

Каковы ограничения при использовании файла robots.txt

Прежде чем создавать или изменять файл robots.txt, проанализируйте риски, связанные с этим методом. Иногда для запрета индексирования URL лучше выбирать другие средства.

Правила robots.txt поддерживаются не всеми поисковыми системами.
Правила в файлах robots.txt необязательны для исполнения. Googlebot и большинство других поисковых роботов следуют этим инструкциям, однако некоторые системы могут игнорировать их. Чтобы надежно скрыть информацию от поисковых роботов, воспользуйтесь другими способами. Например, вы можете защитить конфиденциальные файлы на сервере паролем.
Разные поисковые роботы интерпретируют синтаксис файлов robots.txt по-разному.
Хотя роботы основных поисковых систем следуют правилам в файле robots.txt, каждый из них может интерпретировать их по-своему. Поэтому ознакомьтесь с синтаксисом для других систем.
Если доступ к странице запрещен в файле robots.txt, она все равно может быть проиндексирована по ссылкам с других сайтов.
Google не будет напрямую сканировать и индексировать контент, который заблокирован в файле robots.txt. Однако если на такой URL ссылаются другие сайты, то он все равно может быть найден и добавлен в индекс. После этого страница может появиться в результатах поиска (во многих случаях вместе с текстом ссылки, которая на нее ведет). Если вас это не устраивает, рекомендуем защитить файлы на сервере паролем или использовать директиву noindex в теге meta или HTTP-заголовке ответа. Альтернативное решение – полностью удалить страницу.

Как создать или изменить файл robots.txt

Ознакомьтесь с инструкциями по созданию файла robots.txt. Если у вас уже есть такой файл, узнайте, как изменить его.

Если вам нужна дополнительная информация, воспользуйтесь следующими ресурсами: