Feedfetcher

Мы используем агент пользователя Feedfetcher, чтобы получать данные из фидов RSS или Atom для Google Play Прессы и PubSubHubbub. Этот инструмент собирает и периодически обновляет активированные пользователем фиды, но не индексирует их в поиске по блогам и других поисковых сервисах Google (фиды появляются в результатах поиска только в том случае, если они просканированы роботом Googlebot). Вот ответы на часто задаваемые вопросы о Feedfetcher.


Как запретить роботам Google обрабатывать какие-либо (или все) фиды на моем сайте?

Когда пользователь добавляет сервис или приложение, которое использует данные Feedfetcher, этот инструмент пытается загрузить содержание фида, чтобы показать его. Поскольку запросы этого робота не отправляются автоматически, а являются результатом действий пользователей, он не соблюдает инструкции, указанные в файле robots.txt.

Если ваш фид является общедоступным, Google не может ограничить пользователям доступ к нему. Попробуйте настроить сервер так, чтобы он выдавал агенту пользователя Feedfetcher-Google сообщения об ошибках 404, 410 и т. д.

Если фид предоставляется в составе хостинга или платформы для блогов, свяжитесь с представителем этого сервиса.

Часто ли Feedfetcher извлекает мои фиды?

Обычно не чаще, чем один раз в час. Некоторые сайты могут обновляться быстрее. Но если в сети наблюдаются задержки, Feedfetcher может сканировать данные немного чаще.

Почему Feedfetcher пытается загружать неверные ссылки с моего или с несуществующего сервера?

Feedfetcher извлекает фиды по запросам сервисов или приложений, установленных пользователем. Возможно, в одном из таких запросов указан неверный URL.

Почему Feedfetcher загружает информацию с нашего секретного веб-сервера?

Feedfetcher извлекает фиды по запросам сервисов или приложений, установленных пользователем. Возможно, эти запросы приходят от пользователя, который знает про ваш секретный сервер или указал его по ошибке.

Почему Feedfetcher игнорирует мой файл robots.txt?

Feedfetcher получает фиды после того, как пользователь запустил сервис или приложение, которому необходимы данные фида. Feedfetcher не является роботом, он выполняет роль непосредственного агента пользователя, поэтому он не учитывает записи в файле robots.txt. При этом Feedfetcher обладает одним преимуществом – он экономит трафик сервера, поскольку он обращается к каждому из основных фидов как несколько агентов пользователя одновременно.

Если вы не хотите, чтобы инструмент Feedfetcher сканировал ваш сайт, настройте сервер так, чтобы он выдавал агенту пользователя Feedfetcher-Google сообщения об ошибках 404, 410 и т. д.

Почему к моему сайту обращаются несколько компьютеров в домене google.com, у каждого из которых в качестве агента пользователя указан Feedfetcher?

Feedfetcher предназначен для распределенной работы на нескольких компьютерах. Это обеспечивает эффективность и масштабирование системы по мере роста числа сайтов в Интернете. В целях сокращения трафика используемые компьютеры часто размещают в сети рядом с сайтами, с которых они получают данные.

Могу ли я узнать IP-адреса, с которых Feedfetcher выполняет запросы, чтобы отфильтровать их в журналах?

IP-адреса, которые использует Feedfetcher, время от времени меняются. Лучший способ идентифицировать обращения Feedfetcher – по заголовку запроса User-agent: Feedfetcher-Google.

Почему Feedfetcher скачивает с сайта одну и ту же страницу несколько раз?

Как правило, Feedfetcher при получении фида должен загружать с сайта одну копию каждого файла. Но в редких случаях, при отключении и перезагрузке компьютеров, может наблюдаться повторная загрузка одних и тех же страниц.

По каким ссылкам переходит Feedfetcher?

В отличие от обычных поисковых роботов, Feedfetcher не переходит по ссылкам. Вместо этого он выполняет запросы, которые были созданы пользователями сервиса или приложения, использующего Feedfetcher.

В этой статье нет ответа на мой вопрос о Feedfetcher. Как его найти?

Посетите наш справочный форум.

Эта информация оказалась полезной?
Как можно улучшить эту статью?