Как консолидировать повторяющиеся URL

Как указать каноническую страницу из числа одинаковых или похожих

Если у вас есть одна страница, доступная по нескольким URL, или разные страницы с похожим контентом (например, версии для мобильных устройств и компьютеров), Google будет считать один URL каноническим, а остальные – его копиями. Сканирование канонического URL будет выполняться намного чаще, чем его копий. 

Сообщите нам, какой из URL является каноническим. В противном случае мы выберем его самостоятельно или будем считать оба адреса равноценными, а это может привести к нежелательным последствиям. Дополнительные сведения представлены в разделе ниже, где говорится о том, для чего нужно выбирать канонический URL.

Что такое канонический URL
Каноническим называется URL страницы, которую роботы Google считают главной среди нескольких ее вариантов на вашем сайте. Например, если одна и та же страница размещена по нескольким URL, таким как example.com?dress=1234 и example.com/dresses/1234, одна из версий будет выбрана в качестве канонической. Обратите внимание, что страницы могут быть не полностью идентичными. Они могут различаться, например, настройками фильтров или сортировки (сортировка по цене или фильтрация товаров по цвету не делают страницу уникальной).
Домен канонической страницы может отличаться от домена дубликата.
Дополнительные сведения
Когда робот Googlebot индексирует сайты, он старается определить основной контент на каждой странице. Если на одном сайте есть несколько похожих страниц, робот выбирает в качестве канонической ту из них, содержание которой он интерпретирует как наиболее полное и полезное. Она будет сканироваться наиболее часто, а ее копии и варианты – реже. Это позволяет снизить нагрузку на ваш сайт, связанную с индексированием.
Канонические страницы выбираются по ряду критериев, также называемых сигналами. Примеры сигналов: протокол (http или https), предпочтительный для пользователя домен, качество страницы, присутствие URL в файле Sitemap, а также наличие маркера rel=canonical. Даже если вы сообщите Google о своем выборе описанными в этой статье способами, по различным причинам в качестве канонической может быть выбрана иная страница.
Версии одной страницы на разных языках считаются дубликатами, только если основной контент написан на одном и том же языке. Например, если переведены лишь колонтитулы и прочие незначительные текстовые элементы, а основные материалы представлены на одном языке, такие страницы будут считаться дубликатами.
Мы оцениваем контент по каноническим страницам и показываем в результатах поиска именно их, за исключением случаев, когда другой вариант страницы в большей степени подходит для пользователя или его устройства.

Почему на сайтах бывают похожие или повторяющиеся страницы?

Разные URL, ведущие на одну и ту же, одинаковые или очень похожие страницы, могут возникать в следующих ситуациях:

  • когда нужна поддержка нескольких типов устройств;
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
    
  • чтобы создавать динамические URL с такими параметрами, как критерии поиска или идентификаторы сеансов;
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • если в вашем блоге автоматически создаются разные URL для одной и той же записи, размещаемой в нескольких разделах;
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • если ваш сервер показывает один и тот же контент по адресам с префиксом www и протоколом http или https;
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • если содержание блога, предназначенное для распространения на нескольких сайтах, полностью или частично повторяется в других доменах.
    https://news.example.com/green-dresses-for-every-day-155672.html (скопированная запись) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (исходная запись)

Для чего выбирать канонический URL?

Указывать каноническую страницу из числа одинаковых или похожих стоит в следующих случаях:

  • Если нужно выбрать, какой URL следует показывать в результатах поиска. Предположим, вы хотите, чтобы посетители переходили на страницу с описанием платьев зеленого цвета по адресу https://www.example.com/dresses/green/greendress.html, а не https://example.com/dresses/cocktail?gclid=ABCD.
  • Для консолидации переходов на одинаковые или повторяющиеся страницы. Это поможет поисковым системам связать материалы, опубликованные на разных страницах, с одним основным адресом. В результате ссылки с других сайтов на страницу http://example.com/dresses/cocktail?gclid=ABCD будут объединены со ссылками на https://www.example.com/dresses/green/greendress.html.
  • Чтобы упростить получение статистики по отдельным товарам или темам. Если контент размещен на нескольких страницах с разными URL, это затрудняет получение обобщенной статистики по нему.
  • Для управления скопированным контентом. Если вы размещаете свои материалы по различным URL, потребуется задать самый высокий рейтинг для исходной страницы.
  • Чтобы оптимизировать затраты ресурсов на сканирование повторяющихся страниц. Желательно, чтобы роботу Googlebot не приходилось сканировать множество вариантов страниц, например предназначенных для разных типов устройств или обновляемых. В противном случае поисковая индексация вашего сайта не будет выполняться эффективно.

Как узнать, какой URL роботы Google считают каноническим?

Чтобы узнать, какую страницу Google считает канонической, воспользуйтесь инструментом проверки URL. Обратите внимание, что, даже если вы укажете ее, Google может выбрать другую. Это зависит от многих факторов, например от представленных на странице материалов или ее эффективности в Google Поиске.

Устранение неполадок

Если канонический URL относится к ресурсу, который вам не принадлежит, вы не сможете отслеживать трафик на повторяющейся странице. Ниже перечислены основные причины, по которым канонический URL может принадлежать к отдельному ресурсу.
  • Неправильно отмеченные языковые варианты. Если на нескольких ваших сайтах размещен практически одинаковый контент на разных языках, следуйте нашим рекомендациям в отношении локализованных версий страниц.
  • Ошибки в тегах с атрибутом rel="canonical". Некоторые системы управления контентом или их плагины могут неправильно выполнять нормализацию, указывая на внешние URL. Проверьте, не в этом ли заключается проблема. Если ваш сайт указывает на неверный канонический URL, возможно, это происходит из-за некорректного использования атрибута rel="canonical" или переадресации 301. Вы можете сами исправить эту проблему.
  • Ошибки в настройках серверов. Неправильный выбор основного URL вне вашего домена может быть связан с ошибками в настройках серверов, на которых размещен контент. Пример:
    • В ответ на запрос URL с b.ru сервер может показывать содержание с сайта a.ru.
    • Два не связанных между собой сервера могут выдавать одинаковые страницы ложных ошибок 404, которые не распознаются Google как сообщения об ошибках.
  • Злонамеренный взлом сайта. Некоторые виды атак приводят к добавлению на сайт кода, который выдает переадресацию 301 HTTP или вставляет междоменный элемент link с атрибутом rel=”canonical” в раздел <head> HTML или заголовок HTTP. В результате пользователь попадает на сайт, который содержит вредоносное ПО или спам. В таких случаях вместо настоящего URL взломанного сайта алгоритмы Google могут выбрать URL, указанный злоумышленником.
  • Кража контента. В редких случаях алгоритмы Google могут выбрать URL внешней страницы, на которой без разрешения размещены копии ваших материалов. Если ваш контент был размешен на другом сайте в нарушение авторских прав, вы можете обратиться к владельцу сервера этого сайта с просьбой убрать контент. Вы также можете запросить в Google удаление страницы с украденными материалами из результатов поиска в связи с нарушением закона США "Об авторском праве в цифровую эпоху" (DMCA).

Как указать каноническую страницу

Существует несколько способов указать каноническую страницу из числа повторяющихся:

Способ Описание
Общие положения Все способы канонизации URL приведены по этой ссылке.
Указание основного домена

В Search Console вы можете указать URL в одном домене как канонический для аналогичных страниц в другом домене, например example.com для www.example.com. Этот способ подходит, только если у вас есть два похожих сайта, которые отличаются лишь доменом. Не используйте этот способ для URL, отличающихся протоколом – http и https.

Плюсы

  • Очень легко реализовать и изменять.
  • Применимо, если у вас идентичные сайты в разных доменах.

Минусы

  • Работает только на уровне домена. Чтобы страницы распознавались как повторяющиеся, у них должны быть одинаковые адреса и названия.
  • Каждая страница на одном домене может соответствовать лишь одной странице на другом домене, при этом их пути должны совпадать.
Тег rel=canonical <link>

Добавьте в код всех повторяющихся страниц тег <link>.

Плюсы

  • Так можно пометить сколько угодно страниц.

Минусы

  • Увеличивает размер страницы.
  • Разметка на крупных сайтах или ресурсах, на которых URL часто меняются, отнимает много усилий.
  • Работает только с HTML-страницами, но не с файлами, такими как PDF. Для последних можно использовать атрибут rel=canonical в HTTP-заголовке.
HTTP-заголовок rel=canonical

Включите в ответ страницы заголовок rel=canonical.

Плюсы

  • Не увеличивает размер страницы.
  • Так можно пометить сколько угодно страниц.

Минусы

  • Разметка на крупных сайтах или ресурсах, на которых URL часто меняются, отнимает много усилий.
Файл Sitemap

Укажите канонические страницы в файле Sitemap.

Плюсы

  • Легко настроить и обновлять, особенно на крупных сайтах.

Минусы

  • Роботу Googlebot тем не менее нужно определить повторяющуюся страницу для каждой канонической, которую вы укажете в файле Sitemap.
  • Менее значимый сигнал для робота Googlebot, чем атрибут rel=canonical.
Код статуса 301 Используйте код статуса 301, чтобы сообщить роботу Googlebot, что URL, заданный в качестве нового адреса страницы, ведет на ее более актуальную версию.
Вариант страницы в формате AMP Если один из вариантов страницы – AMP, укажите каноническую страницу и ее варианты согласно инструкциям для AMP.

 

Мы рекомендуем использовать перечисленные выше методы, однако ни один из них не является обязательным. Если вы не укажете канонический URL, мы попытаемся определить его самостоятельно.

Общие положения

Ниже приведены общие инструкции по указанию канонических URL.

Общие положения
  • Не обозначайте канонические страницы с помощью файла robots.txt.
  • Не используйте инструмент удаления URL для указания канонической страницы: в этом случае из результатов поиска будут удалены все варианты URL.
  • Не указывайте разные URL одной страницы в качестве канонических одним и тем же или разными способами (например, не надо вводить один URL в файле Sitemap и другой – в атрибуте rel="canonical").
  • Не пытайтесь предотвратить выбор канонической страницы, применяя директиву noindex. Она предназначена для исключения страницы из индекса. 
  • Обязательно выделяйте каноническую страницу при использовании атрибутов hreflang. Выбирайте для этого страницу на том же языке или ее вариант на наиболее близком языке.

  • Используйте канонический URL при настройке ссылок на своем сайте. Это поможет нам понять, какую страницу вы считаете приоритетной.

О преимуществах HTTPS по сравнению с HTTP в канонических URL

При определении канонических ссылок Google отдает предпочтение страницам HTTPS, если при этом не возникают проблемы, например следующие:

  • Страница HTTPS использует недействительный сертификат SSL.
  • Страница HTTPS содержит небезопасные зависимости (кроме изображений).
  • Страница HTTPS выполняет переадресацию на страницу HTTP.
  • Страница HTTPS указывает на страницу HTTP с помощью атрибута rel="canonical".

Кроме того, вы можете дополнительно указать, что адресу HTTPS следует отдавать предпочтение. Вот как это сделать:

  • Добавьте переадресацию с HTTP-страницы на HTTPS.
  • Добавьте ссылку rel="canonical", ведущую со страницы HTTP на страницу HTTPS.
  • Используйте протокол HSTS.

Как предотвратить использование страницы HTTP в качестве канонической:

  • Проверяйте сертификаты SSL, а также ссылки со страницы HTTPS на HTTP. Ошибки в них могут привести к тому, что каноническим будет считаться адрес HTTP. При этом реализация протокола HSTS не имеет значения.
  • В файлах Sitemap и компонентах hreflang указывайте страницу HTTPS, а не HTTP.
  • Не используйте сертификат SSL/TLS для некорректного хоста (например, если example.com передает сертификат для www.example.com).  Этот сертификат должен соответствовать полному URL сайта или являться групповым, то есть пригодным для использования на нескольких субдоменах.

Только для опытных пользователей: как заставить роботов Google игнорировать динамические параметры

Вы можете сообщить Google о параметрах, которые следует игнорировать. Подробные сведения представлены в Справочном центре. При использовании этой функции наши роботы не будут обрабатывать повторяющийся контент, что упростит им работу. Например, если вы укажете, что нужно проигнорировать параметр sessionid, мы посчитаем идентичными следующие страницы:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

Способы

Указать канонический URL для повторяющихся URL или похожих страниц можно одним из способов, описанных ниже.

Какой бы способ вы ни выбрали, обязательно следуйте приведенным выше общим рекомендациям.

Указание основного домена

С помощью Search Console сообщите Google, какой вариант URL нужно использовать для вашего сайта, например:

  • https://www.example.com
  • https://example.com

Если в качестве основного вы выберете домен https://example.com, Google будет считать ссылки на www.example.com вариантами для example.com.

Подробнее о выборе основного домена...

Используйте атрибут rel="canonical"

Используйте в заголовке страницы тег <link>. Он указывает, что соответствующая страница копирует другую.

Предположим, вы хотите указать страницу https://example.com/dresses/green-dresses, содержание которой воспроизводится на других, в качестве канонической. Выполните следующие действия:

  1. Пометьте все повторяющиеся страницы с помощью элемента link с атрибутом rel="canonical". Добавьте в раздел <head> этих страниц элемент <link>, содержащий атрибут rel="canonical" и ссылку на каноническую страницу:
    <link rel="canonical" href="https://example.com/dresses/green-dresses" />

  2. Если у канонической страницы есть вариант для мобильных устройств, добавьте элемент link с атрибутом rel="alternate" и ссылкой на мобильную версию:
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="http://m.example.com/dresses/green-dresses">

  3. В случае необходимости добавьте атрибуты hreflang или настройте переадресацию другими способами.

Элементы link с атрибутом rel="canonical" должны содержать абсолютные пути, а не относительные.

Используйте следующую структуру URL: https://www.example.com/dresses/green/greendress.html
Не применяйте такой вариант: /dresses/green/greendress.html
Используйте HTTP-заголовок rel="canonical"

Если у вас есть доступ к настройкам сервера, можно указывать канонический URL для документов в формате, отличном от HTML (например, PDF), с помощью атрибута rel="canonical" в заголовках HTTP (а не с помощью HTML-тегов).

Например, если на вашем сайте по нескольким разным URL доступен файл PDF, можно возвращать заголовок HTTP rel="canonical", чтобы сообщить роботу Googlebot, какой из этих URL является каноническим:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

В настоящее время этот способ поддерживается только для веб-поиска.

Элементы link с атрибутом rel="canonical" должны содержать абсолютные пути, а не относительные. Подробнее:
Правильно: http://www.example.com/downloads/white-paper.pdf
Неправильно: /downloads/white-paper.pdf
Используйте файл Sitemap

Укажите канонический URL для каждой страницы в файле Sitemap. Все страницы в нем предлагаются в качестве канонических. Googlebot будет определять, какие из них являются повторяющимися (при наличии), по их контенту.

Мы не гарантируем, что URL в файле Sitemap будут рассматриваться как канонические во всех случаях. Но в целом это удобный способ для определения приоритетных URL на крупном сайте.

Не включайте в файл Sitemap неканонические страницы, если вы его используете.

Используйте код статуса 301 для URL удаленных страниц

Это позволяет исключить устаревшие адреса и обеспечить переадресацию на новые.

Предположим, на вашу страницу можно перейти по следующим URL:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Выберите один из этих адресов в качестве канонического и используйте переадресацию 301 на стороне сервера, чтобы перенаправлять на данный адрес трафик с других URL. Это один из самых надежных способов обеспечить переход пользователей и поисковых систем на нужную страницу. Код статуса 301 означает, что запрашиваемая страница находится по другому адресу.

Если у вас есть доступ к сервису веб-хостинга, попробуйте найти в представленных на нем справочных материалах документацию по настройке переадресаций 301.

Эта информация оказалась полезной?
Как можно улучшить эту статью?