Как консолидировать повторяющиеся URL

Как указать каноническую страницу из числа одинаковых или похожих

Обзор

Если у вас есть одна страница, доступная по нескольким URL, или разные страницы с похожим контентом (например, версии для мобильных устройств и компьютеров), Google будет считать один URL каноническим, а остальные – его копиями. Сканирование канонического URL будет выполняться намного чаще, чем его копий. 

Сообщите нам, какой из URL является каноническим. В противном случае мы выберем его самостоятельно или будем считать оба адреса равноценными, а это может привести к нежелательным последствиям. Дополнительные сведения представлены в разделе ниже, где говорится о том, для чего нужно выбирать канонический URL.

Дополнительные сведения
Ниже приводится узкоспециальная информация о нормализации. Пользователям наших сервисов нет необходимости знакомиться с ней, но она может оказаться любопытной для тех, кто интересуется этой областью веб-технологий.
Когда робот Googlebot индексирует сайты, он старается определить тему каждой страницы. Если на одном сайте есть несколько страниц об одном и том же, робот выбирает в качестве канонической ту, содержимое которой представляется наиболее полным и полезным. Она будет сканироваться наиболее часто, а ее копии и варианты – реже, чтобы не расходовать мощности Google на излишнее индексирование вашего сайта. Поэтому, если вы не укажете страницу как каноническую и робот Googlebot включит в наш поисковый индекс другую, ваши усилия по обновлению контента на этой странице окажутся напрасными.
Мы судим о качестве контента вашего сайта по каноническим страницам и показываем в результатах поиска именно их, за исключением случаев, когда другой вариант страницы лучше подходит для запроса или устройства пользователя.
Канонические страницы выбираются по ряду критериев (или сигналов), например протоколу (http или https), предпочтительному для пользователя домену, качеству страницы, присутствию URL в файле Sitemap, а также наличию маркера rel=canonical. Невозможно напрямую указать Google, какой URL следует использовать, но вы можете повлиять на выбор с помощью одного или нескольких способов, описанных в этой статье.

 

Почему на сайтах бывают похожие или повторяющиеся страницы?

Разные URL, ведущие на одну и ту же, одинаковые или очень похожие страницы, могут возникать в следующих ситуациях:

  • когда нужна поддержка нескольких типов устройств;
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
    
  • чтобы создавать динамические URL с такими параметрами, как критерии поиска или идентификаторы сеансов;
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • если в вашем блоге автоматически создаются разные URL для одной и той же записи, размещаемой в нескольких разделах;
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • если ваш сервер показывает один и тот же контент по адресам с префиксом www и протоколом http или https;
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • если содержание блога, предназначенное для распространения на нескольких сайтах, полностью или частично повторяется в других доменах.
    https://news.example.com/green-dresses-for-every-day-155672.html (скопированная запись) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (исходная запись)

Для чего выбирать канонический URL?

Указывать каноническую страницу из числа одинаковых или похожих стоит в следующих случаях:

  • Если нужно выбрать, какой URL следует показывать в результатах поиска. Предположим, вы хотите, чтобы посетители переходили на страницу с описанием платьев зеленого цвета по адресу https://www.example.com/dresses/green/greendress.html, а не https://example.com/dresses/cocktail?gclid=ABCD.
  • Для консолидации переходов на одинаковые или повторяющиеся страницы. Это поможет поисковым системам связать материалы, опубликованные на разных страницах, с одним основным адресом. В результате ссылки с других сайтов на страницу http://example.com/dresses/cocktail?gclid=ABCD будут объединены со ссылками на https://www.example.com/dresses/green/greendress.html.
  • Чтобы упростить получение статистики по отдельным товарам или темам. Если контент размещен на нескольких страницах с разными URL, это затрудняет получение обобщенной статистики по нему.
  • Для управления скопированным контентом. Если вы размещаете свои материалы по различным URL, потребуется задать самый высокий рейтинг для исходной страницы.
  • Чтобы оптимизировать затраты ресурсов на сканирование повторяющихся страниц. Позаботьтесь о том, чтобы роботу Googlebot не приходилось сканировать множество вариантов страниц для разных типов устройств и т. п. Тогда поисковая индексация вашего сайта будет более эффективной.

Какие страницы Google считает копиями или вариантами и как выбирает канонические URL

Чтобы узнать, какую страницу Google считает канонической, воспользуйтесь инструментом проверки URL. Обратите внимание, что, даже если вы укажете ее, Google может выбрать другую. Это зависит от многих факторов, например от представленных на странице материалов или ее эффективности в Google Поиске.

Как указать каноническую страницу

Существует несколько способов указать каноническую страницу из числа повторяющихся:

Способ Описание
Общие положения Все способы канонизации URL приведены по этой ссылке.
Указание основного домена

В Search Console вы можете указать URL в одном домене как канонический для аналогичных страниц в другом домене, например example.com для www.example.com. Этот способ подходит, только если у вас есть два похожих сайта, которые отличаются лишь доменом. Не используйте этот способ для URL, отличающихся протоколом – http и https.

Плюсы

  • Очень легко реализовать и изменять.
  • Применимо, если у вас идентичные сайты в разных доменах.

Минусы

  • Работает только на уровне домена. Чтобы страницы распознавались как повторяющиеся, у них должны быть одинаковые адреса и названия.
  • Каждая страница на одном домене может соответствовать лишь одной странице на другом домене, при этом их пути должны совпадать.
Тег rel=canonical <link>

Добавьте в код всех повторяющихся страниц тег <link>.

Плюсы

  • Так можно пометить сколько угодно страниц.

Минусы

  • Увеличивает размер страницы.
  • Разметка на крупных сайтах или ресурсах, на которых URL часто меняются, отнимает много усилий.
  • Работает только с HTML-страницами, но не с файлами, такими как PDF. Для последних можно использовать атрибут rel=canonical в HTTP-заголовке.
HTTP-заголовок rel=canonical

Включите в ответ страницы заголовок rel=canonical.

Плюсы

  • Не увеличивает размер страницы.
  • Так можно пометить сколько угодно страниц.

Минусы

  • Разметка на крупных сайтах или ресурсах, на которых URL часто меняются, отнимает много усилий.
Файл Sitemap

Укажите канонические страницы в файле Sitemap.

Плюсы

  • Легко настроить и обновлять, особенно на крупных сайтах.

Минусы

  • Роботу Googlebot тем не менее нужно определить повторяющуюся страницу для каждой канонической, которую вы укажете в файле Sitemap.
  • Менее значимый сигнал для робота Googlebot, чем атрибут rel=canonical.
Код статуса 301 Используйте код статуса 301, чтобы сообщить роботу Googlebot, что URL, заданный в качестве нового адреса страницы, ведет на ее более актуальную версию.
Вариант страницы в формате AMP Если один из вариантов страницы – AMP, укажите каноническую страницу и ее варианты согласно инструкциям для AMP.

 

Мы рекомендуем использовать перечисленные выше методы, однако ни один из них не является обязательным. Если вы не укажете канонический URL, мы попытаемся определить его самостоятельно.

Общие положения

Ниже приведены общие инструкции по указанию канонических URL.

Общие положения
  • Не указывайте канонические страницы в файле robots.txt.
  • Не используйте инструмент удаления URL для указания канонической страницы: в этом случае из результатов поиска будут удалены все варианты адреса.
  • Не указывайте разные URL одной страницы в качестве канонических одним и тем же или разными способами (например, когда в файле Sitemap указан один URL, а в атрибуте rel="canonical" – другой).
  • Не пытайтесь предотвратить выбор канонической страницы с помощью атрибута noindex. Он предназначен для исключения страницы из индекса. 
  • Обязательно указывайте каноническую страницу при использовании атрибута hreflang. Выбирайте для этого страницу на том же языке или ее вариант на наиболее близком языке.

О преимуществе HTTPS над HTTP в канонических ссылках

При определении канонических ссылок Google отдает предпочтение страницам HTTPS, если при этом не возникают проблемы, например следующие:

  • Страница HTTPS использует недействительный сертификат SSL.
  • Страница HTTPS содержит небезопасные зависимости (кроме изображений).
  • Страница HTTPS выполняет переадресацию на страницу HTTP.
  • Страница HTTPS указывает на страницу HTTP с помощью атрибута rel="canonical".

Кроме того, вы можете дополнительно указать, что адресу HTTPS следует отдавать предпочтение. Вот как это сделать:

  • Добавьте переадресацию с HTTP-страницы на HTTPS.
  • Добавьте ссылку rel="canonical", ведущую со страницы HTTP на страницу HTTPS.
  • Используйте протокол HSTS.

Как предотвратить использование страницы HTTP в качестве канонической:

  • Проверяйте сертификаты SSL, а также ссылки со страницы HTTPS на HTTP. Ошибки в них могут привести к тому, что каноническим будет считаться адрес HTTP. При этом реализация протокола HSTS не имеет значения.
  • В файлах Sitemap и компонентах hreflang указывайте страницу HTTPS, а не HTTP.
  • Не используйте сертификат SSL/TLS для некорректного хоста (например, если example.com передает сертификат для www.example.com).  Этот сертификат должен соответствовать полному URL сайта или являться групповым, то есть пригодным для использования на нескольких субдоменах.

Как сделать, чтобы Googlebot игнорировал динамические параметры

Вы можете сообщить Google о параметрах, которые следует игнорировать. Подробнее написано здесь. При использовании этой функции наши роботы не будут обрабатывать повторяющийся контент, что упростит им работу. Например, если вы укажете, что нужно проигнорировать параметр sessionid, мы посчитаем идентичными следующие страницы:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

Способы

Указать канонический URL для повторяющихся URL или похожих страниц можно одним из способов, описанных ниже.

Какой бы способ вы ни выбрали, обязательно следуйте приведенным выше общим рекомендациям.

Указание основного домена

С помощью Search Console сообщите Google, какой вариант URL нужно использовать для вашего сайта, например:

  • https://www.example.com
  • https://example.com

Если в качестве основного вы выберете домен https://example.com, Google будет считать ссылки на www.example.com вариантами для example.com.

Подробнее о выборе основного домена...

Используйте атрибут rel="canonical"

Используйте в заголовке страницы тег <link>. Он указывает, что соответствующая страница копирует другую.

Предположим, вы хотите указать страницу https://example.com/dresses/green-dresses, содержание которой воспроизводится на других, в качестве канонической. Выполните следующие действия:

  1. Пометьте все повторяющиеся страницы при помощи элемента link rel="canonical". Добавьте в раздел <head> этих страниц элемент <link> с атрибутом rel="canonical", ссылающимся на каноническую страницу:
    <link rel="canonical" href="https://example.com/dresses/green-dresses" />

  2. Если у канонической страницы есть мобильная версия, добавьте на канонический вариант страницы ссылку rel="alternate", указывающую на эту версию:
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="http://m.example.com/dresses/green-dresses">

  3. Добавьте атрибут hreflang или другую необходимую переадресацию.

Используйте абсолютные пути, а не относительные, если вы работаете с элементом link rel="canonical".

Используйте следующую структуру URL: https://www.example.com/dresses/green/greendress.html
Не применяйте такие варианты: /dresses/green/greendress.html.
Используйте HTTP-заголовок rel="canonical"

Если у вас есть доступ к настройкам сервера, можно указывать канонический URL для документов в формате, отличном от HTML (таком как PDF), с помощью атрибута rel="canonical" в заголовках HTTP (а не с помощью HTML-тегов).

Например, если на вашем сайте по нескольким разным URL доступен файл PDF, можно возвращать заголовок HTTP rel="canonical", чтобы сообщить роботу Googlebot, какой из этих URL является каноническим:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

В настоящее время этот способ поддерживается только для веб-поиска.

Используйте абсолютные пути, а не относительные, если вы работаете с элементом link rel="canonical". Подробнее:
Правильно: http://www.example.com/downloads/white-paper.pdf
Неправильно: /downloads/white-paper.pdf
Используйте файл Sitemap

Укажите канонический URL для каждой страницы в файле Sitemap. Все страницы в нем предлагаются в качестве канонических. Googlebot будет определять, какие из них являются повторяющимися (при наличии), по их контенту.

Мы не гарантируем, что URL в файле Sitemap будут рассматриваться как канонические во всех случаях. Но в целом это удобный способ для определения приоритетных URL на крупном сайте.

Не включайте в файл Sitemap неканонические страницы, если вы его используете.

Используйте код статуса 301 для URL удаленных страниц

Это позволяет исключить устаревшие адреса и обеспечить переадресацию на новые.

Предположим, на вашу страницу можно перейти по следующим URL:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Выберите один из этих адресов в качестве канонического и используйте переадресацию 301 на стороне сервера, чтобы перенаправлять на данный адрес трафик с других URL. Это один из самых надежных способов обеспечить переход пользователей и поисковых систем на нужную страницу. Код статуса 301 означает, что запрашиваемая страница находится по другому адресу.

Если у вас есть доступ к сервису веб-хостинга, попробуйте найти в представленных на нем справочных материалах документацию по настройке переадресаций 301.

Была ли эта статья полезна?
Как можно улучшить эту статью?