Consolidar URLs duplicados

Definir uma página canônica para páginas semelhantes ou duplicadas

Se você tiver uma única página que pode ser acessada por vários URLs ou páginas diferentes com conteúdo semelhante (por exemplo, uma página com uma versão para dispositivos móveis e outra para computadores), o Google entende que elas são versões duplicadas da mesma página. O Google escolherá um URL como a versão canônica e fará o rastreamento dela. Todos os outros URLs serão considerados duplicados e serão rastreados com menos frequência. 

Se você não informar explicitamente ao Google qual URL é o canônico, o Google fará a escolha por você ou poderá considerá-las com a mesma importância, o que pode levar a um comportamento indesejado, conforme explicado abaixo. Por que escolher um URL canônico?

O que é um URL canônico?
Um URL canônico é o URL da página que o Google considera a mais representativa de um conjunto de páginas duplicadas no seu site. Por exemplo, se você tiver URLs para a mesma página (como example.com?dress=1234 e example.com/dresses/1234), o Google escolherá um deles como canônico. As páginas não precisam ser completamente idênticas. Pequenas alterações na classificação ou filtragem de páginas de lista não tornam a página única (por exemplo, classificação por preço ou filtragem por cor de item).
A versão canônica pode estar em um domínio diferente da cópia.
Mais detalhes
Quando o Googlebot indexa um site, ele tenta determinar o conteúdo principal de cada página. Caso ele encontre várias páginas no site que pareçam tratar do mesmo assunto, aquela que parecer mais completa e útil será escolhida e marcada como canônica. A página canônica será rastreada com mais frequência, e as cópias, com menos, para reduzir a carga de rastreamento do Google no seu site.
O Google escolhe a página canônica com base em uma série de fatores (ou sinais), segundo a exibição da página por http ou https; com base na qualidade da página; conforme a presença do URL em um sitemap; e de acordo com qualquer rotulação "rel=canonical". Você pode indicar sua preferência usando essas técnicas. No entanto, o Google poderá escolher uma página diferente como canônica por vários motivos.
Versões de uma única página em idiomas diferentes só serão consideradas cópias se o conteúdo principal estiver no mesmo idioma. Ou seja, se só o cabeçalho, o rodapé e outro texto não essencial estiverem traduzidos, mas o corpo permanecer o mesmo, as páginas serão consideradas duplicadas.
O Google usa as páginas canônicas como as principais fontes na avaliação do conteúdo e da qualidade de um site. O mais comum é o resultado da Pesquisa Google direcionar o usuário para a página canônica, a menos que uma das cópias seja claramente mais adequada à busca. Por exemplo, o resultado da pesquisa provavelmente levará um usuário em um dispositivo móvel a uma página para dispositivos móveis, mesmo que a versão para computadores seja a canônica.

Por que eu teria páginas semelhantes/duplicadas?

Existem alguns motivos válidos para que seu site use URLs diferentes que levam à mesma página ou tenha páginas duplicadas ou muito semelhantes em URLs diferentes. Veja os mais comuns:

  • para oferecer compatibilidade com vários tipos de dispositivos:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
    
  • para ativar URLs dinâmicos em itens como parâmetros de pesquisa ou códigos de sessão:
    https://www.example.com/produtos?categoria=vestidos&cor=verde
    https://example.com/vestidos/cocktail?gclid=ABCD
    https://www.example.com/vestidos/verde/vestidoverde.html
  • caso seu sistema de blog salve vários URLs automaticamente quando você posiciona a mesma postagem em várias seções.
    https://blog.example.com/vestidos/vestidos-verdes-sao-lindos/
    https://blog.example.com/coisas-verdes/vestidos-verdes-sao-lindos/
  • caso seu servidor esteja configurado para veicular o mesmo conteúdo nas variantes http/https www/não www:
    http://example.com/vestidos-verdes
    https://example.com/vestidos-verdes
    http://www.example.com/vestidos-verdes
    
  • se o conteúdo que você oferece em um blog para distribuição a outros sites for reproduzido em parte ou na íntegra nesses domínios:
    https://news.example.com/vestidos-verdes-para-o-dia-a-dia-155672.html (postagem distribuída) https://blog.example.com/vestidos/vestidos-verdes-sao-lindos/3245/ (postagem original)

Por que devo escolher um URL canônico?

Existem várias razões para escolher uma página canônica dentre um conjunto de páginas duplicadas/semelhantes:

  • Para especificar o URL que será visto pelas pessoas nos resultados da pesquisa: talvez você prefira que as pessoas cheguem à página de vestidos verdes que você vende por meio do link https://www.example.com/vestidos/verde/vestidosverdes.html em vez de https://example.com/vestidos/cocktail?gclid=ABCD.
  • Para consolidar sinais de vínculo em páginas semelhantes ou duplicadas: isso ajuda os mecanismos de pesquisa a consolidarem as informações que eles têm de URLs individuais (como links que levam até eles) em um único URL preferencial. Isso significa que os links de outros sites que levam a http://example.com/vestidos/cocktail?gclid=ABCD são consolidados com os links que levam a https://www.example.com/vestidos/verde/vestidoverde.html.
  • Para simplificar as métricas de rastreamento de um único produto/tópico: com URLs variados, é mais difícil consolidar métricas de um tipo de conteúdo específico.
  • Para gerenciar o conteúdo distribuído: se você distribuir seu conteúdo para publicação em outros domínios, consolide a classificação da página no URL preferencial.
  • Para poupar tempo de rastreamento em páginas duplicadas: para otimizar o rastreamento, o ideal é aproveitar o tempo do Googlebot com páginas novas ou atualizadas do site, em vez de desperdiçá-lo rastreando as versões para computadores e dispositivos móveis das mesmas páginas.

Qual é meu URL canônico, de acordo com o Google?

Use a Ferramenta de inspeção de URL para saber qual página o Google considera como canônica. Mesmo que você determine explicitamente uma página canônica, o Google poderá escolher outra por vários motivos, como desempenho ou conteúdo.

Solução de problemas

Se um URL canônico estiver em uma propriedade que não é sua, não será possível ver o tráfego da sua cópia da página. Veja alguns motivos comuns para que uma página canônica esteja em uma propriedade separada:
  • Variantes de idioma marcadas incorretamente: se você tiver vários sites que exibem basicamente o mesmo conteúdo localizado para diversos usuários do mundo todo siga nossas diretrizes para sites localizados.
  • Tags canônicas incorretas: alguns CMS (sistemas de gerenciamento de conteúdo) ou plug-ins de CMS podem usar de maneira incorreta as técnicas de canonização para direcionar a URLs em sites externos. Verifique seu conteúdo para saber se esse é o caso. Caso seu site indique uma preferência inesperada de URL canônico, talvez por meio do uso incorreto de rel="canonical" ou de um redirecionamento 301, corrija esse problema diretamente.
  • Servidores configurados incorretamente: algumas configurações incorretas de hospedagem podem gerar uma seleção inesperada de URL entre domínios. Exemplo:
    • Um servidor pode estar configurado incorretamente para retornar conteúdo de a.com em resposta a uma solicitação de um URL em b.com.
    • Dois servidores da Web não relacionados podem retornar páginas de erro soft 404 idênticas que o Google não consegue identificar como páginas de erro.
  • Ataques maliciosos de hackers: alguns ataques a sites introduzem um código que retorna um redirecionamento 301 HTTP ou inserem um elemento do link rel="canonical" de vários domínios no <head> do HTML ou no cabeçalho HTTP, geralmente direcionando o usuário a um URL que hospeda conteúdo nocivo ou com spam. Nesses casos, nossos algoritmos poderão selecionar o URL malicioso ou com spam em vez do URL do site comprometido.
  • Site copiado: em raras situações, nosso algoritmo pode selecionar um URL de um site externo que hospeda seu conteúdo sem permissão. Caso você acredite que outro site está copiando seu conteúdo de maneira que viola a legislação de direitos autorais, entre em contato com o host do site para solicitar a remoção. Além disso, para que o Google remova a página infratora dos resultados da pesquisa, preencha uma solicitação de acordo com a Lei de Direitos Autorais do Milênio Digital.

Especificar uma página canônica

Existem algumas maneiras diferentes de especificar uma página canônica dentre um conjunto duplicado, dependendo do uso que você faz dela:

Método Descrição
Diretrizes gerais Siga estas diretrizes para todos os métodos de canonização.
Tag rel=canonical <link>

Adicione uma tag <link> ao código de todas as páginas duplicadas indicando a página canônica.

Vantagens:

  • É possível mapear um número infinito de páginas duplicadas.

Desvantagens:

  • Pode aumentar o tamanho da página.
  • Pode tornar complexa a manutenção do mapeamento em sites maiores ou sites em que os URLs mudam com frequência.
  • Só funciona para páginas HTML, não para arquivos como PDF. Nesses casos, use o cabeçalho HTTP rel=canonical.
Cabeçalho HTTP rel=canonical

Envie um cabeçalho rel=canonical na resposta da sua página.

Vantagens:

  • Não aumenta o tamanho da página.
  • É possível mapear um número infinito de páginas duplicadas.

Desvantagens:

  • Pode tornar complexa a manutenção do mapeamento em sites maiores ou sites em que os URLs mudam com frequência.
Sitemap

Especifique suas páginas canônicas em um Sitemap.

Vantagens:

  • Fácil de fazer e manter, especialmente em sites grandes.

Desvantagens:

  • O Googlebot ainda precisa determinar a cópia associada da página canônica que você declarar no Sitemap.
  • Sinalização para o Googlebot menos eficaz em comparação com o método de mapeamento rel=canonical.
Redirecionamento 301 Use os redirecionamentos 301 para informar ao Googlebot que um URL redirecionado é uma versão superior à de um URL determinado. Use isso somente ao suspender o uso de uma página duplicada.
Variante AMP Se uma das suas variantes for uma página AMP, você precisará seguir as diretrizes de AMP para indicar a página canônica e a variante AMP.

 

Embora seja recomendado usar um desses métodos, nenhum deles é obrigatório. Se você não desejar indicar um URL canônico, identificaremos o que consideramos ser a melhor versão ou o melhor URL.

Diretrizes gerais

Para todos os métodos de canonização, siga estas diretrizes gerais.

Diretrizes gerais
  • Evite usar o arquivo robots.txt para fins de canonização.
  • Evite usar a ferramenta de remoção de URL para canonização, já que ela remove todas as versões de um URL da pesquisa.
  • Não especifique URLs diferentes como versões canônicas da mesma página usando uma ou mais técnicas de canonização. Por exemplo, não especifique um URL no sitemap e indique outro URL para essa mesma página usando rel="canonical".
  • Não use noindex para impedir a seleção de uma página canônica. Essa diretiva é usada para excluir a página da indexação, não para gerenciar a escolha de uma página canônica. 
  • Especifique uma página canônica ao usar tags hreflang. Especifique uma página canônica no mesmo idioma ou o melhor idioma substituto possível caso a página canônica não exista no idioma 1.

  • Crie um link para o URL canônico em vez de um URL duplicado ao vincular seu site. Vincular o site consistentemente ao URL que você considera canônico ajuda o Google a entender sua preferência.

Dar preferência ao uso de HTTPS em vez de HTTP para URLs canônicos

O Google dá preferência a páginas HTTPS em vez das equivalentes em HTTP como canônicas, exceto quando há problemas ou sinais conflitantes, como os seguintes:

  • A página HTTPS tem um certificado SSL inválido.
  • A página HTTPS contém dependências não seguras (que não são imagens).
  • A página HTTPS redireciona os usuários para ou por meio de uma página HTTP.
  • A página HTTPS tem um link rel="canonical" que leva à página HTTP.

Por padrão, nossos sistemas preferem as páginas HTTPS às HTTP, mas você pode tomar algumas medidas para garantir esse comportamento:

  • Adicione redirecionamentos da página HTTP para a página HTTPS.
  • Adicione um link rel="canonical" da página HTTP para a HTTPS.
  • Implementar o HSTS.

Para impedir que o Google canonize incorretamente uma página HTTP, é preciso evitar as seguintes práticas:

  • Certificados de SSL com falhas e redirecionamentos "HTTPS para HTTP" fazem com que o Google tenha uma preferência muito maior por páginas HTTP. Implementar o HSTS não modifica essa preferência
  • Incluir a página HTTP no Sitemap ou nas entradas hreflang, e não a versão em HTTPS.
  • Implementar seu certificado SSL/TLS para a variante errada do host: por exemplo, example.com exibindo o certificado de www.example.com.  O certificado precisa ser o mesmo do URL completo do site ou ser um certificado curinga que pode ser usado para vários subdomínios em um domínio.

Somente usuários avançados: fazer com que o Google ignore os parâmetros dinâmicos

Use a manipulação dos parâmetros para informar o Googlebot que parâmetros devem ser ignorados ao rastrear. Ignorar determinados parâmetros pode reduzir o conteúdo duplicado na indexação do Google e tornar seu site mais rastreável. Por exemplo, se você especificar que o parâmetro sessionid deve ser ignorado, o Googlebot considerará estes dois URLs como duplicados:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

Métodos específicos

Escolha um dos seguintes métodos para especificar um URL canônico para URLs duplicados ou páginas duplicadas/semelhantes.

Siga as diretrizes gerais acima para todos os métodos.

Usar a tag de vínculo rel="canonical"

É possível usar uma tag <link> no cabeçalho da página para indicar quando uma página é cópia de outra.

Suponhamos que você queira que https://example.com/vestidos/vestidos-verdes seja o URL canônico, mesmo que vários URLs possam acessar esse conteúdo. Siga estas etapas para indicar esse URL como canônico:

  1. Marque todas as páginas duplicadas com um elemento do link rel="canonical". Adicione um elemento <link> com o atributo rel="canonical" à seção <head> das páginas duplicadas para direcionar o usuário à página canônica, como neste exemplo:
    <link rel="canonical" href="https://example.com/dresses/green-dresses" />

  2. Se a página canônica tiver uma variante para dispositivos móveis, adicione um link rel="alternate" a ela de modo a direcionar o usuário à versão para dispositivos móveis:
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="http://m.example.com/dresses/green-dresses">

  3. Adicione os redirecionamentos hreflang ou de qualquer outro tipo adequados à página.

Use caminhos absolutos em vez de relativos com o elemento do link rel="canonical".

Use esta estrutura:  https://www.example.com/dresses/green/greendresss.html
Não use esta: /dresses/green/greendress.html
Use o cabeçalho HTTP rel="canonical"

Se for possível configurar seu servidor, use cabeçalhos HTTP rel="canonical" (em vez de tags HTML) para indicar o URL canônico de documentos não HTML, como arquivos PDF.

Por exemplo, se você expuser um arquivo PDF por meio de vários URLs, poderá retornar um cabeçalho HTTP rel="canonical" como o cabeçalho a seguir para os URLs duplicados informarem ao Googlebot qual é o URL canônico do arquivo PDF:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Atualmente, o Google aceita esse método somente para resultados de pesquisa na Web.

Use caminhos absolutos em vez de relativos com o elemento do link rel="canonical". Isto é:
Use esta estrutura:  http://www.example.com/downloads/white-paper.pdf
Não use esta: /downloads/white-paper.pdf
Use um Sitemap

Escolha um URL canônico para cada uma das suas páginas e envie-o em um Sitemap. Todas as páginas listadas no Sitemap são sugeridas como canônicas. O Googlebot decide que páginas são duplicadas (se houver alguma) com base na semelhança do conteúdo.

Nós não garantimos que os URLs do Sitemap sejam considerados como canônicos, mas essa é uma maneira simples de definir o conteúdo canônico de um site grande, e os Sitemaps são uma maneira útil de dizer ao Google quais são as páginas que você considera mais importantes em seu site.

Evite incluir páginas não canônicas em um Sitemap. Ao usar um Sitemap, especifique somente URLs canônicos.

Usar os redirecionamentos 301 para URLs em desuso

Use esse método quando quiser se desfazer de páginas duplicadas, mas precisar de uma transição suave antes de remover os URLs antigos.

Digamos que sua página possa ser encontrada de várias maneiras:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Escolha um desses URLs como URL canônico e use redirecionamentos 301 para enviar o tráfego dos outros URLs para seu URL preferido. Um redirecionamento 301 do servidor é a melhor maneira de garantir que os usuários e os mecanismos de pesquisa sejam direcionados para a página correta. O código de status 301 significa que a página foi permanentemente movida para um novo local.

Se você estiver em um serviço de hospedagem de sites, faça uma pesquisa na documentação deles em busca da configuração de redirecionamentos 301.

Isso foi útil?
Como podemos melhorá-lo?