Consolidare URL duplicati

Definire una pagina canonica per pagine simili o duplicate

Se sul tuo sito è presente una singola pagina accessibile da più URL o sono presenti diverse pagine con contenuti simili (ad esempio, una pagina con una versione per dispositivi mobili e una per computer desktop), per Google è come se fossero presenti versioni duplicate della stessa pagina. Google sceglie un unico URL come versione canonica ed esegue la scansione su questo, mentre tutti gli altri URL vengono considerati URL duplicati e vengono sottoposti a scansione con minore frequenza. 

Se non indichi espressamente l'URL canonico, Google ne sceglierà uno al posto tuo o li considererà entrambi dello stesso peso, con possibili comportamenti indesiderati, come spiegato nella sezione che segue Perché dovrei scegliere un URL canonico?

Che cos'è un URL canonico?
Un URL canonico è l'URL della pagina che Google ritiene più rappresentativo tra un insieme di pagine duplicate sul tuo sito. Ad esempio, se hai URL per la stessa pagina (ad esempio: example.com?dress=1234 ed example.com/dresses/1234), Google ne sceglie uno come canonico. Tieni presente che le pagine non devono necessariamente essere identiche; modifiche di lieve entità nell'ordine o nei filtri delle pagine con gli elenchi non rendono la pagina unica (ad esempio, l'ordine in base al prezzo o filtri per colore degli elementi).
La pagina canonica può trovarsi su un dominio diverso da quello della pagina duplicata.
Altri dettagli
Quando indicizza un sito, Googlebot prova a determinare i contenuti principali di ciascuna pagina. Se su uno stesso sito trova più pagine che sembrano uguali, Googlebot sceglie la pagina che considera più completa e utile e la contrassegna come canonica. La pagina canonica viene sottoposta a scansione con maggiore regolarità rispetto alle pagine duplicate, che vengono sottoposte a scansione meno frequentemente al fine di ridurre il carico di scansione di Google sul tuo sito.
Google sceglie la pagina canonica in base a vari fattori (o segnali), ad esempio se la pagina viene pubblicata tramite http o https, la qualità della pagina, la presenza dell'URL in una Sitemap e qualsiasi etichettatura di tipo "rel=canonical". Puoi indicare la tua preferenza a Google tramite queste tecniche, ma Google, per vari motivi, può comunque scegliere come canonica una pagina diversa da quella che preferiresti tu.
Le versioni in diverse lingue di una stessa pagina vengono considerate pagine duplicate solo se il contenuto principale è nella stessa lingua (ossia, se solo l'intestazione, il piè di pagina e altre parti testuali di secondaria importanza sono tradotte, mentre il testo principale resta lo stesso, allora le pagine vengono considerate duplicate).
Google utilizza le pagine canoniche come fonti principali per valutare contenuti e qualità. Il risultato della Ricerca Google solitamente indirizza alla pagina canonica, a meno che una delle pagine duplicate sia espressamente più adatta all'utente: ad esempio, il risultato di ricerca potrebbe indirizzare a una pagina per dispositivi mobili se l'utente utilizza un dispositivo di questo tipo, anche se è la pagina per computer desktop a essere contrassegnata come canonica.

Perché il mio sito dovrebbe includere pagine duplicate o con contenuti simili?

Esistono motivi validi per cui un sito può avere URL diversi che indirizzano a una stessa pagina oppure pagine duplicate o molto simili che indirizzano a URL diversi. Ecco i più comuni:

  • Per supportare più tipi di dispositivi:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
    
  • Per attivare gli URL dinamici per elementi come parametri di ricerca o ID di sessione:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • Se il sistema del blog salva automaticamente più URL quando viene inserito uno stesso post in più sezioni:
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • Se il server è configurato per pubblicare gli stessi contenuti per le varianti www/non www e/o http/https:
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • Se i contenuti proposti in un blog da distribuire in syndication su altri siti vengono copiati in parte o per intero su tali domini:
    https://news.example.com/green-dresses-for-every-day-155672.html (post in syndication) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (post originale)

Perché dovrei scegliere un URL canonico?

Esistono diversi motivi per cui conviene scegliere espressamente una pagina canonica in un insieme di pagine duplicate o simili:

  • Per specificare l'URL da mostrare nei risultati di ricerca. Potresti preferire che gli utenti raggiungano la tua pagina sugli abiti in verde tramite https://www.example.com/dresses/green/greendress.html anziché https://example.com/dresses/cocktail?gclid=ABCD.
  • Per consolidare i segnali associati ai link per pagine simili o duplicate. Consente ai motori di ricerca di consolidare le informazioni in loro possesso in merito ai singoli URL (ad esempio, link che rimandano a tali URL) in un unico URL preferito. Ciò significa che i link presenti in altri siti che rimandano a http://example.com/dresses/cocktail?gclid=ABCD vengono consolidati con i link che rimandano a https://www.example.com/dresses/green/greendress.html.
  • Per semplificare il monitoraggio delle metriche relative a un singolo prodotto/argomento. La presenza di URL diversi rende più complicato ricevere metriche consolidate per un contenuto specifico.
  • Per gestire i contenuti distribuiti in syndication. Se distribuisci in syndication i contenuti per pubblicarli su altri domini, ti conviene consolidare il ranking delle pagine con il tuo URL preferito.
  • Per evitare di dedicare tempo alla scansione di pagine duplicate. Per ottimizzare la scansione del sito, è preferibile che Googlebot sottoponga a scansione pagine nuove (o aggiornate), anziché le versioni per computer desktop e per dispositivi mobili di una stessa pagina.

Qual è il mio URL canonico, secondo Google?

Utilizza lo strumento Controllo URL per sapere quale pagina è considerata canonica da Google. Tieni presente che, anche se hai indicato esplicitamente una pagina canonica, Google potrebbe sceglierne un'altra per vari motivi, ad esempio per via del rendimento o dei contenuti.

Risoluzione dei problemi

Se l'URL canonico si trova in una proprietà che non è tua, non potrai vedere il traffico della tua pagina duplicata. Di seguito vengono spiegati alcuni motivi comuni per cui una pagina canonica potrebbe essere presente in una proprietà separata.
  • Varianti linguistiche contrassegnate in modo errato. Se hai più siti web che pubblicano sostanzialmente gli stessi contenuti localizzati per utenti diversi di tutto il mondo, assicurati di seguire le nostre linee guida per i siti localizzati.
  • Tag canonici errati. Alcuni sistemi di gestione dei contenuti (CMS) o plug-in CMS possono fare un uso non corretto delle tecniche di canonicalizzazione per indirizzare a URL su siti web esterni. Controlla i tuoi contenuti per verificare se si tratta di questo problema. Se il tuo sito indica una preferenza di URL canonico imprevista, magari per via di un uso non corretto dell'elemento rel="canonical" o di un reindirizzamento 301, correggi direttamente il problema.
  • Server configurati in modo errato: alcuni errori di configurazione dell'host potrebbero causare una selezione imprevista di URL tra domini. Ad esempio:
    • Un server potrebbe essere erroneamente configurato per restituire contenuti da a.com per una richiesta di un URL di b.com.
    • Due server web non correlati potrebbero restituire pagine di errore soft 404 che Google non identifica come pagine di errore.
  • Compromissione dannosa. In alcuni casi, gli attacchi ai siti web introducono un codice che restituisce un reindirizzamento 301 HTTP o inserisce un elemento di link rel="canonical" tra domini nell'elemento <head> HTML o nell'intestazione HTTP, che rimanda in genere a un URL dove sono ospitati contenuti di spam o dannosi. In questi casi, i nostri algoritmi potrebbero selezionare l'URL dannoso o contenente spam al posto dell'URL sul sito web compromesso.
  • Un sito web emulatore. In rari casi, il nostro algoritmo potrebbe selezionare un URL da un sito esterno che ospita i tuoi contenuti senza la tua autorizzazione. Se ritieni che un altro sito abbia duplicato i tuoi contenuti violando la legge sul copyright, puoi contattare l'host del sito per richiedere la rimozione. Puoi anche chiedere a Google di rimuovere la pagina in violazione dai risultati di ricerca presentando una richiesta debitamente compilata ai sensi del Digital Millennium Copyright Act (Legge statunitense sul copyright).

Specificare una pagina canonica

Esistono diversi modi per designare la pagina canonica in un insieme di pagine duplicate, in base all'utilizzo:

Metodo Descrizione
Linee guida generali Segui queste linee guida per tutti i metodi di canonicalizzazione.
Tag <link> rel=canonical

Aggiungi nel codice per tutte le pagine duplicate un tag <link> che indirizza alla pagina canonica.

Pro:

  • Può mappare un numero infinito di pagine duplicate.

Contro:

  • Può aumentare la dimensione della pagina.
  • Può complicare la gestione della mappatura su siti di grandi dimensioni o siti in cui gli URL subiscono frequenti modifiche.
  • Funziona solo per le pagine HTML, non per i file (ad esempio i PDF). In tali circostanze, puoi utilizzare l'intestazione HTTP rel=canonical.
Intestazione HTTP rel=canonical

Invia un'intestazione rel=canonical nella pagina di risposta.

Pro:

  • Non aumenta la dimensione della pagina.
  • Può mappare un numero infinito di pagine duplicate.

Contro:

  • Può complicare la gestione della mappatura su siti di grandi dimensioni o siti in cui gli URL subiscono frequenti modifiche.
Sitemap

Designa le pagine canoniche in una Sitemap.

Pro:

  • Facile da implementare e gestire, soprattutto su siti di grandi dimensioni.

Contro:

  • Googlebot deve sempre comunque identificare le pagine duplicate per tutte le pagine canoniche dichiarate nella Sitemap.
  • Segnalazione meno efficace per Googlebot rispetto alla tecnica di mappatura con rel=canonical.
Reindirizzamento 301 Utilizza i reindirizzamenti 301 per indicare a Googlebot che un URL reindirizzato è una versione migliore dell'URL prestabilito. Adotta questo metodo solo quando rendi obsoleta una pagina duplicata.
Variante AMP Se una delle varianti è una pagina AMP, è necessario seguire le linee guida delle pagine AMP per designare la pagina canonica e la variante AMP.

 

Ti invitiamo a utilizzare uno di questi metodi, anche se nessuno è obbligatorio. Se non indichi un URL canonico, provvederemo a identificare quello che a nostro parere è la versione migliore.

Linee guida generali

Per tutti i metodi di canonicalizzazione, attieniti alle seguenti linee guida generali.

Linee guida generali
  • Non utilizzare il file robots.txt per la canonicalizzazione.
  • Non utilizzare lo strumento per la rimozione di URL per la canonicalizzazione perché rimuove tutte le versioni di un URL dalla ricerca.
  • Non specificare URL diversi come canonici per una stessa pagina utilizzando le stesse o diverse tecniche di canonicalizzazione (ad esempio, non specificare un URL in una Sitemap e un altro URL per la stessa pagina utilizzando rel="canonical").
  • Non utilizzare noindex per impedire la selezione di una pagina canonica. Questa istruzione ha lo scopo di escludere la pagina dall'indice, non di gestire la scelta di una pagina canonica. 
  • Non specificare una pagina canonica utilizzando i tag hreflang. Designa una pagina canonica in una stessa lingua o nella migliore lingua sostitutiva, qualora non esista una pagina canonica per la stessa lingua.

  • Utilizza per il link l'URL canonico, anziché un URL duplicato, quando stabilisci i collegamenti all'interno del tuo sito. Utilizzare sempre lo stesso URL per i link aiuta Google a comprendere quale sia la tua preferenza per l'URL canonico.

Preferire HTTPS a HTTP per gli URL canonici

Per le pagine canoniche, Google preferisce le pagine HTTPS alle pagine HTTP equivalenti, ad eccezione dei casi in cui esistano problemi o segnali contrastanti come i seguenti:

  • Il certificato SSL della pagina HTTPS non è valido.
  • La pagina HTTPS contiene dipendenze non protette (oltre alle immagini).
  • La pagina HTTPS reindirizza gli utenti a o tramite una pagina HTTP.
  • La pagina HTTPS contiene un link rel="canonical" alla pagina HTTP.

Anche se i nostri sistemi preferiscono, per impostazione predefinita, le pagine HTTPS alle pagine HTTP, puoi assicurarti che venga applicata tale preferenza svolgendo una delle seguenti azioni:

  • Aggiungi reindirizzamenti dalla pagina HTTP alla pagina HTTPS.
  • Aggiungi un link rel="canonical" che rimanda dalla pagina HTTP alla pagina HTTPS.
  • Implementa HSTS.

Per evitare che Google imposti erroneamente come canonica la pagina HTTP, ti conviene evitare le seguenti prassi:

  • I certificati SSL non validi e i reindirizzamenti da HTTPS a HTTP ci portano a preferire HTTP. L'implementazione di HSTS non può sostituire questa forte preferenza.
  • L'inserimento nella Sitemap o in voci hreflang della pagina HTTP anziché della versione HTTPS.
  • L'implementazione del certificato SSL/TLS per la variante host sbagliata: ad esempio, example.com che fornisce il certificato per www.example.com.  Il certificato deve corrispondere all'URL del sito completo oppure essere un certificato con caratteri jolly che sia possibile utilizzare per diversi sottodomini di un dominio.

Solo per utenti esperti: chiedere a Google di ignorare i parametri dinamici

Utilizza Gestione parametri per segnalare a Googlebot eventuali parametri da ignorare durante la scansione. Se ignori alcuni parametri puoi ridurre i contenuti duplicati nell'indice di Google e semplificare la scansione del sito. Ad esempio, se indichi di ignorare il parametro sessionid, Googlebot considererà i seguenti due URL duplicati:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

Metodi specifici

Scegli uno dei seguenti metodi per designare un URL canonico per URL duplicati o pagine duplicate/simili.

Segui le linee guida generali illustrate precedentemente per tutti i metodi.

Utilizzare il tag link rel="canonical"

Puoi utilizzare un tag <link> nell'intestazione della pagina per segnalare quando una pagina è un duplicato di un'altra.

Ipotizza di volere designare https://example.com/dresses/green-dresses come URL canonico, anche se questi contenuti sono accessibili da diversi URL. Designa questo URL come canonico con i seguenti passaggi:

  1. Contrassegna tutte le pagine duplicate con un elemento link rel="canonical". Aggiungi un elemento <link> con l'attributo rel="canonical" alla sezione <head> delle pagine duplicate, indirizzando a una pagina canonica come la seguente:
    <link rel="canonical" href="https://example.com/dresses/green-dresses" />

  2. Se la pagina canonica è associata a una variante per dispositivi mobili, aggiungi un link rel="alternate", indirizzando alla versione per dispositivi mobili della pagina:
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="http://m.example.com/dresses/green-dresses">

  3. Aggiungi eventuali tag hreflang o altri reindirizzamenti appropriati per la pagina.

Utilizza percorsi assoluti, anziché percorsi relativi con l'elemento link rel="canonical".

Utilizza questa struttura: https://www.example.com/dresses/green/greendresss.html
Non questa struttura: /dresses/green/greendress.html
Utilizzare l'intestazione HTTP rel="canonical"

Se puoi configurare il tuo server, puoi utilizzare le intestazioni HTTP rel="canonical" (al posto dei tag HTML) per designare l'URL canonico per i documenti non HTML, come i file PDF.

Ad esempio, se mostri un file PDF attraverso più URL, puoi restituire un'intestazione HTTP rel="canonical" come la seguente per gli URL duplicati per indicare a Googlebot quale sia l'URL canonico per il file PDF:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Al momento, Google supporta questo metodo solo per i risultati di Ricerca Google.

Utilizza percorsi assoluti, anziché percorsi relativi con l'elemento link rel="canonical". Vale a dire:
Utilizza questa struttura: http://www.example.com/downloads/white-paper.pdf
Non questa struttura: /downloads/white-paper.pdf
Utilizzare una Sitemap

Scegli un URL canonico per ognuna delle tue pagine e inviali in una Sitemap. Tutte le pagine elencate in una Sitemap vengono suggerite come canoniche, ma sarà Googlebot a decidere quali, se presenti, siano duplicate, in base alla somiglianza dei contenuti.

Google non garantisce che considererà gli URL della Sitemap come canonici, ma è comunque un metodo semplice per definire URL canonici per siti di grandi dimensioni. Inoltre, le Sitemap sono utili per segnalare a Google quali pagine reputi più importanti sul tuo sito.

Non includere pagine non canoniche in una Sitemap. Se utilizzi una Sitemap, inserisci solo URL canonici.

Utilizzare i reindirizzamenti 301 per URL ritirati

Utilizza questo metodo se vuoi eliminare pagine duplicate esistenti, ma devi garantire una transizione graduale prima dell'effettivo ritiro di URL obsoleti.

Supponiamo che sia possibile accedere alla tua pagina in diversi modi:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Scegli uno di questi URL come URL canonico e utilizza i reindirizzamenti 301 per inviare il traffico dagli altri URL all'URL preferito. Un reindirizzamento 301 lato server è il modo migliore per assicurarsi che utenti e motori di ricerca siano indirizzati alla pagina corretta. Il codice di stato 301 indica che una pagina è stata spostata definitivamente in una nuova posizione.

Se utilizzi un servizio di hosting di siti web, cerca la relativa documentazione sulla configurazione dei reindirizzamenti 301.

È stato utile?
Come possiamo migliorare l'articolo?