Informazioni su robots.txt

Domande frequenti sui robot

Domande generali sui robot

Domande sul file robots.txt

Domande sul meta tag robots

Domande sull'intestazione HTTP X-Robots-Tag

Abbiamo dimenticato qualche domanda frequente? Non esitare a pubblicare eventuali altre domande nel Forum di assistenza per i webmaster per ricevere aiuto.

Domande generali sui robot

Il mio sito web ha bisogno di un file robots.txt?

No. Quando Googlebot visita un sito web, come prima cosa Google chiede l'autorizzazione di eseguire la scansione cercando di recuperare il file robots.txt. In genere, un sito web senza file robots.txt, meta tag robots o intestazioni HTTP X-Robots-Tag viene sottoposto a scansione e indicizzato normalmente.

Quale metodo devo utilizzare?

Dipende. In breve, vi sono buoni motivi per utilizzare ognuno di questi metodi:

  1. File robots.txt: utilizza questo metodo se la scansione dei tuoi contenuti causa problemi sul server. Ad esempio, potrebbe essere utile non consentire la scansione di script di calendario illimitati. Non devi utilizzare il file robots.txt per bloccare contenuti privati (utilizza, invece, l'autenticazione lato server) o per gestire la canonizzazione (consulta il nostro Centro assistenza). Se devi assicurarti che un URL non venga indicizzato, utilizza invece il meta tag robots o l'intestazione HTTP X-Robots-Tag.
  2. Meta tag robots: utilizza questo metodo se devi controllare in che modo una singola pagina HTML viene visualizzata nei risultati di ricerca (o per assicurarti che non venga mostrata).
  3. Intestazione HTTP X-Robots-Tag: utilizza questo metodo se devi controllare in che modo i contenuti non HTML vengono visualizzati nei risultati di ricerca (o per assicurarti che non vengano mostrati).

Posso utilizzare questi metodi per rimuovere il sito di un altro utente?

No. Questi metodi sono validi solo per i siti in cui puoi modificare il codice o aggiungere file. Se desideri rimuovere contenuti da un sito di terze parti, devi contattare il webmaster e chiedergli di eseguire questa operazione.

Come faccio a rallentare la scansione del mio sito web da parte di Google?

In genere, puoi regolare l'impostazione relativa alla frequenza di scansione nel tuo account Google Search Console.

Domande sul file robots.txt

Utilizzo lo stesso file robots.txt per più siti web. Posso utilizzare un URL completo anziché un percorso relativo?

No. Le istruzioni contenute nel file robots.txt (tranne quelle di tipo "Sitemap:") sono valide solo per i percorsi relativi.

Posso inserire il file robots.txt in una sottodirectory?

No. Il file deve risiedere nella directory principale del sito web.

Desidero bloccare una cartella privata. Posso impedire ad altri utenti di leggere il mio file robots.txt?

No. Il file robots.txt può essere letto da vari utenti. Se le cartelle o i nomi dei file di contenuti non devono essere pubblici, non vanno elencati nel file robots.txt. È sconsigliato pubblicare file robots.txt differenti in base allo user-agent o altri attributi.

Devo includere un'istruzione di tipo allow per consentire la scansione?

No, non devi includere un'istruzione di tipo allow. L'istruzione allow viene utilizzata per sostituire le istruzioni disallow nello stesso file robots.txt.

Cosa succede se il mio file robots.txt contiene un errore o utilizza un'istruzione non supportata?

In genere, i crawler web sono molto flessibili e non vengono influenzati da errori di piccola entità nel file robots.txt. In generale, la cosa peggiore che possa capitare è che istruzioni errate/non supportate vengano ignorate. Ricorda, però, che Google non può fare deduzioni quando interpreta il file robots.txt; deve interpretare il file che è stato recuperato. Detto questo, se sei a conoscenza di problemi nel file robots.txt, sono di solito facili da risolvere.

Quale programma devo utilizzare per creare un file robots.txt?

Puoi utilizzare qualsiasi programma in grado di creare un file di testo valido. I programmi comunemente utilizzati per creare file robots.txt sono Blocco note, TextEdit, vi o Emacs. Leggi ulteriori informazioni sulla creazione di file robots.txt. Dopo aver creato il file, convalidalo usando lo strumento Tester dei file robots.txt.

Se impedisco a Google di eseguire la scansione di una pagina usando un'istruzione disallow nel file robots.txt, la pagina scompare dai risultati di ricerca?

Se impedisci a Google di eseguire la scansione di una pagina, è probabile che la pagina venga rimossa dall'indice di Google. 

Tuttavia, l'istruzione Disallow del file robots.txt non garantisce che una pagina non venga visualizzata nei risultati: Google potrebbe comunque decidere, in base a informazioni esterne come i link in entrata, che tale pagina sia pertinente. Se desideri bloccare esplicitamente l'indicizzazione di una pagina, utilizza invece il meta tag robots noindex o l'intestazione HTTP X-Robots-Tag. In questo caso, devi comunque consentire la pagina nel file robots.txt: deve, infatti, essere sottoposta a scansione per far sì che il tag venga riconosciuto e seguito.

Dopo quanto tempo le modifiche apportate al file robots.txt vengono applicate ai risultati di ricerca?

Innanzitutto, la cache del file robots.txt deve essere aggiornata (in genere, i contenuti vengono memorizzati nella cache per massimo un giorno). Anche dopo aver individuato la modifica, la scansione e l'indicizzazione sono processi complicati che potrebbero richiedere del tempo per i singoli URL, quindi è impossibile fornire un'indicazione temporale esatta. Ricorda, inoltre, che anche se il file robots.txt non consente di accedere a un URL, tale URL può rimanere visibile nei risultati di ricerca, nonostante non venga sottoposto a scansione. Se vuoi velocizzare la rimozione delle pagine bloccate, invia una richiesta di rimozione tramite Google Search Console.

Come faccio a sospendere temporaneamente ogni operazione di scansione del mio sito web?

Puoi sospendere temporaneamente ogni operazione di scansione restituendo un codice risultato HTTP 503 per tutti gli URL, incluso il file robots.txt. L'accesso al file robots.txt viene periodicamente ripetuto fino a quando non viene eseguito nuovamente. Sconsigliamo di modificare il file robots.txt in modo da non consentire la scansione.

Il mio server non fa distinzione tra maiuscole e minuscole. Come faccio a non consentire del tutto la scansione di alcune cartelle?

Le istruzioni del file robots.txt fanno distinzione tra maiuscole e minuscole. In questo caso, ti consigliamo di verificare che solo una versione dell'URL sia indicizzata utilizzando i metodi di canonizzazione. In questo modo, puoi semplificare il file robots.txt. Se non fosse possibile, ti consigliamo di elencare le combinazioni comuni del nome della cartella o di accorciarlo il più possibile, utilizzando solo i primi caratteri anziché il nome completo. Ad esempio, anziché elencare tutte le permutazioni maiuscole e minuscole di "/MyPrivateFolder", puoi elencare le permutazioni di "/MyP" (se sei sicuro che non esiste nessun altro URL sottoponibile a scansione che inizia con questi caratteri). In alternativa, se la scansione non è un problema, potresti utilizzare un meta tag robots o un'intestazione HTTP X-Robots-Tag.

Viene restituito un codice risultato 403 "Accesso negato" per tutti gli URL, incluso il file robots.txt. Per quale motivo il sito viene comunque sottoposto a scansione?

Il codice risultato HTTP 403 (come tutti gli altri codici risultato HTTP 4xx) viene interpretato come segno che il file robots.txt non esiste. Per questo motivo, i crawler sono soliti comprendere che è possibile sottoporre a scansione tutti gli URL del sito web. Per bloccare la scansione del sito, il file robots.txt deve restituire una risposta normale (con un codice risultato HTTP 200 "OK") contenente un'adeguata istruzione "disallow".

Domande sul meta tag robots

Il meta tag robots sostituisce il file robots.txt?

No. Il file robots.txt controlla a quali pagine viene eseguito l'accesso. Il meta tag robots controlla se una pagina viene indicizzata ma, per individuare questo tag, la pagina deve essere sottoposta a scansione. Se la scansione di una pagina è problematica (ad esempio, se la pagina causa un sovraccarico del server), devi utilizzare il file robots.txt. Se si tratta soltanto di visualizzare o meno la pagina nei risultati di ricerca, puoi utilizzare il meta tag robots.

Il meta tag robots può essere utilizzato per bloccare parzialmente l'indicizzazione di una pagina?

No, il meta tag robots è un'impostazione a livello di pagina.

Posso utilizzare il meta tag robots al di fuori di una sezione <head>?

No, attualmente il meta tag robots deve essere inserito nella sezione <head> di una pagina.

Il meta tag robots non consente di eseguire la scansione?

No. Anche se il meta tag robots riporta la dicitura noindex, di tanto in tanto l'URL deve essere sottoposto nuovamente a scansione per verificare che il meta tag sia stato modificato.

Qual è la differenza tra il meta tag robots nofollow e l'attributo del link rel="nofollow"?

Il meta tag robots nofollow si applica a tutti i link presenti su una pagina. L'attributo del link rel="nofollow" si applica solo a link specifici su una pagina. Per ulteriori informazioni sull'attributo per i link rel="nofollow", leggi gli articoli del Centro assistenza relativi allo spam generato dagli utenti e all'attributo rel="nofollow".

Domande sull'intestazione HTTP X-Robots-Tag

Come posso verificare l'intestazione X-Robots-Tag per un URL?

Un modo semplice per visualizzare le intestazioni server consiste nell'utilizzare uno strumento di verifica delle intestazioni server basato sul Web oppure la funzionalità "Visualizza come Googlebot" di Google Search Console.

È stato utile?
Come possiamo migliorare l'articolo?