Blocco o rimozione di pagine utilizzando un file robots.txt

Lo strumento Genera file robots.txt a breve non sarà più disponibile. Puoi creare un file robots.txt manualmente oppure utilizzare uno dei molti strumenti per la generazione di file robots.txt disponibili sul Web.

Un file robots.txt limita l'accesso al tuo sito da parte dei robot dei motori di ricerca che eseguono la scansione del Web. Questi bot sono automatici e, prima di accedere alle pagine di un sito, effettuano un controllo per verificare la presenza di un file robots.txt che impedisce loro di accedere a determinate pagine. Tutti i robot affidabili rispetteranno le istruzioni in un file robots.txt, anche se alcuni potrebbero interpretarle diversamente. Tuttavia, non è possibile imporre l'applicazione di un file robots.txt e alcuni spammer potrebbero ignorarlo. Per questo motivo, ti consigliamo di proteggere mediante password le informazioni riservate.

Per scoprire su quale URL è stata bloccata la scansione, visita la pagina URL bloccati della sezione Scansione di Strumenti per i Webmaster.

Sarà necessario un file robots.txt solo se sul tuo sito sono presenti contenuti che desideri vengano esclusi dall'indicizzazione dei motori di ricerca. Se desideri che i motori di ricerca eseguano l'indicizzazione di tutti i contenuti del tuo sito, non sarà necessario un file robots.txt (nemmeno vuoto).

Anche se Google non eseguirà la scansione o l'indicizzazione dei contenuti delle pagine bloccate dal file robots.txt, potrà comunque indicizzare gli URL trovati su altre pagine web. Di conseguenza, l'URL della pagina e, potenzialmente, anche altre informazioni disponibili pubblicamente quali il testo di ancoraggio nei link al sito o il titolo fornito dall'Open Directory Project (www.dmoz.org), possono essere visualizzati nei risultati di ricerca di Google.

Per poter utilizzare un file robots.txt, devi avere accesso alla directory principale del tuo dominio (se non sei sicuro di avere accesso, contatta il tuo servizio di hosting web). Se non hai accesso alla directory principale di un dominio, puoi limitare l'accesso utilizzando il metatag robots.

Per impedire che i contenuti di una pagina vengano elencati nell'indice web di Google anche se altri siti contengono link a essa, utilizza un noindex meta tag o x-robots-tag. Quando analizza la pagina, Googlebot riconosce il meta tag noindex e impedisce la visualizzazione della pagina nell'indice web. L'intestazione HTTP x-robots-tag è particolarmente utile se desideri limitare l'indicizzazione di file non HTML, come i grafici o altri tipi di documenti.

Creazione di un file robots.txt

Il file robots.txt più semplice utilizza due regole:

  • User-agent: il robot al quale si applica la seguente regola
  • Disallow: l'URL che desideri bloccare

Queste due righe sono considerate un'istruzione unica nel file. Puoi includere il numero di istruzioni desiderato. Puoi includere più righe Disallow e più user-agent in una sola istruzione.

Ogni sezione nel file robots.txt è separata e non si aggiunge alle sezioni precedenti. Ad esempio:


User-agent: *
Disallow: /cartella1/

User-Agent: Googlebot
Disallow: /cartella2/

In questo esempio, solo gli URL associati a /cartella2/ verranno bloccati per Googlebot.

User-agent e bot

Uno user-agent è un robot specifico di un motore di ricerca. Il database dei robot web riporta molti dei comuni bot. Puoi impostare un'istruzione in modo che venga applicata a uno specifico bot (indicando il nome) oppure a tutti i bot (utilizzando un asterisco). Un'istruzione che si applica a tutti i bot ha il seguente aspetto:

User-agent: *

Google utilizza diversi bot (user-agent). Il bot che utilizziamo per la nostra ricerca web è Googlebot. Gli altri nostri bot, quali Googlebot-Mobile e Googlebot-Image, seguono le regole da te impostate per Googlebot, ma per essi puoi impostare anche regole specifiche.

Blocco di user-agent

La riga Disallow riporta le pagine che desideri bloccare. Puoi indicare un URL specifico o un pattern. L'istruzione deve iniziare con una barra (/).

  • Per bloccare l'intero sito, utilizza la barra (/).
    Disallow: /
  • Per bloccare una directory e il relativo contenuto, fai seguire il nome della directory da una barra (/).
    Disallow: /directory-indesiderata/
  • Per bloccare una pagina indica tale pagina.
    Disallow: /file_privato.html
  • Per rimuovere una determinata immagine da Google Immagini, aggiungi quanto indicato di seguito:
    User-agent: Googlebot-Image
    Disallow: /immagini/cani.jpg 
  • Per rimuovere tutte le immagini del tuo sito da Google Immagini:
    User-agent: Googlebot-Image
    Disallow: / 
  • Per bloccare i file di un tipo specifico (ad esempio .gif), utilizza la seguente istruzione:
    User-agent: Googlebot
    Disallow: /*.gif$
  • Per impedire la scansione delle pagine del tuo sito pur continuando a visualizzare gli annunci AdSense su tali pagine, non ammettere l'accesso di tutti i bot diversi da Mediapartners-Google a tali pagine. In tal modo, le pagine non verranno visualizzate nei risultati di ricerca, ma il robot Mediapartners-Google potrà analizzarle per determinare gli annunci da mostrare. Il robot Mediapartners-Google non condivide le pagine con gli altri user-agent di Google. Ad esempio:
    User-agent: *
    Disallow: /
    
    User-agent: Mediapartners-Google
    Allow: /

Nota che le istruzioni fanno distinzione tra maiuscole e minuscole. Ad esempio, Disallow: /file_indesiderato.asp blocca http://www.example.com/file_indesiderato.asp, ma ammette http://www.example.com/File_indesiderato.asp. Gli spazi bianchi (in particolare le righe vuote) e le istruzioni sconosciute presenti nel file robots.txt verranno ignorati da Googlebot.

Googlebot supporta l'invio di file di Sitemap tramite il file robots.txt.

Corrispondenza pattern

Googlebot (ma non tutti i motori di ricerca) rispetta alcune corrispondenze di pattern.

  • Per creare una corrispondenza di una sequenza di caratteri, utilizza un asterisco (*). Ad esempio, per bloccare l'accesso a tutte le sottodirectory che iniziano con "private":
    User-agent: Googlebot
    Disallow: /private*/
  • Per bloccare l'accesso a tutti gli URL che comprendono un punto interrogativo (?) (più precisamente, qualsiasi URL che inizia con il tuo nome di dominio, seguito da una qualsiasi stringa, seguita da un punto interrogativo, seguito da una qualsiasi stringa):
    User-agent: Googlebot
    Disallow: /*?
  • Per specificare la corrispondenza della fine di un URL, utilizza il carattere $. Ad esempio, per bloccare tutti gli URL che terminano con .xls:
    User-agent: Googlebot 
    Disallow: /*.xls$

    Puoi utilizzare questa corrispondenza del pattern in combinazione con l'istruzione Allow. Ad esempio, se un punto interrogativo (?) indica un ID sessione, puoi escludere tutti gli URL che li contengono per fare in modo che Googlebot non esegua la scansione di pagine duplicate. Tuttavia, gli URL che terminano con un punto interrogativo (?) potrebbero essere la versione della pagina che desideri includere. In questo caso, puoi impostare il tuo file robots.txt nel seguente modo:

    User-agent: *
    Allow: /*?$
    Disallow: /*?

    L'istruzione Disallow: / *? bloccherà qualsiasi URL che contiene un ? (più precisamente, bloccherà qualsiasi URL che inizia con il tuo nome di dominio, seguito da qualsiasi stringa, seguita da un punto interrogativo, seguito da qualsiasi stringa).

    L'istruzione Allow: /*?$ consentirà qualsiasi URL che termina con un ? (più precisamente, consentirà qualsiasi URL che inizia con il tuo nome di dominio, seguito da una stringa, seguita da un ?, senza caratteri dopo il ?).

Per salvarlo, scarica il file o copia il contenuto in un file di testo e salvalo come robots.txt. Salva il file nella directory di primo livello del tuo sito. Il file robots.txt deve risiedere nella directory principale del dominio e deve essere denominato "robots.txt". Un file robots.txt posizionato in una sottodirectory non è valido, in quanto i bot lo cercano solo nella directory principale del dominio. Ad esempio, http://www.example.com/robots.txt è un percorso valido, mentre http://www.example.com/mysite/robots.txt non lo è.

Analisi di un file robots.txt

Lo strumento Analizza robots.txt consente di rilevare nel file robots.txt eventuali istruzioni che impediscono per sbaglio a Googlebot di accedere a un file o a una directory sul tuo sito, o che consentono a Googlebot di eseguire la scansione di file che non dovrebbero apparire sul Web. Quando inserisci il testo di un file robots.txt proposto, lo strumento lo legge con le stesse modalità di Googlebot, quindi elenca gli effetti del file e gli eventuali problemi rilevati.

Per analizzare il file robots.txt di un sito, procedi nel seguente modo:

  1. Nella home page di Strumenti per i Webmaster, fai clic sul sito desiderato.
  2. Sotto Scansione, fai clic su URL bloccati.
  3. Se non è già selezionata, fai clic sulla scheda Analizza robots.txt.
  4. Copia i contenuti del tuo file robots.txt e incollali nella prima casella.
  5. Nella casella URL, indica il sito da analizzare.
  6. Nell'elenco User-agent, seleziona gli user-agent desiderati.

Qualsiasi modifica apportata in questo strumento non verrà salvata. Per salvare le eventuali modifiche, dovrai copiare e incollare i contenuti nel tuo file robots.txt.

Questo strumento fornisce i risultati solo per gli user-agent di Google (ad esempio Googlebot). È possibile che altri programmi automatizzati non interpretino il file robots.txt nello stesso modo. Ad esempio, Googlebot supporta una definizione estesa del protocollo robots.txt standard. Esso, quindi, interpreta correttamente le direttive Allow: e certe corrispondenze di pattern. Pertanto, sebbene lo strumento mostri le righe che includono queste estensioni come correttamente interpretate, ricorda che ciò è valido solo per Googlebot e non necessariamente per altri programmi automatizzati che possono effettuare la scansione del tuo sito.