Ricerca
Cancella ricerca
Chiudi ricerca
App Google
Menu principale
true

Blocco degli URL con robots.txt

Creazione di un file robots.txt

Per creare un file robots.txt devi avere accesso alla directory principale del tuo dominio. Se hai dubbi in merito a come accedere alla directory principale, puoi contattare il tuo fornitore del servizio di hosting web. Inoltre, se sai di non poter accedere alla directory principale del dominio, puoi utilizzare metodi di blocco alternativi, come la protezione tramite password dei file presenti sul tuo server e l'inserimento di meta tag nel codice HTML.

Puoi creare o modificare un file robots.txt esistente utilizzando lo strumento Tester dei file robots.txt. In questo modo potrai testare le modifiche che apporti di volta in volta al tuo file robots.txt.

Informazioni sulla sintassi del file robots.txt

Il file robots.txt più semplice utilizza due parole chiave: User-agent e Disallow. Gli user-agent sono robot dei motori di ricerca (o web crawler software); gran parte degli user-agent è elencata nel Web Robots Database. Disallow è un comando che impedisce allo user-agent di accedere a un particolare URL. Per consentire a Google l'accesso a un particolare URL, che è una directory secondaria in una directory principale di sola lettura, è possibile invece utilizzare una terza parola chiave, Allow.

Google utilizza diversi user-agent, come Googlebot per la Ricerca Google e Googlebot-Image per Google Immagini. Gran parte degli user-agent di Google seguono le regole che hai impostato per Googlebot, ma puoi anche ignorare questa opzione e impostare regole specifiche solo per alcuni user-agent di Google.

Questa è la sintassi per utilizzare le parole chiave:

User-agent: [the name of the robot the following rule applies to]

Disallow: [the URL path you want to block]

Allow: [the URL path in of a subdirectory, within a blocked parent directory, that you want to unblock]

Queste due righe sono considerate un'istruzione unica nel file, dove la regola Disallow si applica soltanto agli user-agent specificati al di sopra. Puoi includere in una sola istruzione il numero di istruzioni desiderato e applicare più righe Disallow a diversi user-agent. Puoi impostare il comando User-agent da applicare a tutti i web crawler inserendo un asterisco (*), come nell'esempio seguente:

User-agent: *

Comandi di blocco URL da utilizzare nel tuo file robots.txt

Per bloccare...

Esempio

L'intero sito utilizza la barra (/):

Disallow: /

Una directory e i relativi contenuti fai seguire il nome della directory da una barra:

Disallow: /sample-directory/

Una pagina web indica la pagina dopo la barra:

Disallow: /private_file.html

Una determinata immagine su Google Immagini:

User-agent: Googlebot-Image

Disallow: /images/dogs.jpg

Tutte le immagini sul tuo sito da Google Immagini:

User-agent: Googlebot-Image

Disallow: /

File di un tipo specifico (ad esempio, .gif):

User-agent: Googlebot

Disallow: /*.gif$

Pagine sul tuo sito ma visualizzare gli annunci AdSense nelle pagine/0}, non consentire l'accesso a tutti i web crawler diversi da Mediapartners-Google. Questa implementazione consente di non visualizzare le tue pagine nei risultati di ricerca, ma il web crawler Mediapartners-Google potrà ancora analizzarle per stabilire quali annunci visualizzare per i visitatori del tuo sito.

User-agent: *

Disallow: /

User-agent: Mediapartners-Google

Allow: /

Tieni presente che per le istruzioni viene fatta distinzione tra maiuscole e minuscole. Ad esempio, Disallow: /file.asp blocca http://www.example.com/file.asp, ma ammette http://www.example.com/File.asp. Inoltre, Googlebot ignora gli spazi vuoti e le istruzioni sconosciute presenti nel file robots.txt.
Regole di corrispondenza pattern per ottimizzare il codice robots.txt

Corrispondenza pattern

Esempio

Per bloccare qualsiasi sequenza di caratteri utilizza un asterisco (*). Ad esempio, questo codice blocca l'accesso a tutte le sottodirectory che iniziano con "private":

User-agent: Googlebot

Disallow: /private*/

Per bloccare l'accesso a tutti gli URL che contengono punti interrogativi (?). Ad esempio, il codice di esempio blocca gli URL che iniziano con il tuo nome di dominio, seguito da qualsiasi stringa e da un punto interrogativo e ancora da qualsiasi stringa:

User-agent: Googlebot

Disallow: /*?

Per bloccare qualsiasi URL che termina in un determinato modo utilizza $. Ad esempio, il codice di esempio blocca tutti gli URL che terminano con .xls:

User-agent: Googlebot

Disallow: /*.xls$

Per bloccare pattern in combinazione con le istruzioni Allow o Disallow, guarda l'esempio a destra. In questo caso, il ? indica un ID di sessione. Solitamente, gli URL che contengono questi ID vengono bloccati da Google per impedire ai web crawler di eseguire la scansione delle pagine duplicate. Tuttavia, se alcuni URL che terminano con ? sono versioni della pagina che desideri includere, puoi adottare il seguente approccio, che ti permetterà di combinare istruzioni Allow e Disallow:

  1. L'istruzione Allow: /*?$ consente qualsiasi URL che termina con un ? (più precisamente, consente qualsiasi URL che inizia con il tuo nome di dominio, seguito da una stringa e da un ?, senza altri caratteri dopo il ?).
  2. L'istruzione Disallow: / *? blocca qualsiasi URL che include un ? (più precisamente, blocca qualsiasi URL che inizia con il tuo nome di dominio, seguito da una stringa, seguita da un punto interrogativo e da una stringa).

User-agent: *

Allow: /*?$

Disallow: /*?

Salvataggio del file robots.txt

Devi seguire le seguenti convenzioni di salvataggio affinché Googlebot e altri web crawler possano trovare e identificare il tuo file robots.txt:

  • Salva il codice robots.txt come file di testo,
  • Inserisci il file nella directory di livello più alto del tuo sito (o nella directory principale del tuo dominio) e
  • Il file robots.txt deve essere denominato robots.txt.

Ad esempio, un file robots.txt salvato nella directory principale di example.com, in corrispondenza dell'indirizzo URL http://www.example.com/robots.txt, può essere rilevato dai web crawler, mentre un file robots.txt in corrispondenza di http://www.example.com/not_root/robots.txt non può essere trovato da alcun web crawler.

Hai trovato utile questo articolo?
Come possiamo migliorare l'articolo?