Ricerca
Cancella ricerca
Chiudi ricerca
App Google
Menu principale

Blocco degli URL con robots.txt

Informazioni sui file robots.txt

Un file robots.txt è un file di testo memorizzato nella directory principale del sito e che indica quali parti di tale sito non sono accessibili ai crawler dei motori di ricerca. Il file utilizza il protocollo di esclusione robot, un protocollo con un piccolo insieme di comandi che puoi utilizzare per indicare l'accesso al sito in base alla sezione e a specifici tipi di crawler web (come i crawler dei dispositivi mobili o quelli dei computer desktop).

Per che cosa viene utilizzato il file robots.txt?

File non di immagine

Per i file non di immagine (cioè le pagine web), il file robots.txt deve essere utilizzato solo per controllare il traffico di scansione, generalmente per evitare che il server sia sovraccaricato dal crawler di Google oppure per non sprecare il budget di scansione eseguendo la scansione di pagine non importanti o simili del tuo sito. Non devi utilizzare il file robots.txt come mezzo per nascondere le pagine web dai risultati della Ricerca Google. Questo è dovuto al fatto che altre pagine potrebbero puntare alla tua pagina e la tua pagina potrebbe essere indicizzata in quel modo, evitando il file robots.txt. Se desideri impedire la visualizzazione della tua pagina nei risultati di ricerca, utilizza un altro metodo, ad esempio la protezione tramite password oppure direttive o tag noindex.

File di immagine

Il file robots.txt impedisce che i file di immagine vengano visualizzati nei risultati della Ricerca Google, tuttavia non impedisce che altre pagine o altri utenti si colleghino alla tua immagine.

File di risorse

Puoi utilizzare il file robots.txt per bloccare i file di risorse, come file di immagine, script o stile non importanti, se ritieni che le pagine caricate senza tali risorse non subiranno conseguenze significative in seguito alla perdita. Tuttavia, se l'assenza di queste risorse complica la comprensione della pagina per il crawler di Google, non devi bloccarle, altrimenti Google non potrà garantire buoni risultati nell'analisi delle tue pagine che dipendono da tali risorse.

Limiti di robots.txt

Prima di creare il file robots.txt, è necessario comprendere i rischi che l'utilizzo di questo solo metodo di blocco dell'URL comporta. Talvolta sarebbe opportuno prendere in considerazione altri metodi per assicurarti che i tuoi URL non siano rintracciabili sul web.

  • Istruzioni di robots.txt solo come linee guida

    I comandi del file robots.txt non sono regole che tutti i crawler devono seguire, ma sono piuttosto linee guida per l'accesso ai siti. Googlebot e altri web crawler affidabili seguono le istruzioni contenute in un file robots.txt, ma non è detto che altri crawler facciano altrettanto. Perciò, per garantire la totale sicurezza delle informazioni riservate, ti consigliamo di utilizzare altri metodi di blocco, come la protezione mediante password dei file privati presenti sul tuo server.
  • Interpretazione diversa della sintassi a seconda del crawler

    Anche se i web crawler affidabili si attengono alle istruzioni di un file robots.txt, alcuni potrebbero interpretarle in modo diverso. È necessario conoscere la sintassi più appropriata da applicare ai diversi crawler web, poiché alcuni potrebbero non comprendere certe istruzioni.
  • Le linee guida di robots.txt non possono impedire riferimenti ai tuoi URL su altri siti

    Sebbene Google non esegua la scansione o l'indicizzazione dei contenuti bloccati dal file robots.txt, potrebbe ancora trovare e indicizzare in altri luoghi del Web le informazioni relative agli URL non consentiti. Di conseguenza, l'indirizzo URL e, potenzialmente, anche altre informazioni disponibili pubblicamente, quali l'anchor text nei link al sito, potrebbero continuare a essere visualizzati nei risultati della Ricerca Google. Puoi impedire definitivamente che l'URL venga visualizzato nei risultati della Ricerca Google utilizzando altri metodi di blocco dell'URL, come la protezione tramite password dei file presenti sul tuo server o l'utilizzo di intestazione della risposta o meta tag noindex.
Nota. La combinazione di più direttive di scansione e indicizzazione potrebbe entrare in contrasto con altre direttive esistenti. Scopri ulteriori informazioni su come configurare correttamente queste linee guida leggendo la sezione riguardante la combinazione di direttive di scansione e indicizzazione nella documentazione di Google Developers.
Hai trovato utile questo articolo?