Blocco degli URL con robots.txt

Informazioni sui file robots.txt

Un file robots.txt è un file di testo memorizzato nella directory principale del sito e che indica quali parti di tale sito non sono accessibili ai crawler dei motori di ricerca. Il file utilizza lo standard Robots Exclusion, un protocollo con un piccolo insieme di comandi che puoi utilizzare per indicare l'accesso al sito in base alla sezione e l'accesso consentito a specifici tipi di web crawler (come i crawler dei dispositivi mobili o quelli dei computer desktop).

Sarà necessario un file robots.txt solo se sul tuo sito sono presenti contenuti che desideri vengano esclusi dall'indicizzazione da parte di Google o altri motori di ricerca.

Per verificare a quali URL Google può e non può accedere sul tuo sito web, prova a utilizzare lo strumento Analizza robots.txt.

Limiti di robots.txt

Prima di creare il file robots.txt, è necessario comprendere i rischi che l'utilizzo di questo solo metodo di blocco dell'URL comporta. Talvolta sarebbe opportuno prendere in considerazione altri metodi per assicurarti che i tuoi URL non siano rintracciabili sul web.

  • Istruzioni di robots.txt solo come linee guida

    I comandi del file robots.txt non sono regole che tutti i crawler devono seguire, ma sono piuttosto linee guida per l'accesso ai siti. Googlebot e altri web crawler affidabili seguono le istruzioni contenute in un file robots.txt, ma non è detto che altri crawler facciano altrettanto. Perciò, per garantire la totale sicurezza delle informazioni riservate, ti consigliamo di utilizzare altri metodi di blocco, come la protezione mediante password dei file privati presenti sul tuo server.
  • Interpretazione diversa della sintassi a seconda del crawler

    Anche se i web crawler affidabili si attengono alle istruzioni di un file robots.txt, alcuni potrebbero interpretarle in modo diverso. È necessario conoscere la sintassi più appropriata da applicare ai diversi web crawler, poiché che alcuni potrebbero non comprendere certe istruzioni.
  • Le linee guida di robots.txt non possono impedire riferimenti ai tuoi URL su altri siti

    Sebbene Google non esegua la scansione o l'indicizzazione dei contenuti bloccati dal file robots.txt, potrebbe ancora trovare e indicizzare in altri luoghi del Web le informazioni relative agli URL non consentiti. Di conseguenza, l'indirizzo URL e, potenzialmente, anche altre informazioni disponibili pubblicamente, quali il testo di ancoraggio nei link al sito, potrebbero continuare a essere visualizzati nei risultati di ricerca di Google. Puoi impedire definitivamente al tuo URL di essere incluso nei risultati di ricerca di Google utilizzando il file robots.txt insieme ad altri metodi di blocco dell'URL, come la protezione mediante password dei file presenti sul tuo server o l'inserimento di meta tag nell'HTML.
Nota. La combinazione di più linee guida di scansione e indicizzazione potrebbe entrare in contrasto con altre linee guida esistenti. Scopri ulteriori informazioni su come configurare correttamente queste linee guida leggendo la sezione riguardante la combinazione di direttive di scansione e indicizzazione nella documentazione di Google Developers.