Ricerca
Cancella ricerca
Chiudi ricerca
App Google
Menu principale

Blocco degli URL con robots.txt

Informazioni sui file robots.txt

Un file robots.txt è un file di testo memorizzato nella directory principale del sito e che indica quali parti di tale sito non sono accessibili ai crawler dei motori di ricerca. Il file utilizza il protocollo di esclusione robot, un protocollo con un piccolo insieme di comandi che puoi utilizzare per indicare l'accesso al sito in base alla sezione e a specifici tipi di crawler web (come i crawler dei dispositivi mobili o quelli dei computer desktop).

Per che cosa viene utilizzato il file robots.txt?

File non di immagine

Per i file non di immagine (cioè le pagine web), il file robots.txt deve essere utilizzato solo per controllare il traffico di scansione, generalmente per evitare che il server sia sovraccaricato dal crawler di Google oppure per non sprecare il budget di scansione eseguendo la scansione di pagine non importanti o simili del tuo sito. Non devi utilizzare il file robots.txt come mezzo per nascondere le pagine web dai risultati della Ricerca Google. Questo è dovuto al fatto che altre pagine potrebbero puntare alla tua pagina e la tua pagina potrebbe essere indicizzata in quel modo, evitando il file robots.txt. Se desideri impedire la visualizzazione della tua pagina nei risultati di ricerca, utilizza un altro metodo, ad esempio la protezione tramite password oppure direttive o tag noindex.

File di immagine

Il file robots.txt impedisce che i file di immagine vengano visualizzati nei risultati della Ricerca Google, tuttavia non impedisce che altre pagine o altri utenti si colleghino alla tua immagine.

File di risorse

Puoi utilizzare il file robots.txt per bloccare i file di risorse, come file di immagine, script o stile non importanti, se ritieni che le pagine caricate senza tali risorse non subiranno conseguenze significative in seguito alla perdita. Tuttavia, se l'assenza di queste risorse complica la comprensione della pagina per il crawler di Google, non devi bloccarle, altrimenti Google non potrà garantire buoni risultati nell'analisi delle tue pagine che dipendono da tali risorse.

Limiti di robots.txt

Prima di creare il file robots.txt, è necessario comprendere i rischi che l'utilizzo di questo solo metodo di blocco dell'URL comporta. Talvolta sarebbe opportuno prendere in considerazione altri metodi per assicurarti che i tuoi URL non siano rintracciabili sul Web.

  • Istruzioni di robots.txt solo come linee guida

    I comandi del file robots.txt non sono regole che tutti i crawler devono seguire, ma sono piuttosto linee guida per l'accesso ai siti. Googlebot e altri web crawler affidabili seguono le istruzioni contenute in un file robots.txt, ma non è detto che altri crawler facciano altrettanto. Perciò, per garantire la totale sicurezza delle informazioni riservate, ti consigliamo di utilizzare altri metodi di blocco, come la protezione mediante password dei file privati presenti sul tuo server.
  • Interpretazione diversa della sintassi a seconda del crawler

    Anche se i web crawler affidabili si attengono alle istruzioni di un file robots.txt, alcuni potrebbero interpretarle in modo diverso. È necessario conoscere la sintassi più appropriata da applicare ai diversi web crawler, poiché alcuni potrebbero non comprendere determinate istruzioni.
  • Una pagina bloccata dal file robots.txt può comunque essere indicizzata se altri siti hanno link che rimandano alla pagina

    Sebbene Google non esegua la scansione o l'indicizzazione dei contenuti bloccati dal file robots.txt, potrebbe comunque trovare e indicizzare un URL non consentito se altre posizioni del Web hanno link che rimandano a tale URL. Di conseguenza, l'indirizzo URL e, potenzialmente, anche altre informazioni disponibili pubblicamente, quali l'anchor text nei link che rimandano alla pagina, potrebbero continuare a essere visualizzati nei risultati della Ricerca Google. Per evitare che l'URL venga visualizzato nei risultati della Ricerca Google, dovresti proteggere tramite password i file sul server oppure usare l'intestazione della risposta o il meta tag noindex (o ancora rimuovere completamente la pagina).
Nota: se combini più istruzioni di scansione e indicizzazione, alcune istruzioni potrebbero entrare in contrasto con altre. Scopri ulteriori informazioni su come configurare correttamente queste linee guida leggendo la sezione riguardante la combinazione di direttive di scansione e indicizzazione nella documentazione di Google Developers.
Hai trovato utile questo articolo?
Come possiamo migliorare l'articolo?
false