Blocco degli URL con robots.txt

Informazioni sui file robots.txt

Cos'è un file robots.txt?

Un file robots.txt fa capire ai crawler dei motori di ricerca quali pagine o file possono o non possono richiedere dal tuo sito. Viene usato principalmente per evitare di sovraccaricare di richieste il sito; non è un meccanismo che permette di escludere una pagina web da Google. Per escludere una pagina da Google, devi usare istruzioni o tag noindex oppure proteggere tramite password le pagine.

Per che cosa viene utilizzato il file robots.txt?

Il file robots.txt viene usato principalmente per gestire il traffico dei crawler verso il tuo sito e a volte per escludere una pagina da Google, a seconda del tipo di file:

Tipo di pagina Gestione del traffico Nascondere da Google Descrizione
Pagina web

Per le pagine web (HTML, PDF o altri formati non multimediali che Google può leggere), il file robots.txt ti consente di gestire il traffico di scansione se ritieni che il server possa essere sovraccaricato di richieste dal crawler di Google oppure per evitare che venga eseguita la scansione di pagine simili o non importanti del tuo sito.

Non devi utilizzare il file robots.txt come mezzo per nascondere le pagine web dai risultati della Ricerca Google. Questo perché, se altre pagine rimandano a una pagina del tuo sito con testo descrittivo, la pagina del tuo sito potrebbe essere comunque indicizzata anche se non è stata visitata. Se vuoi impedire la visualizzazione della tua pagina nei risultati di ricerca, utilizza un altro metodo, ad esempio la protezione tramite password oppure un'istruzione noindex.

Se la pagina web è bloccata da un file robots.txt, potrebbe comunque essere visualizzata nei risultati di ricerca, ma il risultato di ricerca non avrà una descrizione e sarà simile a quello mostrato in questa pagina. I file immagine, i file video, i PDF e altri file non HTML verranno esclusi. Se vedi questo risultato di ricerca per la tua pagina e vuoi sistemarlo, rimuovi la voce del file robots.txt che blocca la pagina. Se vuoi escludere completamente la pagina dai risultati di ricerca, usa un altro metodo.

File multimediale

Usa il file robots.txt per gestire il traffico di scansione e anche per impedire la visualizzazione di file immagine, video e audio nei risultati di ricerca di Google. Tieni presente che non verrà impedito ad altri utenti o pagine di rimandare al tuo file immagine/video/audio.

File di risorse

Puoi utilizzare il file robots.txt per bloccare i file di risorse, come file di immagine, script o stile non importanti, se ritieni che le pagine caricate senza tali risorse non subiranno conseguenze significative in seguito alla perdita. Tuttavia, se l'assenza di queste risorse complica la comprensione della pagina per il crawler di Google, non devi bloccarle, altrimenti Google non potrà garantire buoni risultati nell'analisi delle tue pagine che dipendono da tali risorse.

Uso un servizio di hosting di siti

Se usi un servizio di hosting di siti, come WIX, Drupal o Blogger, potrebbe non essere necessario (o essere possibile) modificare direttamente il file robots.txt. Al contrario, il tuo provider potrebbe presentare un'impostazione relativa alle pagine o un altro meccanismo per indicare ai motori di ricerca se eseguire o meno la scansione delle pagine.

Per sapere se una pagina è stata sottoposta a scansione da Google, cerca il relativo URL su Google.

Se vuoi nascondere (o scoprire) la pagina, aggiungi (o rimuovi) requisiti di accesso alla pagina e cerca su Google le istruzioni per modificare la visibilità della pagina nei motori di ricerca sull'host del tuo sito, ad esempio: wix nascondere pagine dai motori di ricerca.

Limiti di robots.txt

Prima di creare o modificare un file robots.txt, dovresti conoscere i limiti di questo metodo di blocco degli URL. Talvolta sarebbe opportuno prendere in considerazione altri metodi per assicurarti che i tuoi URL non siano rintracciabili sul Web.

  • Istruzioni di robots.txt solo come linee guida
    I comandi del file robots.txt non sono regole che tutti i crawler devono seguire, ma sono piuttosto linee guida per l'accesso ai siti. Googlebot e altri web crawler affidabili seguono le istruzioni contenute in un file robots.txt, ma non è detto che altri crawler facciano altrettanto. Perciò, per garantire la totale sicurezza delle informazioni riservate, ti consigliamo di utilizzare altri metodi di blocco, come la protezione mediante password dei file privati presenti sul tuo server.
  • Interpretazione diversa della sintassi a seconda del crawler
    Anche se i web crawler affidabili si attengono alle istruzioni di un file robots.txt, alcuni potrebbero interpretarle in modo diverso. È necessario conoscere la sintassi più appropriata da applicare ai diversi web crawler, poiché alcuni potrebbero non comprendere determinate istruzioni.
  • Una pagina bloccata dal file robots.txt può comunque essere indicizzata se altri siti hanno link che rimandano alla pagina
    Sebbene Google non esegua la scansione o l'indicizzazione dei contenuti bloccati dal file robots.txt, potrebbe comunque trovare e indicizzare un URL non consentito se altre posizioni del Web hanno link che rimandano a tale URL. Di conseguenza, l'indirizzo URL e, potenzialmente, anche altre informazioni disponibili pubblicamente, quali l'anchor text nei link che rimandano alla pagina, potrebbero continuare a essere visualizzati nei risultati della Ricerca Google. Per evitare che l'URL venga visualizzato nei risultati della Ricerca Google, dovresti proteggere tramite password i file sul server oppure usare l'intestazione della risposta o il meta tag noindex (o ancora rimuovere completamente la pagina).
Nota: se combini più istruzioni di scansione e indicizzazione, alcune istruzioni potrebbero entrare in contrasto con altre. Scopri ulteriori informazioni su come configurare correttamente queste linee guida leggendo la sezione riguardante la combinazione di direttive di scansione e indicizzazione nella documentazione di Google Developers.

Testare il blocco di una pagina da parte del file robots.txt

Puoi verificare se una pagina o una risorsa è bloccata da una regola del file robots.txt.

Per testare le istruzioni noindex, usa lo strumento Controllo URL.

Hai trovato utile questo articolo?
Come possiamo migliorare l'articolo?