​Report sui file robots.txt

Scopri se Google è in grado di elaborare i tuoi file robots.txt

Il report sui file robots.txt mostra quali file robots.txt Google ha trovato per i 20 host principali sul tuo sito, l'ultima volta che sono stati sottoposti a scansione ed eventuali avvisi o errori riscontrati. Il report consente inoltre di richiedere una nuova scansione di un file robots.txt per situazioni di emergenza.

Un file robots.txt viene utilizzato per impedire ai motori di ricerca di eseguire la scansione del tuo sito. Utilizza noindex se vuoi impedire la visualizzazione di contenuti nei risultati di ricerca.

Questo report è disponibile solo per le proprietà a livello di dominio, il che significa:

  • una proprietà Dominio (come example.com o m.example.com) oppure
  • una proprietà con prefisso URL senza un percorso, come https://example.com/, ma non https://example.com/path/.

Apri il report robots.txt

 

Controllare i file robots.txt e lo stato della scansione

In una proprietà Dominio, il report include i file robots.txt dei primi 20 host in quella proprietà.

Per ogni file robots.txt controllato da Search Console, puoi vedere le seguenti informazioni:

  • Percorso del file: l'URL completo in cui Google ha verificato la presenza di un file robots.txt. Un URL viene visualizzato nel report solo se presenta lo stato Recuperato o Non recuperato in qualsiasi momento negli ultimi 30 giorni. Consulta la sezione Posizione dei file robots.txt.
  • Stato del recupero: lo stato dell'ultima richiesta di recupero per questo file. Ecco i valori possibili:
    • Non recuperato - Non trovato (404): si è verificato un errore 404 (il file non esiste) al momento della richiesta di questo file. Se hai pubblicato un file robots.txt all'URL elencato ma ricevi questo errore, prova a controllare l'URL per verificare se ci sono problemi di disponibilità. Un file con stato Non trovato (404) per 30 giorni non verrà più visualizzato nel report (anche se Google continuerà a controllarlo in background). È possibile che non vi siano errori del file robots.txt e questo significa che Google può eseguire la scansione di tutti gli URL del tuo sito. Tuttavia, per informazioni dettagliate, leggi la sezione relativa a come si comporta Google in caso di errore nel file robots.txt.
    • Non recuperato - Qualsiasi altro motivo: si è verificato un altro problema durante la richiesta di questo file. Consulta l'elenco dei problemi di indicizzazione.
    • Recuperato: l'ultimo tentativo di scansione ha restituito un file robots.txt. Eventuali problemi rilevati durante l'analisi del file verranno elencati nella colonna Problemi. Google ignora le righe con problemi e utilizza quelle che è in grado di analizzare.
  • Controllato in data: l'ultima volta che Google ha provato a eseguire la scansione dell'URL, nell'ora locale.
  • Dimensioni: le dimensioni del file recuperato, espresse in byte. Se l'ultimo tentativo di recupero non è andato a buon fine, il campo sarà vuoto.
  • Problemi: la tabella mostra il numero di eventuali problemi di analisi nei contenuti del file al momento dell'ultimo recupero. Gli errori impediscono l'utilizzo di una regola, mentre gli avvisi no. Scopri di più sul comportamento di Google in caso di errore del file robots.txt. Per risolvere i problemi di analisi, utilizza uno strumento di convalida del file robots.txt.

Visualizzare l'ultima versione recuperata

Puoi vedere l'ultima versione recuperata di un file robots.txt facendovi clic nell'elenco dei file nel report. Se il file robots.txt presenta errori o avvisi, questi verranno evidenziati nei contenuti del file visualizzati. Puoi scorrere gli errori e gli avvisi utilizzando i tasti freccia.

Visualizzare le versioni recuperate in precedenza

Per visualizzare le richieste di recupero per un determinato file robots.txt negli ultimi 30 giorni, fai clic sul file nell'elenco dei file nel report e poi su Versioni. Fai clic sulla versione di tuo interesse per vederne i contenuti del file. Una richiesta viene inclusa nella cronologia solo se il file recuperato o il risultato del recupero è diverso dalla precedente richiesta di recupero file.

Se Google ha riscontrato un errore di recupero nell'ultimo tentativo di recupero, utilizzerà l'ultima versione recuperata correttamente senza errori per un massimo di 30 giorni.

Richiedere una nuova scansione

Puoi richiedere una nuova scansione di un file robots.txt quando correggi un errore o apporti una modifica importante.

Quando richiedere una nuova scansione

In genere non è necessario richiedere una nuova scansione di un file robots.txt, perché Google esegue spesso nuove scansioni di questi file. Tuttavia, può essere opportuno richiedere una nuova scansione del tuo file robots.txt nelle seguenti circostanze:

  • Hai modificato le regole del tuo file robots.txt al fine di sbloccare alcuni URL importanti e vuoi informare rapidamente Google (tieni presente che ciò non garantisce una nuova scansione immediata degli URL sbloccati).
  • Hai corretto un errore di recupero o un altro errore critico.

Come richiedere una nuova scansione

Per richiedere una nuova scansione, seleziona l'icona Altre impostazioni accanto a un file nell'elenco dei file robots.txt e fai clic su Richiedi una nuova scansione.

Siti web su servizi di hosting

Se il tuo sito è ospitato su un servizio di hosting per siti web, potrebbe non essere facile modificare il file robots.txt. In questo caso, consulta la documentazione dell'host del sito su come bloccare la scansione o l'indicizzazione di pagine specifiche da parte di Google. Tieni presente che la maggior parte degli utenti si preoccupa di impedire la visualizzazione dei file nella Ricerca Google, anziché la loro scansione da parte di Google; in questo caso, cerca nel servizio di hosting informazioni su come bloccare le pagine per i motori di ricerca.

Che cosa succede quando Google non può recuperare o leggere il file robots.txt

Se non viene trovato un file robots.txt per un dominio o un sottodominio, Google presuppone di poter eseguire la scansione di qualsiasi URL all'interno dell'host.

Se Google trova un file robots.txt, ma non riesce a recuperarlo, adotta questo comportamento:

  1. Nelle prime 12 ore, Google interrompe la scansione del sito, ma continua a tentare di recuperare il file robots.txt.
  2. Se Google non riesce a recuperare una nuova versione, per i 30 giorni successivi utilizzerà l'ultima versione valida, mentre tenta ancora di recuperarne una nuova. Puoi vedere l'ultima versione valida nella cronologia delle versioni.
  3. Se dopo 30 giorni gli errori non sono ancora stati corretti:
    • Se il sito è generalmente disponibile per Google, ci comporteremo come se non fosse presente un file robots.txt (ma continuiamo a cercare una nuova versione).
    • Se il sito presenta problemi di disponibilità generale, Google ne interromperà la scansione, continuando a richiedere periodicamente un file robots.txt.

Se Google trova e può recuperare un file robots.txt, legge il file riga per riga. Se una riga contiene un errore o non può essere analizzata in base a una regola del file robots.txt, verrà ignorata. Se il file non contiene righe valide, Google lo considera come un file robots.txt vuoto, il che significa che non vengono dichiarate regole per il sito.

Posizione dei file robots.txt

Terminologia:

  • Un protocollo (chiamato anche schema) corrisponde a HTTP o HTTPS.
  • Un host è tutto ciò che si trova nell'URL dopo il protocollo (http:// o https://) fino al percorso. Pertanto, l'host m.de.example.com implica 3 possibili host: m.de.example.com, de.example.com ed example.com, ciascuno dei quali può avere il proprio file robots.txt.
  • Un'origine è il protocollo + l'host. Pertanto, https://example.com/ o https://m.example.co.es/

In base allo standard RFC 9309, il file robots.txt deve risiedere nella directory principale di ogni combinazione di protocollo e host del tuo sito.

Per una proprietà Dominio:

  1. Search Console sceglie i primi 20 host, ordinati in base alla frequenza di scansione. Per ogni dominio, il report potrebbe mostrare fino a 2 origini, il che significa che la tabella può mostrare fino a 40 righe. Se non riesci a trovare l'URL del file robots.txt per uno dei tuoi host, crea una proprietà Dominio per il sottodominio mancante.
  2. Per ciascun host, Search Console controlla 2 URL:
    • http://<host>/robots.txt
    • https://<host>/robots.txt
  3. Se il file robots.txt all'URL richiesto viene segnalato come Non trovato per 30 giorni, Search Console non mostra l'URL in questo report, anche se Google continuerà a controllarlo in background. Per qualsiasi altro risultato, il report mostra l'URL controllato.

Per una proprietà con prefisso URL a livello di host (ad esempio https://example.com/), Search Console controlla solo una singola origine per quella proprietà. In altre parole, per la proprietà https://example.com, Search Console controlla solo https://example.com/robots.txt, non http://example.com/robots.txt o https://m.example.com/robots.txt.

Attività comuni

Visualizzare un file robots.txt

Per aprire un file robots.txt elencato in questo report, fai clic sul file nell'elenco dei file robots.txt. Per aprire il file nel browser, fai clic su Apri file robots.txt pubblicato.

Puoi aprire qualsiasi file robots.txt presente sul web nel tuo browser. Leggi di seguito per sapere quale URL visitare.

Dove possono trovarsi i file robots.txt

Un file robots.txt si trova nella directory principale di un protocollo e di un dominio. Per determinare l'URL, taglia tutto ciò che segue l'host (e la porta facoltativa) nell'URL di un file e aggiungi "/robots.txt". Puoi accedere al file robots.txt nel tuo browser, se presente. I file robots.txt non vengono ereditati dai sottodomini o dai domini principali e una determinata pagina può essere interessata da un solo file robots.txt. Ecco alcuni esempi:

URL del file URL del file robots.txt che può influire sul file
http://example.com/home http://example.com/robots.txt
https://m.de.example.com/some/page/here/mypage https://m.de.example.com/robots.txt
https://example.com?pageid=234#myanchor https://example.com/robots.txt
https://images.example.com/flowers/daffodil.png https://images.example.com/robots.txt

Scoprire quale file robots.txt interessa una pagina o un'immagine

Per trovare l'URL del file robots.txt che interessa una pagina o un'immagine:

  1. Trova l'URL esatto della pagina o dell'immagine. Per un'immagine, nel browser Google Chrome, fai clic con il tasto destro del mouse e seleziona Copia URL immagine.
  2. Rimuovi la fine dell'URL dopo il dominio di primo livello (ad esempio .com, .org, .co.il) e aggiungi /robots.txt alla fine. Di conseguenza, il file robots.txt per https://images.example.com/flowers/daffodil.png è https://images.example.com/robots.txt.
  3. Apri l'URL nel browser per verificare che esista. Se il browser non riesce ad aprire il file, significa che non esiste.

Verificare se Google è bloccato dal file robots.txt

  • Se vuoi controllare se un URL specifico è bloccato da un file robots.txt, puoi verificare la disponibilità dell'URL con lo strumento Controllo URL.
  • Se vuoi eseguire il test di una regola specifica del file robots.txt su un file non ancora presente sul web oppure vuoi testare una nuova regola, puoi utilizzare un tester dei file robots.txt di terze parti.

Ulteriori informazioni

È stato utile?

Come possiamo migliorare l'articolo?

Hai bisogno di ulteriore assistenza?

Prova i passaggi successivi indicati di seguito:

Ricerca
Cancella ricerca
Chiudi ricerca
App Google
Menu principale