Rapporto Statistiche di scansione

Il rapporto Statistiche di scansione mostra le statistiche sulla cronologia di scansione di Google sul tuo sito web: ad esempio, quante richieste sono state effettuate e quando, la risposta fornita dal server ed eventuali problemi di disponibilità riscontrati. Puoi utilizzare questo rapporto per stabilire se Google ha riscontrato problemi di pubblicazione durante la scansione del tuo sito.

Questo rapporto è rivolto agli utenti avanzati. Se il tuo sito ha meno di mille pagine, non dovrebbe essere necessario utilizzare questo rapporto né esaminare le scansioni con questo livello di dettaglio.

Apri il rapporto Statistiche di scansione

 

Puoi accedere al rapporto Statistiche di scansione in Search Console facendo clic su Impostazioni (Impostazioni proprietà) > Statistiche di scansione.

Per iniziare

Prima di poter utilizzare questo rapporto, è necessario comprendere quanto segue:

Informazioni sui dati

  • Tutti gli URL mostrati e conteggiati sono gli URL effettivamente richiesti da Google. Le decisioni di canonicalizzazione prese da Google sono antecedenti o successive alla richiesta di questi URL.
  • Le risorse ospitate fuori dal sito non vengono conteggiate in questo rapporto, sia in termini di richieste sia di byte recuperati. Di conseguenza, se tutte le immagini del tuo sito sono memorizzate su un altro servizio di hosting, le richieste relative a queste immagini non appariranno in questo rapporto.

Usare il rapporto

Fai clic su una voce della tabella per un quadro dettagliato dell'elemento, incluso un elenco di URL di esempio; fai clic su un URL per vedere i dettagli relativi alla specifica richiesta di scansione. Ad esempio, nella tabella che mostra le risposte raggruppate per tipo, fai clic sulla riga HTML per visualizzare le informazioni di scansione aggregate per tutte le pagine HTML sottoposte a scansione sul tuo sito, nonché per dettagli quali la data e l'ora di scansione, il codice di risposta, le dimensioni della risposta e altri valori relativi a un campione scelto di tali URL.

Siti multi-host

Se stai sfogliando una proprietà Dominio contenente due o più domini secondari (ad esempio: example.com, m.example.com, www.example.com), puoi visualizzare i tuoi dati sia circoscritti all'ambito di un singolo dominio secondario sia nel loro insieme complessivo relativo a tutti i domini. Vengono mostrati solo i primi 20 domini secondari che hanno ricevuto traffico negli ultimi 90 giorni.

Se la tua proprietà è associata a più di un dominio secondario, visualizzerai un elenco di Host con statistiche di primo livello per ogni dominio secondario. Sfoglia il rapporto al primo livello per visualizzare le statistiche combinate relative a tutti i domini secondari o fai clic su qualsiasi dominio secondario nell'elenco per visualizzare il rapporto Statistiche di scansione limitato all'ambito del dominio secondario selezionato.

Richieste di scansione totali

Il numero totale di richieste di scansione inviate per gli URL sul tuo sito, che siano state completate correttamente o meno. Include le richieste di risorse utilizzate dalla pagina, se tali risorse si trovano sul tuo sito; non vengono conteggiate le richieste di risorse ospitate al di fuori del tuo sito. Le richieste duplicate per lo stesso URL vengono conteggiate singolarmente. 

Dimensioni totali download

Il numero totale di byte scaricati dal tuo sito durante la scansione per il periodo di tempo specificato. Se Google aveva memorizzato nella cache una risorsa di pagina nel corso di un'altra scansione senza richiedere di nuovo la risorsa memorizzata nella cache, questa non viene conteggiata, anche se viene caricata dalla pagina.

Tempo medio di risposta

Tempo medio di risposta per tutte le risorse recuperate dal sito durante il periodo di tempo specificato. Ogni risorsa collegata a una pagina viene conteggiata come una risposta a sé stante.

Stato host

Lo stato host indica se Google ha riscontrato problemi di disponibilità durante la scansione del tuo sito. Lo stato può assumere uno dei seguenti valori:

  • No significant availability issues icon
    Google non ha riscontrato sostanziali problemi di disponibilità durante la scansione del tuo sito negli ultimi 90 giorni. Non c'è altro da fare.
  • Some availability issues, but not recently
    Google ha riscontrato almeno un problema sostanziale di disponibilità durante la scansione del tuo sito negli ultimi 90 giorni, che però si è verificato più di una settimana fa. È possibile si sia trattato di un problema temporaneo o che si è risolto nel frattempo. Dovresti consultare la tabella Risposta per accertare quali problemi si sono verificati e decidere se è necessario un tuo intervento.
  • Recent availability issue
    Google ha riscontrato almeno un problema sostanziale di disponibilità sul tuo sito nella scorsa settimana. Trattandosi di un problema recente, dovresti tentare di stabilire se si tratta di un problema ricorrente. Consulta la tabella Risposta per accertare quali problemi si sono verificati e decidere se è necessario un tuo intervento.
Cosa cercare

In teoria, lo stato dell'host deve essere verde. Se lo stato di disponibilità è rosso, fai clic per visualizzare i dettagli in relazione alla disponibilità del file robots.txt, alla risoluzione DNS e alla connettività dell'host.

Dettagli sullo stato dell'host

Lo stato di disponibilità dell'host viene valutato in base alle seguenti categorie. Un errore sostanziale in una qualsiasi delle categorie può tradursi in una riduzione della disponibilità. Per ulteriori dettagli, fai clic su una categoria nel rapporto.

Per ogni categoria, viene visualizzato un grafico dei dati di scansione per il periodo di tempo considerato. Nel grafico, il superamento della linea tratteggiata rossa da parte di una metrica per la categoria considerata (ad esempio, se oltre il 5% di richieste per la risoluzione DNS non vengono completate correttamente in un determinato giorno) indica un problema per tale categoria. Inoltre, lo stato rispecchierà la recency relativa al problema più recente.

  • Recupero robots.txt
    Il grafico mostra la percentuale di errori relativi alle richieste del file robots.txt emersi nel corso di una scansione. Google richiede questo file spesso e, se la richiesta non restituisce un file valido (compilato o vuoto) o una risposta 404 (il file non esiste), Google rallenta o interrompe la scansione del sito finché non riceve una risposta accettabile per il file robots.txt. Per dettagli, consulta quanto riportato di seguito.
  • Risoluzione DNS
    Il grafico mostra quando il server DNS non ha riconosciuto il tuo nome host o non ha risposto durante la scansione. Se noti errori, contatta il tuo registrar per assicurarti che il tuo sito sia configurato correttamente e che il tuo server sia connesso a Internet.
  • Connettività server
    Il grafico mostra i casi in cui il server non risponde o non ha fornito una risposta completa per un URL durante una scansione. Per ulteriori informazioni su come correggere questi errori, consulta Errori del server.
Ulteriori dettagli sulla disponibilità del file robots.txt

Di seguito è riportata una descrizione più dettagliata di come Google verifica e utilizza i file robots.txt durante la scansione del tuo sito.

Il tuo sito non deve necessariamente avere un file robots.txt, ma deve restituire una risposta corretta (come definita di seguito) quando riceve la richiesta per questo file, altrimenti Google potrebbe interrompere la scansione del tuo sito.

  • Risposte robots.txt riuscite
  • Una qualsiasi delle seguenti risposte è considerata corretta:
    • HTTP 200 e un file robots.txt (il file può essere valido, non valido o vuoto). Se il file contiene errori di sintassi, la richiesta viene comunque considerata riuscita, sebbene eventuali regole con un errore di sintassi potrebbero essere ignorate da Google.
    • HTTP 403/404/410 (il file non esiste). Il tuo sito non deve necessariamente avere un file robots.txt.
  • Risposte robots.txt non riuscite

Ecco come Google richiede e utilizza i file robots.txt durante la scansione di un sito:

  1. Prima di eseguire la scansione del tuo sito, Google controlla in primo luogo se è presente una richiesta robots.txt recente riuscita (risalente a meno di 24 ore prima).
  2. Se Google trova una risposta robots.txt recente riuscita, la scansione avrà inizio, rispettando le regole robots.txt recuperate.
  3. Se Google non trova una risposta robots.txt riuscita o se l'ultima risposta non è andata a buon fine, Google richiederà il file robots.txt:
    • Se l'operazione ha esito positivo, la scansione può iniziare.
    • In caso contrario, Google interromperà la scansione e continuerà a richiedere il file robots.txt per circa 30 giorni. Se dopo 30 giorni Google non riesce ancora a ricevere una risposta corretta in relazione al file robots.txt:
      • Se il sito è accessibile in altro modo, Google utilizza le regole del file robots.txt il cui recupero è riuscito ed effettua la scansione in base a tali dati.
      • Se il sito nel complesso è inaccessibile, Google interromperà progressivamente la scansione del sito.

Risposte alle scansioni

In questa tabella sono riportate le risposte ricevute da Google durante la scansione del tuo sito, raggruppate in base al tipo, come percentuale di tutte le risposte alle scansioni. I dati si basano sul numero totale di richieste, non sugli URL. Quindi, se Google richiede un URL due volte ricevendo la prima volta una risposta di errore del server (500) la seconda volta OK (200), la risposta viene considerata 50% errore del server e 50% OK.

Cosa cercare
La maggior parte delle risposte dovrebbe essere di tipo 200 o di tipo "buono" (a meno che tu non stia eseguendo la riorganizzazione o lo spostamento del sito). Consulta l'elenco di seguito per informazioni su come gestire gli altri codici di risposta.

 

Ecco alcuni codici di risposta comuni e come gestirli:

Codici di risposta validi

Queste pagine sono considerate valide e non comportano alcun problema.

  • OK (200): in circostanze normali, la maggior parte delle risposte deve essere 200.
  • Spostato permanentemente (301): la pagina restituisce una risposta HTTP 301 (spostato in modo permanente), che probabilmente era quella desiderata.
  • Spostato temporaneamente (302): la pagina restituisce una risposta HTTP 302 (spostato temporaneamente), che probabilmente era quella desiderata. Se la pagina viene spostata definitivamente, imposta questa opzione su 301.
  • Spostato (altro): un'altra risposta di reindirizzamento 300 (diversa da 301 o 302).

Codici di risposta potenzialmente corretti

Le seguenti risposte potrebbero essere corrette, tuttavia è opportuno verificare che siano quelle previste.

  • Bloccata da robots.txt: in genere questa risposta indica che tutto funziona come previsto. Tuttavia, dovresti evitare il blocco delle pagine o delle risorse di cui vuoi che Google esegua la scansione. Ulteriori informazioni sui file robots.txt.
  • Gli errori 404 (pagina non trovata) possono essere dovuti a link inaccessibili all'interno o all'esterno del sito. Non è possibile, né vale la pena né tantomeno è consigliabile, correggere tutti gli errori 404 sul tuo sito. Spesso 404 è l'errore giusto da restituire (ad esempio, se la pagina è realmente inesistente, senza una pagina sostitutiva). Scopri come e quando è necessario correggere gli errori 404.

Codici di risposta non validi

Dovresti correggere le pagine che restituiscono questi errori per migliorare la scansione.

  • robots.txt non disponibile: se il file robots.txt rimane non disponibile per un giorno intero, Google interrompe la scansione per un certo tempo finché non riceve una risposta accettabile a una richiesta di robots.txt. Questo errore non corrisponde a Non trovato (404) per un file robots.txt, risposta considerata accettabile. Leggi ulteriori informazioni sul file robots.txt.
  • Non autorizzato (401/407): dovresti bloccare la scansione di queste pagine con il file robots.txt o decidere se sbloccarle. Se queste pagine non contengono dati protetti e vuoi che vengano sottoposte a scansione, potresti spostare le informazioni su pagine non protette o consentire l'accesso a Googlebot senza credenziali. Tiene presente, però, che Googlebot potrebbe essere oggetto di spoofing e consentirne l'accesso di fatto rimuove la protezione della pagina.
  • Errore del server (5XX): questi errori generano avvisi di disponibilità e devono essere corretti, se possibile. Il grafico delle miniature mostra orientativamente quando si sono verificati; fai clic per visualizzare ulteriori dettagli e l'ora e la data esatte. Stabilisci se si tratta di problemi transitori o se rappresentano errori di disponibilità più radicati nel tuo sito. Se pensi che il numero di scansioni eseguite da Google sia eccessivo, puoi richiedere una riduzione della frequenza di scansione. Se invece questo è indicativo di un grave problema di disponibilità, consulta ulteriori informazioni sui picchi di scansione. Per ulteriori informazioni su come correggere questi errori, consulta Errori del server.
  • Altro errore client (4XX): un altro errore 4XX (lato client) non specificato. La soluzione migliore è risolvere questi problemi.
  • DNS non risponde: il tuo server DNS non ha risposto alle richieste di URL sul tuo sito.
  • Errore DNS: un altro errore DNS non specificato.
  • Errore di recupero: non è stato possibile recuperare la pagina a causa di un numero di porta o di un indirizzo IP non valido oppure di una risposta non analizzabile.
  • Impossibile raggiungere la pagina: qualsiasi altro errore di recupero della pagina in cui la richiesta non ha raggiunto il server. Poiché queste richieste non hanno raggiunto il server, non saranno riportate nei tuoi log.
  • Timeout pagina: si è verificato un timeout per la richiesta di pagina.
  • Errore di reindirizzamento: un errore di reindirizzamento della richiesta, come troppi reindirizzamenti, reindirizzamento vuoto o reindirizzamento circolare.
  • Altro errore: errore di altro tipo che non rientra in nessuna delle categorie precedenti.

Tipi di file sottoposti a scansione

Il tipo di file restituito dalla richiesta il cui valore percentuale fa riferimento alle risposte ricevute per quel tipo e non ai byte recuperati.

Valori possibili:

  • HTML
  • Immagine
  • Video: uno dei formati video supportati.
  • JavaScript
  • CSS
  • PDF
  • Altro XML: un file XML che non include i formati RSS, KML o qualsiasi altro formato basato su XML.
  • JSON
  • Syndication: un feed RSS o Atom.
  • Audio
  • Dati geografici: KML o altri dati geografici.
  • Altro tipo di file: un altro tipo di file non specificato in questo campo.
  • Sconosciuto (richieste non riuscite): se la richiesta non riesce, il tipo di file non è noto.
Cosa cercare
Se noti problemi di disponibilità o tassi di risposta lenti, consulta questa tabella per avere un'idea dei tipi di risorse di cui Google sta eseguendo la scansione e perché questo potrebbe provocare un rallentamento della scansione. Google sta richiedendo molte immagini di piccole dimensioni che è il caso di bloccare? Google sta richiedendo risorse ospitate su un altro sito meno reattivo? Fai clic sui diversi tipi di file per visualizzare un grafico del tempo medio di risposta in base alla data e del numero di richieste in base alla data, per stabilire se ai picchi negli elementi lenti di quel tipo corrispondono picchi di rallentamento generale o non disponibilità.

Scopo della scansione

  • Rilevamento: Google non ha mai eseguito la scansione dell'URL richiesto prima d'ora.
  • Aggiornamento: una nuova scansione di una pagina nota.

Se noti che le pagine sono sottoposte a scansione con frequenza insufficiente, assicurati che siano incluse in una Sitemap. Per le pagine che subiscono aggiornamenti meno rapidi, potrebbe essere necessario richiedere specificatamente una nuova scansione. Se di recente hai aggiunto un numero elevato di nuovi contenuti o hai inviato una Sitemap, dovresti teoricamente riscontrare un aumento improvviso delle scansioni di rilevamento sul tuo sito.

Tipo Googlebot

Il tipo di user agent utilizzato per effettuare la richiesta di scansione. Google ha sua disposizione numerosi user agent che differiscono per scopo e comportamento:

  • Smartphone: Googlebot per smartphone.
  • Desktop: Googlebot per desktop.
  • Immagine: Googlebot per immagine. Se l'immagine viene caricata sotto forma di risorsa di pagina, il tipo Googlebot viene conteggiato come Carico di risorse della pagina e non come Immagine.
  • Video: Googlebot per video. Se il video viene caricato sotto forma di risorsa di pagina, il tipo Googlebot viene conteggiato come Carico di risorse della pagina e non come Video.
  • Carico di risorse della pagina: un recupero secondario delle risorse utilizzate dalla pagina. Quando Google esegue la scansione della pagina, ne recupera le risorse importanti associate, come immagini o file CSS, per effettuare il rendering della pagina prima di provare a indicizzarla. Le richieste vengono effettuate dallo user agent.
  • AdsBot: uno dei crawler AdsBot. Un picco nelle richieste di questo tipo potrebbe essere dovuto alla recente creazione sul sito di un numero elevato di nuovi target per gli Annunci dinamici della rete di ricerca. Consulta la sezione Perché si è verificato un picco della velocità di scansione del mio sito?. AdsBot esegue la scansione degli URL ogni due settimane circa.
  • Altro tipo di agente: un altro crawler Google non specificato in questo campo.

La maggior parte delle richieste di scansione dovrebbe provenire dal crawler principale. Se riscontri picchi di scansione, verifica il tipo di user agent. Se i picchi sembrano essere causati dal crawler di AdsBot, consulta la sezione Perché si è verificato un picco della velocità di scansione del mio sito?.

Risolvere i problemi

La frequenza di scansione è troppo elevata

Gli algoritmi di Googlebot sono configurati per impedirgli di sovraccaricare il tuo sito durante la scansione. Tuttavia se, per un qualsiasi motivo, dovesse essere necessario limitare la frequenza di scansione, scopri come farlo qui.

Alcuni suggerimenti per ridurre la frequenza di scansione:

  • Metti a punto il file robots.txt in modo che blocchi le pagine che non dovrebbero essere richieste.
  • Come soluzione temporanea, potresti impostare la tua velocità di scansione massima preferita in Search Console. È sconsigliabile ricorrere a questa soluzione nel lungo periodo, perché non ti consente di indicarci quali pagine o risorse specifiche sottoporre a scansione e quali no.
  • Assicurati di non consentire la scansione di pagine con risultati "infiniti", ad esempio una pagina di ricerca o un calendario infiniti. Bloccali tramite il file robots.txt o utilizzando i tag nofollow.
  • Se alcuni URL non esistono più o sono stati spostati, assicurati di restituire i codici di risposta corretti, vale a dire: 404 o 410 per gli URL che non esistono più o che non sono validi; i reindirizzamenti 301 per gli URL che sono stati definitivamente sostituiti da altri (302 se la sostituzione non è definitiva) e 503 per i tempi di inattività temporanei pianificati. Assicurati inoltre che il tuo server restituisca un errore 500 quando riscontra problemi che non è in grado di gestire.
  • Se il tuo sito subisce un sovraccarico e devi ridurre immediatamente le scansioni, consulta la sezione sottostante Perché si è verificato un picco della velocità di scansione del mio sito?.

Perché si è verificato un picco della velocità di scansione del mio sito?

Se pubblichi informazioni nuove o riporti alcune informazioni davvero utili, il sito potrebbe essere sottoposto a scansione con maggiore frequenza rispetto a quella desiderata. Ad esempio:

  • Hai sbloccato la scansione di un'ampia sezione del tuo sito.
  • Hai aggiunto al sito una nuova sezione di grandi dimensioni.
  • Hai aggiunto un numero elevato di nuovi target per gli Annunci dinamici della rete di ricerca inserendo nuovi feed di pagina o regole URL_Equals. 

Se il tuo sito viene sottoposto a una scansione tanto approfondita da presentare problemi di disponibilità, ecco come proteggerlo:

  1. Stabilisci quale crawler di Google stia eseguendo una scansione superiore al solito del tuo sito. Ciò può agevolare la pianificazione a medio e lungo termine. 
  2. Soluzione immediata:
    • Una soluzione semplice è utilizzare il file robots.txt per bloccare la scansione dell'agente causa del sovraccarico (googlebot, adsbot e così via).
    • Se riesci a rilevare e rispondere all'aumento del carico in modo dinamico, restituisci HTTP 5XX/429 quando stai per raggiungere il limite di pubblicazione. Evita, tuttavia, di restituire 5XX o 429 per più di due o tre giorni, poiché potrebbe segnalare a Google di eseguire la scansione del tuo sito con minore frequenza nel lungo termine.
  3. Modifica la frequenza di scansione utilizzando la pagina Impostazioni della frequenza di scansione, se disponibile.
  4. Trascorsi due o tre giorni, quando la frequenza di scansione di Google si è adattata, puoi rimuovere i blocchi del file robots.txt o interrompere la restituzione dei codici di errore illustrati al passaggio 1.
  5. Se a causare il problema è uno dei crawler di AdsBot, è possibile che tu abbia creato target per gli annunci dinamici della rete di ricerca per il tuo sito e che Google stia tentando di eseguirne la scansione. Questa scansione viene ripetuta ogni due settimane. Se non la capacità del tuo server non è sufficiente a gestire queste scansioni, devi limitare i target degli annunci o richiedere un aumento della capacità di pubblicazione.
  6. Tieni presente che, se hai limitato la frequenza di scansione utilizzando la pagina delle impostazioni di scansione, la frequenza di scansione riprenderà ad autoregolarsi dopo 90 giorni.

Velocità di scansione troppo bassa

Non puoi richiedere a Google di aumentare la frequenza di scansione (a meno che tu non l'abbia ridotta esplicitamente per la tua proprietà). Puoi, tuttavia, consultare ulteriori informazioni su come gestire la scansione per i siti web di grandi dimensioni o che vengono aggiornati di frequente.

Se hai un sito web di piccole o medie dimensioni e noti che Google non ne esegue la scansione completa, prova ad aggiornare le Sitemap del sito e assicurati che nessuna pagina sia bloccata.

Perché la frequenza di scansione del mio sito ha subito un calo?

In genere, la velocità di scansione di Google dovrebbe essere relativamente stabile nell'arco di una o due settimane; se rilevi un calo improvviso, i motivi potrebbero essere:

  • Hai aggiunto una regola nuova (o molto generica) nel file robots.txt. Assicurati di bloccare soltanto le risorse necessarie. Se Google ha bisogno di risorse specifiche, ad esempio CSS o JavaScript, per poter interpretare i contenuti, assicurati di non bloccarne l'accesso a Googlebot.
  • Codice HTML inaccessibile o contenuti non supportati presenti nelle tue pagine. Se Googlebot non riesce ad analizzare i contenuti di una pagina, perché viene utilizzato un tipo di contenuti multimediali non supportato o perché la pagina contiene soltanto immagini, non potrà eseguirne la scansione. Usa lo strumento Controllo URL per sapere in che modo Googlebot vede la tua pagina.
  • Se il tuo sito risponde lentamente alle richieste, Googlebot limiterà le sue richieste per evitare di sovraccaricare il tuo server. Controlla il rapporto Statistiche di scansione per sapere se il tuo sito risponde più lentamente.
  • Se la percentuale di errori del server aumenta, Googlebot limiterà le sue richieste per evitare di sovraccaricare il server.
  • Assicurati di non avere ridotto la tua frequenza di scansione massima preferita.
  • Se un sito contiene informazioni che non cambiano spesso o non sono di buona qualità, Google potrebbe ridurne la frequenza di scansione. Esamina con obiettività il tuo sito, chiedi un'opinione imparziale in merito a persone non direttamente interessate e valuta cosa e come può essere migliorato.
È stato utile?
Come possiamo migliorare l'articolo?