Googlebot

Googlebot è il nome generico dei due tipi di web crawler di Google:

Googlebot Smartphone: un crawler mobile che simula un utente che usa un dispositivo mobile.
Googlebot Desktop: un crawler desktop che simula un utente che usa un computer desktop.

Puoi identificare il sottotipo di Googlebot esaminando l'intestazione della richiesta HTTP user-agent nella richiesta. Tuttavia, entrambi i tipi di crawler rispettano lo stesso token di prodotto (token dello user- agent) nel file robots.txt, quindi non puoi scegliere selettivamente come target Googlebot Smartphone o Googlebot Desktop usando il file robots.txt.

Per la maggior parte dei siti, Google indicizza principalmente la versione mobile dei contenuti. La maggior parte delle richieste di scansione di Googlebot viene effettuata usando il crawler mobile, mentre una piccola parte viene effettuata con il crawler desktop.

Modalità di accesso di Googlebot al proprio sito

Googlebot non dovrebbe accedere a gran parte dei siti in media più di una volta ogni pochi secondi. Tuttavia, per possibili ritardi, questa frequenza potrebbe risultare leggermente superiore in brevi periodi.

Googlebot è stato progettato per essere eseguito contemporaneamente da migliaia di macchine per migliorare le prestazioni e seguire il ritmo di crescita del web. Inoltre, per ridurre l'utilizzo di larghezza di banda eseguiamo molti crawler su computer vicini ai siti che potrebbero sottoporre a scansione. Pertanto, i tuoi log potrebbero mostrare visite da diversi indirizzi IP, tutte con lo user agent Googlebot. Il nostro obiettivo è eseguire a ogni visita la scansione del maggior numero possibile di pagine del tuo sito senza sovraccaricare il server. Se il tuo sito non riesce a stare al passo con le richieste di scansione di Google, puoi ridurre la frequenza di scansione.

Googlebot esegue la scansione principalmente da indirizzi IP negli Stati Uniti. Se rileva che un sito blocca le richieste dagli Stati Uniti, potrebbe tentare di eseguire la scansione da indirizzi IP situati in altri paesi. L'elenco dei blocchi agli indirizzi IP attualmente utilizzati da Googlebot è disponibile in formato JSON.

Googlebot esegue la scansione su HTTP/1.1 e, se supportato dal sito, HTTP/2. Non c'è alcun vantaggio per il ranking basato sulla versione del protocollo utilizzata per eseguire la scansione del tuo sito; tuttavia, la scansione su HTTP/2 potrebbe consentire di risparmiare risorse di calcolo (ad esempio CPU, RAM) per il tuo sito e Googlebot.
Per disattivare la scansione su HTTP/2, indica al server che ospita il tuo sito di rispondere con un codice di stato HTTP 421 quando Googlebot tenta di eseguire la scansione del sito su HTTP/2. Se ciò non è fattibile, puoi inviare un messaggio al team di Googlebot (soluzione temporanea).

Googlebot può eseguire la scansione dei primi 15 MB di un file HTML o di un file basato su testo supportato. Le risorse a cui viene fatto riferimento nell'HTML, ad esempio immagini, video, CSS e JavaScript, vengono recuperate separatamente e ogni recupero è vincolato dallo stesso limite di dimensione del file. Dopo i primi 15 MB del file, Googlebot interrompe la scansione e prende in considerazione per l'indicizzazione solo i primi 15 MB del file. Il limite per le dimensioni del file viene applicato ai dati non compressi; altri crawler di Google, ad esempio Googlebot Video e Googlebot Image, potrebbero avere limiti diversi.

Durante la scansione da indirizzi IP negli Stati Uniti, il fuso orario di Googlebot è il fuso orario del Pacifico.

Impedire a Googlebot di visitare il proprio sito

È quasi impossibile tenere segreto un sito evitando di pubblicare link che vi rimandino. Ad esempio, non appena un utente segue un link dal tuo sito "segreto" a un altro sito, l'URL "segreto" del tuo sito potrebbe essere visualizzato nel tag referrer ed essere memorizzato e pubblicato dall'altro sito nel suo log referrer.

Se vuoi impedire a Googlebot di eseguire la scansione dei contenuti del tuo sito, hai a disposizione una serie di opzioni. Tieni presente la differenza tra impedire a Googlebot di eseguire la scansione di una pagina, impedire a Googlebot di indicizzare una pagina e impedirne del tutto l'accesso sia ai crawler sia agli utenti.

Verifica di Googlebot

Prima di decidere di bloccare Googlebot, tieni presente che l'intestazione della richiesta HTTP user-agent utilizzata da Googlebot è spesso oggetto di spoofing da parte di altri crawler. È importante verificare che una richiesta problematica provenga effettivamente da Google. Il miglior modo per farlo è utilizzare una ricerca DNS inversa nell'IP di origine della richiesta oppure far corrispondere l'IP di origine con gli intervalli di indirizzi IP di Googlebot.