Googlebot

Googlebot è il nome generico del web crawler di Google. Googlebot è il nome generico di due diversi tipi di crawler: un crawler desktop che simula un utente che usa un dispositivo desktop e un mobile crawler che simula un utente che usa un dispositivo mobile.

Probabilmente il tuo sito web verrà sottoposto a scansione da entrambi i crawler Googlebot Desktop e Googlebot per smartphone. Puoi identificare il sottotipo di Googlebot esaminando la stringa dello user-agent nella richiesta. Entrambi i tipi di crawler rispettano però lo stesso token di prodotto (token dello user-agent) nel file robots.txt, quindi non puoi scegliere selettivamente come target Googlebot Mobile o Googlebot Desktop usando il file robots.txt.

Se il tuo sito è stato convertito in sito con priorità ai contenuti per dispositivi mobili su Google, la maggior parte delle richieste di scansione di Googlebot viene effettuata usano il mobile crawler, mentre una piccola parte viene effettuata con il crawler desktop. Per i siti che non sono stati ancora convertiti, la maggior parte delle scansioni viene effettuata usando il crawler desktop. In entrambi i casi, il crawler di minoranza effettua la scansione soltanto degli URL già sottoposti a scansione dal crawler di maggioranza.

 

Modalità di accesso di Googlebot al tuo sito

Googlebot non dovrebbe accedere a gran parte dei siti in media più di una volta ogni pochi secondi. Tuttavia, per possibili ritardi, tale frequenza potrebbe risultare leggermente superiore in brevi periodi.

Googlebot è stato progettato per essere eseguito contemporaneamente da migliaia di computer per migliorare il rendimento e seguire il ritmo di crescita del Web. Inoltre, per ridurre l'utilizzo di larghezza di banda eseguiamo molti crawler su computer vicini ai siti che potrebbero sottoporre a scansione. Pertanto, i tuoi log potrebbero indicare visite di google.com da diversi computer, tutte con lo user-agent Googlebot. Il nostro obiettivo è eseguire a ogni visita la scansione del maggior numero possibile di pagine del tuo sito senza sovraccaricare la larghezza di banda del server. Se il tuo sito non riesce a stare al passo con le richieste di scansione di Google, puoi richiedere una modifica della frequenza di scansione.

Impedire a Googlebot di visitare il proprio sito

È quasi impossibile tenere segreto un server web evitando di pubblicare link che rimandano a esso. Ad esempio, non appena un utente segue un link che dal tuo server "segreto" rimanda a un altro server web, il tuo URL "segreto" potrebbe essere visualizzato nel tag referrer ed essere memorizzato e pubblicato dall'altro server web nel suo log referrer. In modo simile, sul Web esistono molti link obsoleti e inaccessibili. Quando qualcuno pubblica un link sbagliato che rimanda al tuo sito o non aggiorna i link per riflettere i cambiamenti avvenuti nel tuo server, Googlebot prova a eseguire la scansione di un link sbagliato dal tuo sito.

Se vuoi impedire a Googlebot di eseguire la scansione dei contenuti del tuo sito, hai a disposizione una serie di opzioni. Tieni presente la differenza tra impedire a Googlebot di eseguire la scansione di una pagina, impedire a Googlebot di indicizzare una pagina e impedire del tutto l'accesso a una pagina sia ai crawler sia agli utenti.

Verifica di Googlebot

Prima di decidere di bloccare Googlebot, tieni presente che la stringa user-agent utilizzata da Googlebot è spesso oggetto di spoofing da parte di altri crawler. È importante verificare che una richiesta problematica provenga effettivamente da Google. Il miglior modo per verificare che una richiesta provenga effettivamente da Googlebot è utilizzare una ricerca DNS inversa sull'IP di origine della richiesta.

Googlebot e tutti i bot affidabili dei motori di ricerca rispettano le indicazioni presenti nel file robots.txt, ma alcuni "cattivi" e spammer non le seguono. Google contrasta attivamente gli spammer; se noti pagine o siti di spam nei risultati di ricerca di Google, puoi effettuare una segnalazione a Google.

 

È stato utile?
Come possiamo migliorare l'articolo?