Googlebot

Googlebot è il bot di scansione del Web di Google (a volte chiamato anche "spider"). La scansione è l'operazione con cui Googlebot rileva pagine nuove e aggiornate da aggiungere all'indice di Google.

Utilizziamo una quantità enorme di computer per individuare ("eseguire la scansione di") miliardi di pagine sul Web. Googlebot utilizza un processo algoritmico: programmi software determinano i siti di cui eseguire la scansione, con quale frequenza e quante pagine recuperare di ogni sito.

Modalità di accesso di Googlebot al tuo sito

Googlebot non dovrebbe accedere a gran parte dei siti in media più di una volta ogni pochi secondi. Tuttavia, per possibili ritardi nella rete, tale frequenza potrebbe risultare leggermente superiore in brevi periodi.

Googlebot è stato progettato per essere distribuito su più computer per migliorare il rendimento e segue il ritmo di crescita del Web. Inoltre, per ridurre l'utilizzo di larghezza di banda eseguiamo molti crawler su computer vicini ai siti indicizzati nella rete. Pertanto, i tuoi log potrebbero indicare visite di google.com da diversi computer, tutte con lo user-agent Googlebot. Il nostro obiettivo è eseguire a ogni visita la scansione del maggior numero possibile di pagine del tuo sito senza sovraccaricare la larghezza di banda del server. Richiedi la modifica della frequenza di scansione.

Impedire a Googlebot di eseguire la scansione dei contenuti del tuo sito

È quasi impossibile tenere segreto un server web evitando di pubblicare link che rimandano a esso. Non appena un utente segue un link che dal tuo server "segreto" rimanda a un altro server web, il tuo URL "segreto" potrebbe essere visualizzato nel tag referrer ed essere memorizzato e pubblicato dall'altro server web nel suo log referrer. In modo simile, sul Web esistono molti link obsoleti e inaccessibili. Quando qualcuno pubblica un link sbagliato che rimanda al tuo sito o non aggiorna i link per riflettere i cambiamenti avvenuti nel tuo server, Googlebot prova a scaricare un link sbagliato dal tuo sito.

Se vuoi impedire a Googlebot di eseguire la scansione dei contenuti del tuo sito, hai a disposizione una serie di opzioni. Tieni presente la differenza tra impedire a Googlebot di eseguire la scansione di una pagina, impedire a Googlebot di indicizzare una pagina e impedire del tutto l'accesso a una pagina sia ai crawler sia agli utenti.

Problemi con spammer e altri user-agent

Di tanto in tanto, gli indirizzi IP utilizzati da Googlebot cambiano. Googlebot si identifica con una stringa dello user-agent, che però potrebbe essere oggetto di spoofing. Il modo migliore per identificare gli accessi eseguiti da Googlebot consiste nell'utilizzare una ricerca DNS inversa.

Googlebot e tutti i validi bot dei motori di ricerca rispettano le indicazioni presenti nel file robots.txt, ma alcuni "cattivi" e spammer non le seguono. Segnala spam a Google.

Google dispone di diversi altri user-agent, tra cui Feedfetcher (user-agent Feedfetcher-Google). Poiché le richieste di Feedfetcher derivano da azioni esplicite degli utenti che hanno aggiunto feed alla loro home page di Google e non da crawler automatizzati, Feedfetcher non segue le indicazioni del file robots.txt. Puoi impedire a Feedfetcher di eseguire la scansione del tuo sito configurando il tuo server in modo da visualizzare per lo user-agent Feedfetcher-Google un messaggio di stato relativo a errori 404, 410 o altri errori. Leggi ulteriori informazioni su Feedfetcher.

Hai trovato utile questo articolo?
Come possiamo migliorare l'articolo?