Googlebot

Googlebot è il bot di scansione del Web di Google (a volte chiamato anche "spider"). La scansione è l'operazione con cui Googlebot rileva pagine nuove e aggiornate da aggiungere all'indice di Google.

Utilizziamo una quantità enorme di computer per individuare ("eseguire la scansione di") miliardi di pagine sul Web. Googlebot utilizza un processo algoritmico: programmi software determinano i siti per i quali eseguire la scansione, con quale frequenza e quante pagine acquisire da ogni sito.

Il processo di scansione di Googlebot inizia con un elenco di URL di pagine web, generato da precedenti processi di scansione e integrato con i dati delle Sitemap fornite dai webmaster. Quando visita ciascuno di questi siti web, Googlebot rileva i link (SRC e HREF) in ogni pagina e li aggiunge al proprio elenco di pagine da sottoporre a scansione. I siti nuovi, gli aggiornamenti di siti esistenti e i link non più validi vengono registrati e utilizzati per aggiornare l'indice di Google.

Per i webmaster: Googlebot e il tuo sito

Modalità di accesso di Googlebot al tuo sito

Googlebot non dovrebbe accedere al tuo sito in media più di una volta ogni pochi secondi. Tuttavia, per possibili ritardi nella rete, tale frequenza potrebbe risultare leggermente superiore in brevi periodi. In genere Googlebot dovrebbe scaricare soltanto una copia di ogni pagina alla volta. Se Googlebot scarica più volte una stessa pagina, il motivo potrebbe essere che il crawler è stato interrotto e riavviato.

Googlebot è stato progettato per essere distribuito su più computer per migliorare il rendimento e segue il ritmo di crescita del Web. Inoltre, per ridurre l'utilizzo di larghezza di banda eseguiamo molti crawler su computer vicini ai siti indicizzati nella rete. Pertanto, i tuoi log potrebbero indicare visite di google.com da diversi computer, tutte con lo user-agent Googlebot. Il nostro obiettivo è eseguire a ogni visita la scansione del maggior numero possibile di pagine del tuo sito senza sovraccaricare la larghezza di banda del server. Richiedi la modifica della frequenza di scansione.

Impedire a Googlebot di eseguire la scansione dei contenuti del tuo sito

È quasi impossibile tenere segreto un server web evitando di pubblicare link che rimandano a esso. Non appena un utente segue un link che dal tuo server "segreto" rimanda a un altro server web, il tuo URL "segreto" potrebbe essere visualizzato nel tag referrer ed essere memorizzato e pubblicato dall'altro server web nel suo log referrer. In modo simile, sul Web esistono molti link obsoleti e non funzionanti. Quando qualcuno pubblica un link sbagliato che rimanda al tuo sito o non aggiorna i link per riflettere i cambiamenti avvenuti nel tuo server, Googlebot prova a scaricare un link sbagliato dal tuo sito.

Se desideri impedire a Googlebot di eseguire la scansione dei contenuti del tuo sito, hai a disposizione diverse opzioni, ad esempio l'utilizzo di un file robots.txt per impedire l'accesso ai file e alle directory sul tuo server.

Dopo avere creato il file robots.txt, potrebbe trascorrere del tempo prima che Googlebot rilevi i cambiamenti. Se Googlebot continua a eseguire la scansione dei contenuti che hai bloccato nel file robots.txt, verifica che tale file si trovi nella posizione corretta. Deve essere posizionato nella directory principale del server (ad esempio, www.miohost.com/robots.txt); se posizioni il file in una sottodirectory non avrà alcun effetto.

Se desideri soltanto impedire i messaggi di errore "file non trovato" nel log del server web, puoi creare un file robots.txt vuoto. Per impedire a Googlebot di seguire i link presenti in una pagina del tuo sito, puoi utilizzare il metatag nofollow. Per impedire a Googlebot di seguire un singolo link, aggiungi l'attributo rel="nofollow" al link stesso.

Ecco alcuni altri suggerimenti:

  • Verifica che il file robots.txt funzioni come previsto. Lo strumento Testa robots.txt nella pagina URL bloccati (in Salute) ti consente di visualizzare esattamente come verranno interpretati da Googlebot i contenuti del tuo file robots.txt. Lo user-agent di Google è Googlebot.
  • Lo strumento Visualizza come Google di Strumenti per i Webmaster ti consente di sapere esattamente come viene visto il tuo sito da Googlebot. Questo può essere molto utile per la risoluzione di problemi legati ai contenuti del tuo sito o alla loro rilevabilità nei risultati di ricerca.

Assicurarsi che sia possibile eseguire la scansione del sito

Googlebot rileva i siti seguendo i link da pagina a pagina. Nella pagina Errori di scansione di Strumenti per i Webmaster vengono elencati i problemi incontrati da Googlebot durante la scansione del tuo sito. Consigliamo di esaminare regolarmente questi errori di scansione per identificare eventuali problemi del sito.

Se esegui un'applicazione AJAX con contenuti che vorresti venissero visualizzati nei risultati di ricerca, ti consigliamo di esaminare la nostra proposta di rendere i contenuti basati su AJAX disponibili per la scansione e l'indicizzazione.

Se il file robots.txt funziona come previsto ma il sito non riceve traffico, ecco alcuni possibili motivi per cui i tuoi contenuti non hanno una buona posizione nei risultati di ricerca.

Problemi con spammer e altri user-agent

Di tanto in tanto, gli indirizzi IP utilizzati da Googlebot cambiano. Il modo migliore per identificare gli accessi eseguiti da Googlebot consiste nell'utilizzare lo user-agent (Googlebot). Puoi verificare che il bot che accede al tuo server sia effettivamente Googlebot eseguendo una ricerca DNS inversa.

Googlebot e tutti i validi bot dei motori di ricerca rispettano le indicazioni presenti nel file robots.txt, ma alcuni "cattivi" e spammer non le seguono. Segnala spam a Google.

Google dispone di diversi altri user-agent, tra cui Feedfetcher (user-agent Feedfetcher-Google). Poiché le richieste di Feedfetcher derivano da azioni esplicite degli utenti che hanno aggiunto feed alla loro home page di Google o a Google Reader e non da crawler automatizzati, Feedfetcher non segue le linee guida del file robots.txt. Puoi impedire a Feedfetcher di eseguire la scansione del tuo sito configurando il tuo server in modo da visualizzare per lo user-agent Feedfetcher-Google un messaggio di stato relativo a errori 404, 410 o altri errori. Leggi ulteriori informazioni su Feedfetcher.