Panoramica dei crawler di Google (user-agent)

Scoprire i robot utilizzati da Google per eseguire la scansione dei siti web

"Crawler" è un termine generico che indica qualsiasi programma (come un robot o uno spider) utilizzato per l'individuazione e la scansione automatiche dei siti web, seguendo i link da una pagina web all'altra. Il crawler principale di Google è Googlebot. Nella tabella che segue vengono riportate informazioni sui crawler di Google più comuni che potresti notare nei tuoi log referrer e su come dovrebbero essere specificati nel file robots.txt, nei meta tag robots e nelle istruzioni HTTP X-Robots-Tag.

Nella tabella che segue vengono indicati i crawler usati da vari prodotti e servizi Google:

  • Il token dello user-agent viene usato nella riga User-agent: del file robots.txt in modo che ci sia corrispondenza con un tipo di crawler durante la scrittura delle regole di scansione per il tuo sito. Come mostrato nella tabella, alcuni crawler hanno più di un token, ma devi utilizzare un solo token corrispondente per poter applicare una regola. Questo elenco non è completo, ma include la maggior parte dei crawler che puoi vedere sul tuo sito web.
  • La stringa completa dello user-agent è una descrizione completa del crawler che viene mostrata nella richiesta e nei log web.
Questi valori possono essere oggetto di spoofing. Se devi verificare che il visitatore è Googlebot, esegui una ricerca DNS inversa.
Crawler Token dello user-agent (token di prodotto) Stringa completa dello user-agent
APIs-Google

APIs-Google

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense

Mediapartners-Google

Mediapartners-Google

AdsBot Mobile Web Android

(Controlla la qualità dell'annuncio nella pagina web Android)

AdsBot-Google-Mobile

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

(Controlla la qualità dell'annuncio nella pagina web dell'iPhone)

AdsBot-Google-Mobile

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

(Controlla la qualità dell'annuncio nella pagina web per desktop)

AdsBot-Google

AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot Images
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot News
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot Video
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot (Desktop)

Googlebot

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36

    o (utilizzato raramente):
     
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot (Smartphone)

Googlebot

 

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mobile AdSense

Mediapartners-Google

(Vari tipi di dispositivi mobili) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android

(Controlla la qualità dell'annuncio nella pagina per app Android; segue le regole dei robot AdsBot-Google)

AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps

Feedfetcher

FeedFetcher-Google

Non rispetta le regole del file robots.txtecco perché

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Google-Read-Aloud

Non rispetta le regole del file robots.txt: ecco perché

  • Agente corrente:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • Agente precedente (deprecato):
    google-speakr
Duplex on the Web

DuplexWeb-Google

Potrebbe ignorare il carattere jolly * dello user-agent: ecco perché

Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36

Google Favicon

(Recupera le favicon di vari servizi)

Google Favicon

Per le richieste avviate dall'utente, ignora le regole del file robots.txt

 

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko)  Chrome/49.0.2623.75 Safari/537.36 Google Favicon

 

Chrome/W.X.Y.Z negli user-agent

Dove vedi la stringa Chrome/W.X.Y.Z nelle stringhe dello user-agent nella tabella, W.X.Y.Z è in realtà un segnaposto che rappresenta la versione del browser Chrome usata da quello user-agent: ad esempio, 41.0.2272.96. Il numero di versione aumenterà nel tempo fino a corrispondere alla versione dell'ultima release di Chromium utilizzata da Googlebot.

Se cerchi nei log o filtri le richieste sul tuo server per individuare uno user-agent con questo pattern, probabilmente devi utilizzare i caratteri jolly per il numero della versione, anziché indicare uno specifico numero di versione.

User-agent nel file robots.txt

Quando vengono riconosciuti diversi user-agent nel file robots.txt, Google segue quello più specifico. Se vuoi consentire a tutti i crawler di Google di eseguire la scansione delle tue pagine, non ti occorre un file robots.txt. Se vuoi impedire o consentire a tutti i crawler di Google di accedere ad alcuni tuoi contenuti, specifica lo user-agent Googlebot. Ad esempio, se vuoi che vengano visualizzate tutte le tue pagine nei risultati di ricerca di Google, nonché che vengano mostrati annunci AdSense nelle pagine, non ti occorre un file robots.txt. In modo simile, se vuoi impedire a Google di accedere ad alcune pagine, impedisci l'accesso allo user-agent Googlebot; in questo modo impedirai l'accesso anche a tutti gli altri user-agent di Google.

Se, però, vuoi avere un controllo più preciso, puoi. Ad esempio, è possibile che tu voglia che vengano visualizzate tutte le tue pagine nella Ricerca Google, ma evitare che le immagini presenti nella tua directory personale vengano sottoposte a scansione. In questo caso, utilizza il file robots.txt per impedire allo user-agent Googlebot-image di eseguire la scansione dei file presenti nella tua directory /personal (consentendo però a Googlebot di eseguire la scansione di tutti i file), nel seguente modo:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal
Per fare un altro esempio, supponiamo che vuoi mostrare annunci in tutte le tue pagine ma preferisci che tali pagine non vengano visualizzate nella Ricerca Google. In questo caso dovresti bloccare Googlebot ma consentire Mediapartners-Google, nel seguente modo:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

User-agent nei meta tag robots

Alcune pagine utilizzano diversi meta tag robots per specificare istruzioni per crawler differenti, nel seguente modo:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

In questo caso Google utilizzerà la somma delle istruzioni negative e Googlebot seguirà entrambe le istruzioni noindex e nofollow. Leggi informazioni più dettagliate sul controllo della modalità di scansione e indicizzazione del tuo sito da parte di Google.

È stato utile?
Come possiamo migliorare l'articolo?