Crawler di Google

Vedere quali robot sono utilizzati da Google per eseguire la scansione del Web

"Crawler" è un termine generico che indica qualsiasi programma (come un robot o uno spider) utilizzato per l'individuazione e la scansione automatiche dei siti web seguendo i link da una pagina web all'altra. Il crawler principale di Google Googlebot. Nella tabella che segue vengono riportate informazioni sui crawler di Google più comuni che potresti notare nei tuoi log referrer e su come dovrebbero essere specificati nel file robots.txt, nei meta tag robots e nelle istruzioni HTTP X-Robots-Tag.

Nella tabella che segue, il token dello user-agent viene utilizzato nella riga User-agent: del file robots.txt in modo che ci sia corrispondenza con il crawler specifico. Come mostrato nella tabella, alcuni crawler rispondono a più di un token; ma devi utilizzare un solo token corrispondente per ciascun crawler.

Crawler Token dello user-agent (utilizzato nel file robots.txt) Stringa completa dello user-agent (come mostrata nei file di log del sito web)
APIs-Google
  • APIs-Google
APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense
  • Mediapartners-Google
Mediapartners-Google

AdsBot Mobile Web Android

(Controlla la qualità dell'annuncio nella pagina web Android)

  • AdsBot-Google-Mobile
Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

(Controlla la qualità dell'annuncio nella pagina web dell'iPhone)

  • AdsBot-Google-Mobile
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

(Controlla la qualità dell'annuncio nella pagina web per desktop)

  • AdsBot-Google
AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot Immagini
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot News
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot Video
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot

(Desktop)

  • Googlebot

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

o (utilizzato raramente):

Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot

(Smartphone)

  • Googlebot

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mobile AdSense
  • Mediapartners-Google
(vari tipi di dispositivi mobili) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android

(Controlla la qualità dell'annuncio nella pagina per app Android. segue le regole dei robot AdsBot-Google.)

  • AdsBot-Google-Mobile-Apps
AdsBot-Google-Mobile-Apps

User-agent nel file robots.txt

Quando vengono riconosciuti diversi user-agent nel file robots.txt, Google segue quello più specifico. Se desideri consentire a tutti i crawler di Google di eseguire la scansione delle tue pagine, non ti occorre un file robots.txt. Se desideri impedire o consentire a tutti i crawler di Google di accedere ad alcuni tuoi contenuti, specifica lo user-agent Googlebot. Ad esempio, se desideri che vengano visualizzate tutte le tue pagine nei risultati di ricerca di Google e desideri che vengano mostrati annunci AdSense nelle pagine, non ti occorre un file robots.txt. In modo simile, se desideri impedire a Google di accedere ad alcune pagine, impedisci l'accesso allo user-agent Googlebot; in questo modo impedirai l'accesso anche a tutti gli altri user-agent di Google.

Se, però, desideri avere un controllo più preciso, puoi. Ad esempio, è possibile che tu voglia che vengano visualizzate tutte le tue pagine nella Ricerca Google, ma evitare che le immagini presenti nella tua directory personale vengano sottoposte a scansione. In questo caso, utilizza il file robots.txt per impedire allo user-agent Googlebot-image di eseguire la scansione dei file presenti nella tua directory /personal (consentendo però a Googlebot di eseguire la scansione di tutti i file), nel seguente modo:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal
Per fare un altro esempio, supponiamo che desideri mostrare annunci in tutte le tue pagine ma preferisci che tali pagine non vengano visualizzate nella Ricerca Google. In questo caso dovresti bloccare Googlebot ma consentire Mediapartners-Google, nel seguente modo:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

User-agent nei meta tag robots

Alcune pagine utilizzano diversi meta tag robots per specificare istruzioni per crawler differenti, nel seguente modo:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

In questo caso Google utilizzerà la somma delle istruzioni negative e Googlebot seguirà entrambe le istruzioni noindex e nofollow. Leggi informazioni più dettagliate sul controllo della modalità di scansione e indicizzazione del tuo sito da parte di Google.

Hai trovato utile questo articolo?
Come possiamo migliorare l'articolo?