Ricerca
Cancella ricerca
Chiudi ricerca
App Google
Menu principale

Crawler di Google

Vedere quali robot sono utilizzati da Google per eseguire la scansione del Web

"Crawler" è un termine generico che indica qualsiasi programma (come un robot o uno spider) utilizzato per l'individuazione e la scansione automatiche dei siti web seguendo i link da una pagina web all'altra. Il crawler principale di Google Googlebot. Nella tabella che segue vengono riportate informazioni sui crawler di Google più comuni che potresti notare nei tuoi log referrer e su come dovrebbero essere specificati nel file robots.txt, nei meta tag robots e nelle istruzioni HTTP X-Robots-Tag.

Crawler Token dello user-agent Stringa completa dello user-agent (come mostrata nei file di log del sito web)
Googlebot (Desktop) Googlebot Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
o
(utilizzato raramente): Googlebot/2.1 (+http://www.google.com/bot.html)
Googlebot (Smartphone) Googlebot

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Googlebot News Googlebot-News
(Googlebot)
Googlebot-News
Googlebot Immagini Googlebot-Image
(Googlebot)
Googlebot-Image/1.0
Googlebot Video Googlebot-Video
(Googlebot)
Googlebot-Video/1.0
Google Mobile AdSense Mediapartners-Google

o

Mediapartners
(Googlebot)
[vari tipi di dispositivi mobili] (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)
Google AdSense Mediapartners-Google
Mediapartners
(Googlebot)
Mediapartners-Google
Controllo qualità della pagina di destinazione Google AdsBot AdsBot-Google AdsBot-Google (+http://www.google.com/adsbot.html)

Crawler delle app di Google

(Utilizzato per recuperare risorse per app per dispositivi mobili; segue le regole dei robot AdsBot-Google)

AdsBot-Google-Mobile-Apps AdsBot-Google-Mobile-Apps

robots.txt

Quando vengono riconosciuti diversi user-agent nel file robots.txt, Google segue quello più specifico. Se desideri consentire a tutti i crawler di Google di eseguire la scansione delle tue pagine, non ti occorre un file robots.txt. Se desideri impedire o consentire a tutti i crawler di Google di accedere ad alcuni tuoi contenuti, specifica lo user-agent Googlebot. Ad esempio, se desideri che vengano visualizzate tutte le tue pagine nei risultati di ricerca di Google e desideri che vengano mostrati annunci AdSense nelle pagine, non ti occorre un file robots.txt. In modo simile, se desideri impedire a Google di accedere ad alcune pagine, impedisci l'accesso allo user-agent Googlebot; in questo modo impedirai l'accesso anche a tutti gli altri user-agent di Google.

Se, però, desideri avere un controllo più preciso, puoi. Ad esempio, è possibile che tu voglia che vengano visualizzate tutte le tue pagine nella Ricerca Google, ma evitare che le immagini presenti nella tua directory personale vengano sottoposte a scansione. In questo caso, utilizza il file robots.txt per impedire allo user-agent Googlebot-image di eseguire la scansione dei file presenti nella tua directory /personal (consentendo però a Googlebot di eseguire la scansione di tutti i file), nel seguente modo:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal
Per fare un altro esempio, supponiamo che desideri mostrare annunci in tutte le tue pagine ma preferisci che tali pagine non vengano visualizzate nella Ricerca Google. In questo caso dovresti bloccare Googlebot ma consentire Mediapartners-Google, nel seguente modo:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Meta tag robots

Alcune pagine utilizzano diversi meta tag robots per specificare istruzioni per crawler differenti, nel seguente modo:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

In questo caso Google utilizzerà la somma delle istruzioni negative e Googlebot seguirà entrambe le istruzioni noindex e nofollow. Leggi informazioni più dettagliate sul controllo della modalità di scansione e indicizzazione del tuo sito da parte di Google.

Hai trovato utile questo articolo?
Come possiamo migliorare l'articolo?