Uso dei robot per bloccare Google News

Ci rendiamo conto che le testate editoriali pubblicano molti contenuti e non tutti possono essere idonei a Google News. Google News esegue la scansione con lo stesso robot utilizzato da Ricerca Google, denominato Googlebot.

Ricerca Google e Google News supportano due "bot" diversi, Googlebot e Googlebot-News, che puoi utilizzare come meta tag o nella voce dei tuoi robot per controllare dove vengono pubblicati i tuoi contenuti.

In altre parole:

  • Se blocchi l'accesso a Googlebot-News, i tuoi contenuti non compariranno in Google News.
  • Se blocchi l'accesso a Googlebot, i tuoi contenuti non compariranno in Google News o Ricerca Google.

Tieni presente che Google rispetta l'interpretazione più restrittiva della tua scelta di bot.

Creazione di un file robots.txt

L'utilizzo di un file robots.txt consente un elevato controllo sulle parti del tuo sito che compaiono in Ricerca Google e Google News. Per una guida completa per la creazione e la gestione dei file robots.txt, consulta il Centro assistenza per i webmaster.

Nota.

  • Per impedire che il tuo sito venga pubblicato su Google News, blocca l'accesso a Googlebot-News utilizzando un file robots.txt.
  • Per impedire che il tuo sito venga pubblicato su Google News e Ricerca Google, blocca l'accesso a Googlebot utilizzando un file robots.txt.

Assicurati di consentire l'accesso del nostro crawler al file robots.txt per permetterci di sapere se hai specificato alcune sezioni del tuo sito da non sottoporre a scansione.

Creazione di un meta tag

Anziché utilizzare un file robots.txt per impedire al crawler di accedere ad aree del tuo sito, puoi aggiungere un meta tag a una pagina HTML per indicare ai robot di non sottoporre a scansione la pagina. Questa norma è descritta nel nostro Centro assistenza per i webmaster.

Nota.

  • Per impedire che articoli specifici del tuo sito vengano pubblicati su Google News, blocca l'accesso a Googlebot-News utilizzando il seguente meta tag:
  • <meta name="Googlebot-News" content="noindex, nofollow">

  • Per impedire che articoli specifici del tuo sito vengano pubblicati su Google News e Ricerca Google, blocca l'accesso a Googlebot utilizzando il seguente meta tag:
  • <meta name="googlebot" content="noindex, nofollow">

  • Per impedire che articoli specifici del tuo sito vengano sottoposti a scansione da parte di tutti i robot, blocca l'accesso utilizzando il seguente meta tag:
  • <meta name="robots" content="noindex, nofollow">

  • Per impedire che i robot sottopongano a scansione le immagini di un articolo specifico, blocca l'accesso utilizzando il seguente meta tag:
  • <meta name="robots" content="noimageindex">

  • Per informarci che un articolo scadrà in un determinato momento e in tale momento dovrà essere rimosso dall'indice di Google, devi utilizzare il seguente tag:

<meta name="googlebot" content="unavailable_after: 25-Aug-2011 15:00:00 EST">

Data e ora devono essere specificate nel formato RFC 850. Tali informazioni vengono trattate come una richiesta di rimozione: occorrerà circa un giorno dalla data di rimozione affinché la pagina scompaia dai risultati di ricerca. Tuttavia, per funzionare correttamente, il tag deve essere incluso con l'articolo al momento della sua prima scansione.

Utilizzo delle specifiche per le intestazioni HTTP

Puoi fornire istruzioni per i robot anche nell'intestazione HTTP. Per ulteriori informazioni, consulta l'articolo di Google Developers sulle specifiche dell'intestazione HTTP.