Uso dei robot per bloccare Google News

Ci rendiamo conto che le testate editoriali pubblicano molti contenuti e non tutti possono essere idonei a Google News. Puoi evitare che parti del tuo sito vengano indicizzate dai nostri crawler web se crei un file robots.txt, metatag o specifiche dell'intestazione HTTP. Google News esegue la scansione con lo stesso robot utilizzato da Ricerca Google, denominato Googlebot nuova finestra.

Se preferisci che i tuoi contenuti non vengano inclusi in Google News ma soltanto in Ricerca Google, Google News rispetta una voce del file robots relativa a Googlebot-News, se è più restrittiva della voce del file robots relativa a Googlebot. In altre parole...

  • Se si blocca l'accesso a Googlebot-News, noi non indicizzare il tuo sito in Google News.
  • Se impedisci l'accesso a Googlebot, non eseguiamo l'indicizzazione del tuo sito in Google News o Ricerca Google.

Creazione di un file robots.txt

L'utilizzo di un file robots.txt consente un elevato controllo sulle parti del tuo sito indicizzate da Google. Troverete una guida completa per la creazione e la manutenzione dei file robots.txt nel nostro Centro di assistenza per webmaster nuova finestra .

Nota.

  • Per impedire che il sito venga indicizzato da Google News, blocca l'accesso a Googlebot-News utilizzando un file robots.txt.
  • Per impedire che il sito venga indicizzato da Google News e Ricerca Web, blocca l'accesso a Googlebot utilizzando un file robots.txt.

Assicurati di consentire l'accesso del nostro crawler al file robots.txt per permetterci di sapere se hai specificato alcune sezioni del tuo sito da non sottoporre a scansione.

Creazione di un metatag

Anziché utilizzare un file robots.txt per impedire al crawler di accedere alle pagine, puoi aggiungere un metatag a una pagina HTML per indicare ai robot di non indicizzare la pagina. Questa norma è descritta nel nostro Centro assistenza webmaster nuova finestra.

Nota.

  • Per impedire che articoli specifici vengano indicizzati da Google News, blocca l'accesso a Googlebot-News utilizzando un metatag.

  • Per impedire che articoli specifici vengano indicizzati da Google News e Ricerca Web, blocca l'accesso a Googlebot utilizzando un metatag.

  • Per impedire che articoli specifici vengano indicizzati da tutti i robot, blocca l'accesso utilizzando il metatag seguente:

    <meta name="robots" content="noindex, nofollow">

  • Per impedire che i robot indicizzino le immagini di un articolo specifico, blocca l'accesso utilizzando il metatag seguente:

    <meta name="robots" content="noimageindex">

  • Per informarci che un articolo scadrà in un determinato momento e in tale momento dovrà essere rimosso dall'indice di Google, devi utilizzare il seguente tag:

    <meta name="googlebot" content="unavailable_after: 25-Aug-2011 15:00:00 EST">

    Data e ora devono essere specificate nel formato RFC 850 nuova finestra. Tali informazioni vengono trattate come una richiesta di rimozione: occorrerà circa un giorno dalla data specificata affinché la pagina scompaia dai risultati di ricerca. Tuttavia, per funzionare correttamente, il tag deve essere incluso con l'articolo al momento della sua prima scansione.

Utilizzo delle specifiche per le intestazioni HTTP

Puoi fornire istruzioni per i robot anche nell'intestazione HTTP. Per ulteriori informazioni, consulta l'articolo di Google Developers sulle specifiche dell'intestazione HTTP nuova finestra.