Google utilise un algorithme informatique pour explorer les sites Web d'actualité. Pour aider notre système à identifier les pages Web qui correspondent à des articles, assurez-vous que votre site respecte nos consignes techniques.
Exigences concernant la structure du site
Nous recommandons aux éditeurs de suivre les consignes ci-dessous relatives à la structure du site afin que Google Actualités puisse explorer correctement les nouveaux contenus.
Pages de rubrique permanentes
Si les URL de vos principales rubriques d'actualités changent fréquemment, Google Actualités risque de ne pas comprendre le fonctionnement de votre site. Les URL non permanentes nous empêchent d'explorer les nouveaux contenus, car dans ce cas, nous ne pouvons pas détecter les URL les plus récentes à explorer.
Notre robot d'exploration automatique est plus efficace lorsque les URL des principales rubriques d'actualités ne changent pas. Googlebot-News est optimisé pour l'exploration de liens HTML. Il ne peut pas explorer les liens image, ni les liens intégrés dans un script JavaScript. Par conséquent, veillez à ce que les articles figurant sur vos pages de rubrique ne contiennent que des liens HTML.
En outre, vérifiez que le texte d'ancrage pointant vers un article dans vos différentes pages de rubrique correspond bien au titre de votre article et de la page. S'il vous est difficile de respecter ces exigences techniques, envisagez plutôt de mettre en place une exploration basée uniquement sur des sitemaps. Si vous souhaitez tester cette approche pour votre site, contactez notre équipe.
Contenu accessible
Notre robot d'exploration doit accéder à votre site pour faire figurer vos contenus dans Google Actualités. Vérifiez que les répertoires hébergeant vos articles ne sont pas bloqués par un fichier robots.txt et qu'aucune balise Meta ou spécification d'en-tête ne bloque l'accès aux liens menant à vos articles. Google Actualités utilise le même robot d'exploration que la Recherche sur le Web Google : Googlebot.
-
Si vous pensez que le fichier robots.txt, les balises Meta ou les spécifications d'en-tête HTML de votre site sont susceptibles d'empêcher notre robot d'exploration d'accéder à votre contenu, consultez l'article Gérer l'accès au contenu de votre site.
Exigences concernant les langues et le codage
Il est important de comprendre nos consignes relatives aux langues et à l'encodage des contenus sur votre site.
Langue
Google Actualités n'affiche pas les sites dont les pages contiennent un même article dans plusieurs langues. Notre système n'est pas en mesure d'analyser les contenus multilingues et il nous est donc difficile de diffuser les contenus dans la langue adéquate.
Si votre site comporte des rubriques propres à une langue donnée, par exemple example.com/french et example.com/english, créez des publications distinctes pour chaque langue. Les lecteurs verront ainsi les contenus dans leur langue. Découvrez comment configurer une publication.
Encodage de votre site
Pour un résultat optimal, encodez votre site en UTF-8. Pour en savoir plus sur l'encodage, consultez le site www.w3.org.
Exigences concernant les pages d'article
Pour que seuls vos articles d'actualité soient explorés, Google Actualités a mis en place plusieurs exigences relatives aux pages des articles individuels. Suivez les étapes ci-dessous pour respecter les consignes.
URL des articles
Les URL de vos articles sont uniques et permanentes.
-
URL uniques : chaque page affichant l'intégralité du texte d'un article doit posséder une URL unique. Nous ne pouvons pas faire figurer dans Google Actualités les sites qui permettent l'accès à plusieurs articles via une seule URL, ni les sites qui ne proposent pas de liens permettant d'accéder à une page dédiée à chaque article.
- URL permanentes : pour que nos liens vers les articles fonctionnent correctement, chaque article de votre site d'actualité doit être associé à une URL permanente qui lui est propre. Par exemple, nous ne sommes pas en mesure d'explorer la page www.votresite.com/actualite1.html si son contenu varie d'un jour à l'autre.
Important : Ne publiez pas d'articles une nouvelle fois avec une nouvelle URL.
Si un article est publié à nouveau à une date ultérieure, son URL ne sera pas modifiée. Par exemple, si un article est initialement publié sous www.example.com/actualite1.html, il n'est pas republié sous www.example.com/actualite2.html. Si le format de vos URL est modifié suite à un changement de domaine ou à une modification de la structure de votre système de gestion de contenu (CMS), communiquez-nous les règles de transformation du format. Nous pourrons vous aider.
Consignes de mise en page
Les titres de vos articles et leurs heures de publication doivent être facilement identifiables par notre robot d'exploration. Les pages de vos articles doivent être au format HTML et le corps du texte ne doit pas être imbriqué dans du code JavaScript.