Erreurs d'exploration propres à Google Actualités

Pour pouvoir afficher les rapports d'erreur propres à Google Actualités, les éditeurs doivent faire inclure leur site dans Google Actualités, disposer d'un compte Outils pour les webmasters et ajouter leur site à ce compte. Pour demander l'inclusion de votre site dans Google Actualités, contactez-nous. Suivez ensuite les instructions ci-dessous :

  • Sur la page Accueil, cliquez sur l'URL du site.
  • Dans le Tableau de bord, cliquez sur Exploration > Erreurs d'exploration.
  • Cliquez sur l'onglet "Actualités" pour afficher les erreurs d'exploration relatives à vos contenus d'actualité.
  • Les erreurs d'exploration sont classées en catégories ("Extraction de l'article", "Erreur de titre", etc.). En cliquant sur une catégorie, vous affichez la liste des URL concernées, ainsi que les erreurs d'exploration qu'elles génèrent.
  • Voici les erreurs propres à Google Actualités :

    Article trop court par rapport au texte de la page

    Explication

    Le corps de l'article que nous avons extrait de la page HTML est trop court par rapport à d'autres paragraphes de texte ne comportant pas de liens. Cela concerne la plupart des pages contenant des brèves ou du contenu multimédia, et non des articles d'actualité complets. Nous avons généré cette erreur pour éviter d'inclure du texte qui risquerait de ne pas être adapté.

    Recommandations

    Voici les causes fréquemment à l'origine de ce problème :

    • Présence d'un nombre trop important d'extraits d'articles similaires : pour faciliter le travail de notre outil d'extraction, rendez ces extraits cliquables.
    • Présence de fonctionnalités de type "Envoyer cet article à un ami" avec des descriptions trop longues : définissez un style "display:none" ou "visibility:hidden" pour rendre le texte invisible, ou écrivez les éléments de code HTML de façon dynamique en JavaScript.
    • Commentaires des utilisateurs : placez les commentaires dans un élément iFrame et récupérez-les de manière dynamique avec AJAX ou déplacez-les sur une page adjacente.

    Si l'erreur persiste malgré ces suggestions, veuillez nous le signaler.

    Article fragmenté

    Explication

    Le corps de l'article que nous avons extrait de la page HTML semble contenir des phrases isolées qui ne sont pas regroupées en paragraphes. Nous avons généré cette erreur pour éviter d'inclure du texte qui risquerait de ne pas être adapté.

    Recommandations

    • Vérifiez que vos paragraphes comprennent plus d'une phrase.
    • Respectez les règles de ponctuation dans chaque phrase.
    • N'abusez pas des balises <br> et <p> dans vos paragraphes, et évitez d'une manière générale de segmenter le corps de l'article.
    • Envisagez de supprimer de la page de l'article les portions de texte qui ne font pas partie de l'article.

    Si l'erreur persiste malgré ces suggestions, veuillez nous le signaler.

    Article trop long

    Explication

    Le corps de l'article que nous avons extrait de la page HTML semble trop long pour être un article d'actualité. Nous avons généré cette erreur pour éviter d'inclure du texte qui risquerait de ne pas être adapté. La plupart du temps, cette erreur est due à la présence de commentaires ajoutés par les utilisateurs sous l'article, ou à des mises en page HTML qui contiennent d'autres éléments, en plus de l'article lui-même.

    Recommandations

    Envisagez de supprimer de la page de l'article les portions de texte qui ne font pas partie de l'article. Si la page de l'article contient des commentaires ajoutés par les internautes, essayez les solutions suivantes :

    • Insérez les commentaires dans un élément iFrame.
    • Récupérez les commentaires de façon dynamique avec AJAX.
    • Déplacez une partie des commentaires sur une page adjacente.

    Si l'erreur persiste malgré ces suggestions, veuillez nous le signaler.

    Article trop court

    Explication

    Le corps de l'article extrait de la page HTML semble trop court pour être un article d'actualité. Cela concerne la plupart des pages contenant des brèves ou du contenu multimédia, et non des articles d'actualité complets. Nous avons généré cette erreur pour éviter d'inclure du texte qui risquerait de ne pas être adapté.

    Recommandations

    • Modifiez la mise en page de vos articles afin de former des paragraphes composés de quelques phrases. Si le corps d'article ne contient pas suffisamment de mots pour constituer un article d'informations, nous ne serons pas en mesure de l'inclure à notre index.
    • Vos articles doivent contenir plus de 80 mots.

    Si l'erreur persiste malgré ces suggestions, veuillez nous le signaler.

    Date introuvable

    Explication

    Nous n'avons pas réussi à identifier la date de publication de l'article.

    Recommandations

    Suivez les recommandations suivantes relatives au format des dates :

    • Indiquez une date et une heure précises pour chacun de vos articles entre le titre et le texte de l'article, dans une ligne de code HTML indépendante. La date doit indiquer quand l'article a été publié pour la première fois.
    • Supprimez également les autres dates situées dans le code HTML de chaque page d'article afin d'éviter toute confusion pour le robot d'exploration.
    • Si vous souhaitez utiliser une balise Meta de date, veuillez nous contacter au préalable. Les balises Meta de date doivent être au format <meta name="DC.date.issued" content="AAAA-MM-JJ">, où la date est au format W3C. Vous devez utiliser soit le format "date complète" (AAAA-MM-JJ), soit le format "date complète avec heures, minutes et secondes" (AAAA-MM-JJThh:mm:ssTZD), qui contient le suffixe TZD correspondant au fuseau horaire.
    • Créez un sitemap Google Actualités. La balise <publication_date> nous permet d'extraire la date correcte de vos articles.

    Date trop éloignée

    Explication

    La date que nous avons trouvée pour cet article, à partir d'une balise <publication_date> dans le sitemap ou à partir d'une date sur la page HTML, est trop ancienne.

    Recommandations

    • Votre article ne doit pas dater de plus de deux jours. Pour le moment, nous ne collectons que les articles qui datent d'au maximum deux jours.
    • Suivez les recommandations ci-dessus relatives au format des dates.

    Article vide

    Explication

    Le corps de l'article extrait de la page HTML semble vide.

    Recommandations

    • Veillez à ce que l'intégralité du texte de vos articles figure dans le code source de la page de l'article correspondant (il ne doit pas être intégré dans un fichier JavaScript ou dans un élément iFrame, par exemple).
    • N'utilisez pas de style comme "display:none" ou "visibility:hidden" dans le code source de vos articles.
    • Les liens vers vos articles doivent être directs, sans page de redirection JavaScript intermédiaire.

    Échec de l'extraction

    Explication

    Nous n'avons pas réussi à extraire l'article de cette page. Les extractions échouent lorsque nous ne parvenons pas à identifier le titre, le corps du texte et la date de l'article. Nous répertorions les URL comportant des erreurs afin que vous sachiez pourquoi certains de vos articles n'apparaissent pas dans Google Actualités.

    Recommandations

    • Veillez à ce que le titre, le corps de texte et la date de vos articles puissent être facilement explorés (ces éléments doivent être disponibles sous forme de texte et non sous forme d'image, par exemple). Pour le moment, ce message d'erreur est présenté uniquement à titre informatif. Nous nous efforçons d'améliorer nos méthodes d'extraction pour que cette erreur survienne le moins souvent possible.
    • Envoyez un sitemap Google Actualités.

    Balise META de date incorrecte

    Explication

    La page HTML contient une balise <meta> de date que nous n'avons pas pu analyser.

    Recommandations

    Les balises <meta> de date doivent suivre le modèle suivant : <meta name="DC.date.issued" content="AAAA-MM-JJ">, où la date est au format W3C (http://www.w3.org/TR/NOTE-datetime) avec soit la date complète (AAAA-MM-JJ), soit la date complète suivie des heures, des minutes et des secondes (AAAA-MM-JJhh:mm:ss), les fractions et le fuseau horaire étant facultatifs. La date doit correspondre à la date de la première publication de l'article.

    Aucun lien trouvé

    Explication

    Le robot Googlebot-News n'a pas trouvé sur cette page de liens vers des articles d'actualité valides sur cette page. Cette erreur s'applique uniquement aux pages des rubriques d'actualité.

    Recommandations

    • Veillez à ce que les URL de vos articles contiennent au moins un numéro composé de trois chiffres, comme indiqué dans ces consignes. Si cela n'est pas le cas, vous pouvez envoyer vos articles par le biais d'un sitemap Google Actualités.
    • Veillez à ce que vos articles se trouvent sur le même domaine que le site inclus dans Google Actualités.
    • Consultez la page à l'origine de l'erreur et assurez-vous qu'elle contient bien des liens explorables menant à vos articles d'actualité. Googlebot-News est avant tout conçu pour explorer les liens HTML. Il ne peut pas explorer ni les liens menant à des images, ni les liens intégrés dans du code JavaScript. Pour découvrir plus en détail comment permettre l'exploration de vos liens, consultez nos Consignes aux webmasters et les conseils pour la création d'un site facilement explorable par Google.

    Aucune phrase

    Explication

    Le corps de l'article que nous avons extrait de la page HTML ne semble contenir aucune suite de mots ni aucun signe de ponctuation. Nous avons généré cette erreur pour éviter d'inclure du texte qui risquerait de ne pas être adapté.

    Recommandations

    • Si le contenu d'un article ne contient aucune suite de mots ni aucun signe de ponctuation, nous ne serons pas en mesure de l'inclure dans Google Actualités. Veillez à ce que le contenu de vos articles soit composé de phrases et à ce que le nombre de balises <br> ou <p> intégrées dans vos paragraphes reste raisonnable.
    • Assurez-vous que l'intégralité du texte de chaque article est disponible dans le code source des pages de l'article (et non intégré dans un fichier JavaScript, par exemple).
    • Les liens vers vos articles doivent être directs, sans page de redirection JavaScript intermédiaire.

    Balise Noindex détectée

    Explication

    La page HTML de l'article contient une balise <meta> "noindex" qui empêche Google d'indexer la page.

    Recommandations

    Supprimez la balise <meta> "noindex" de vos pages d'articles.

    Redirection hors du site

    Explication

    La page de rubrique ou d'article redirige vers une URL appartenant à un autre domaine.

    Recommandations

    • Les pages de rubrique et les articles doivent tous faire partie du domaine du site indiqué dans Google Actualités.
    • Si vous n'utilisez pas de redirections externes, vérifiez que votre site n'a pas été modifié par un tiers. Consultez cet article pour en savoir plus sur les sites piratés.

    Page trop volumineuse

    Explication

    La longueur de la page de rubrique ou d'article dépasse la limite autorisée.

    Recommandations

    La taille de la page HTML source ne doit pas dépasser 256 Ko.

    Balise "title" non autorisée

    Explication

    Le titre que nous avons extrait de la page HTML semble indiquer qu'il ne s'agit pas d'un article d'actualité.

    Recommandations

    Pour résoudre ce problème, placez le titre de votre article bien en vue sur la page HTML, par exemple dans une balise <h1>, et recopiez-le également dans la balise <title> de la page. Consultez cet article pour en savoir plus sur les titres.

    Titre introuvable

    Explication

    Nous ne sommes pas en mesure d'extraire le titre de l'article de la page HTML.

    Recommandations

    • Respectez nos recommandations relatives au format des titres.
    • Pour garantir un affichage correct de vos articles sur les appareils mobiles, n'incluez pas de préfixe (qui correspond parfois à une clé d'accès) dans le texte d'ancrage du titre.

    Échec de décompression

    Explication

    Googlebot-News a constaté que cette page était compressée, mais n'est pas parvenu à la décompresser. Cela peut être dû à l'état du réseau, ou à une mauvaise programmation ou configuration du serveur Web.

    Recommandations

    Vérifiez l'état de votre réseau/serveur Web.

    Type de contenu non pris en charge

    Explication

    La page présente du contenu de type HTTP. Ce type de contenu n'est pas pris en charge par Google Actualités.

    Recommandations

    Le contenu des articles doit être de type text/html, text/plain ou application/xhtml+xml.

    Dans l'idéal, la structure des sitemaps Google Actualités doit rester simple et fixe. Lorsque vous publiez de nouveaux articles, mettez à jour les sitemaps existants plutôt que d'en créer de nouveaux. Il n'est pas recommandé de créer fréquemment (un par jour, par exemple) de nouveaux sitemaps.