Comment fonctionne la recherche Google

En savoir plus sur la manière dont nous détectons, explorons et diffusons les pages Web

Comment fonctionne Google ? Vous trouverez ci-dessous une réponse courte et une réponse longue.

Google collecte des informations à partir de nombreuses sources distinctes : 

  • Pages Web
  • Contenu soumis par les internautes, par exemple via Google My Business ou Maps
  • Livres numérisés
  • Bases de données publiques sur Internet
  • Et bien d'autres sources

Toutefois, nous allons ici nous concentrer sur les pages Web.

Version courte

Trois étapes de base sont nécessaires pour que Google puisse générer des résultats à partir des pages Web :

Exploration

La première étape consiste à identifier quelles pages se trouvent sur le Web. Il n'existe aucun registre qui les centralise. Google doit donc rechercher constamment les nouvelles pages et les ajouter à la liste des pages connues. Les pages connues sont celles auxquelles Google a déjà accédé. D'autres pages sont découvertes lorsque nous suivons un lien depuis une page connue vers une nouvelle page ou lorsqu'un propriétaire de site Web nous transmet une liste de pages (sitemap) à explorer. Si vous avez recours à un hôte Web géré, tel que Wix ou Blogger, celui-ci signale parfois à Google les pages nouvelles ou mises à jour à explorer.

Lorsque Google découvre l'URL d'une page, il y accède (ou l'explore) pour en savoir plus. Google affiche la page et analyse le contenu textuel et non textuel, ainsi que la présentation visuelle globale, afin de déterminer où elle doit apparaître dans les résultats de recherche. Plus il est facile d'interpréter le contenu de votre site, plus nous avons de chances de le présenter à votre cible.

Pour améliorer l'exploration de votre site :

  • Vérifiez que vos pages respectent les consignes et que Google y a accès. Google accède au Web en tant qu'utilisateur anonyme (sans mot de passe ni informations d'identification). Google doit également être en mesure de consulter toutes les images et tous les autres éléments de la page afin de pouvoir l'interpréter correctement. Pour effectuer une vérification rapide, saisissez l'URL de votre page dans l'outil de test d'optimisation mobile.
  • Si vous avez créé ou mis à jour une seule page, vous pouvez envoyer une URL individuelle à Google. Pour informer Google de la création ou de la mise à jour de plusieurs pages à la fois, utilisez un sitemap.
  • Si vous demandez à Google de ne parcourir qu'une page, sélectionnez votre page d'accueil. En ce qui nous concerne, votre page d'accueil est la page la plus importante de votre site. Pour encourager l’exploration complète du site, assurez-vous que toutes les pages, dont la page d'accueil, contiennent un bon système de navigation qui renvoie vers toutes les pages et sections importantes de votre site. Cela aide les utilisateurs (et Google) à parcourir votre site. Pour les sites de taille modeste (moins de 1 000 pages), vous pouvez vous contenter de n'indiquer à Google que la page d'accueil, à condition que nous puissions accéder directement ou indirectement à toutes vos autres pages en suivant les liens qui apparaissent sur celle-ci. 
  • Faites en sorte qu'une page connue par Google inclue un lien vers votre page. Cependant, sachez que les liens publiés dans les annonces ou les commentaires, ceux que vous payez pour apparaître sur d'autres sites ou tout autre lien qui ne respecte pas les Consignes Google aux webmasters ne sont pas pris en compte par Google.

 

Nous n'acceptons aucun paiement pour explorer un site plus fréquemment ou améliorer son classement. N'écoutez aucune personne qui vous dirait le contraire.

Indexation

Une fois que nous trouvons une page, nous essayons de déterminer ce sur quoi elle porte. Ce processus s'appelle l'indexation. Nous analysons le contenu de la page, cataloguons les images et les fichiers vidéo qui s'y trouvent, et exploitons toute autre information disponible pour identifier l'objet de cette page. Ces informations sont rassemblées dans l'index Google, une énorme base de données stockée sur un très grand nombre d'ordinateurs.

Pour améliorer l'indexation de votre page :

  • Créez des noms de page courts et descriptifs.
  • Utilisez des titres qui illustrent le contenu de la page.
  • Pour faire passer votre message, préférez le texte aux images. Nous interprétons le contenu de certaines images et vidéos, mais pas aussi bien que le texte. Pensez à au moins annoter les vidéos et les images avec un texte alt et à renseigner tout autre attribut utile.

Diffusion (et classement)

Lorsqu'un internaute saisit une requête, nous nous basons sur de nombreux critères pour essayer de déterminer la réponse la plus appropriée à partir de notre index. Nous tenons compte d'autres éléments, tels que la zone géographique de l'internaute, sa langue ou son appareil (ordinateur ou téléphone), pour optimiser l'expérience utilisateur et fournir les réponses les plus pertinentes. Par exemple, la recherche "atelier de réparation de vélo" ne génère pas les mêmes résultats selon que l'internaute se trouve à Paris ou à Hong Kong. Nous n'acceptons aucun paiement pour améliorer le classement d'une page. Ce processus repose exclusivement sur l'algorithme Google.

Pour améliorer la diffusion et le classement de votre page :

Version longue

Vous souhaitez en savoir plus ? Lisez la suite.

Version longue

Exploration

Lors de l'exploration, Googlebot consulte les pages nouvelles ou mises à jour à ajouter dans l'index Google.

Nous utilisons un nombre impressionnant d'ordinateurs pour explorer des milliards de pages Web. Le programme chargé de l'exploration s'appelle Googlebot (également désigné par les termes "robot" ou "robot d'indexation", ou encore "spider" en anglais). Googlebot utilise un processus d'exploration basé sur des algorithmes pour déterminer quels sites explorer, la fréquence d'exploration et le nombre de pages à extraire de chaque site.

Le processus d'exploration de Google commence par une liste des URL des pages Web générées lors des explorations précédentes, à laquelle s'ajoutent les données de sitemap fournies par les webmasters. Au cours de sa visite, Googlebot détecte les liens sur la page et les ajoute à sa liste de pages à explorer. Les nouveaux sites, les modifications de sites existants et les liens non fonctionnels sont répertoriés et utilisés pour mettre à jour l'index Google.

Lors de l'exploration, Google affiche la page à l'aide d'une version récente de Chrome. Alors qu'il affiche la page, il exécute tous les scripts de page qu'il trouve. Si votre site utilise du contenu généré dynamiquement, veillez à suivre les principes de base du référencement JavaScript.

Exploration principale et exploration secondaire

Google utilise deux robots d'exploration différents pour les sites Web : un robot d'exploration pour mobile et un robot d'exploration pour ordinateur. Chaque type de robot d'exploration simule un internaute visitant votre page avec l'appareil correspondant.

Google utilise un seul type de robot d'exploration (mobile ou ordinateur) comme robot d'exploration principal pour votre site. Toutes les pages de votre site explorées par Google sont explorées à l'aide du robot d'exploration principal. Le robot d'exploration pour mobile est le principal robot d'exploration de tous les nouveaux sites Web.

En outre, Google réexplore quelques pages de votre site avec l'autre type de robot (mobile ou ordinateur). C'est ce que l'on appelle l'exploration secondaire, qui permet d'évaluer les performances de votre site avec l'autre type d'appareil.

Comment déterminons-nous les pages à ne pas explorer ?

  • Les pages bloquées dans le fichier robots.txt ne sont pas explorées, mais peuvent être indexées si elles sont identifiées par un lien sur une autre page. En effet, nous sommes en mesure de déduire le contenu d'une page rien qu'à partir d'un lien qui renvoie vers elle, et d'indexer celle-ci sans avoir à l'explorer.
  • Nous ne sommes pas en mesure d'explorer les pages auxquelles les utilisateurs anonymes ne peuvent pas accéder. En d'autres termes, nous ne pouvons pas explorer les pages protégées par des identifiants de connexion ou tout autre mécanisme d'autorisation.
  • Les pages déjà explorées et considérées comme des doublons d'une autre page sont explorées moins souvent.

Améliorer l'exploration de votre page

Utilisez les techniques ci-dessous pour nous aider à détecter les pages appropriées sur votre site :

Indexation

Googlebot traite chaque page explorée afin d'en comprendre le contenu. Ce processus inclut le traitement du contenu textuel, des balises et des attributs de contenu clé, tels que les balises {title} ou les attributs alt, les images, les vidéos, etc. De nombreux types de contenu peuvent être traités, mais pas tous. Par exemple, il nous est impossible d'analyser le contenu des fichiers rich media.

Lors du processus d'exploration et d'indexation, Google détermine si une page est un doublon ou la version canonique d'une autre page. S'il s'agit d'un doublon, elle est explorée beaucoup moins fréquemment. Les pages similaires sont regroupées dans un document, qui comprend une ou plusieurs pages incluant la page canonique (la plus représentative du groupe) et les éventuels doublons (qui peuvent simplement être des URL de substitution permettant d'accéder à la même page ou à d'autres versions pour mobile ou ordinateur de la même page).

Notez que Google n'indexe pas les pages contenant une instruction noindex (en-tête ou balise). Toutefois, nous devons être en mesure de lire cette instruction. Si la page est bloquée par un fichier robots.txt, par des identifiants de connexion ou par tout autre dispositif, elle pourra être indexée même si nous ne l'avons pas explorée.

Améliorer l'indexation de votre page

De nombreuses techniques permettent d'améliorer l'interprétation du contenu d'une page par Google :

Qu'est-ce qu'un "document" ?

En interne, Google assimile le Web à un ensemble (incommensurable) de documents. Chaque document représente une ou plusieurs pages Web. Ces pages sont identiques ou très similaires, mais elles présentent fondamentalement le même contenu, accessible via différentes URL. Les différentes URL d'un document peuvent renvoyer exactement à la même page (par exemple, example.com/robes/printemps/1234 et example.com?produit=1234 peuvent afficher la même page) ou à des variantes destinées aux utilisateurs de différents appareils (par exemple, example.com/mapage pour les utilisateurs d'ordinateurs et m.example.com/mapage pour les mobinautes).

Google choisit l'une des URL d'un document et la définit en tant qu'URL canonique du document. L'URL canonique du document est celle que Google explore et indexe le plus souvent. Les autres URL sont considérées comme des doublons ou des alternatives, et peuvent être explorées occasionnellement ou diffusées en fonction de la demande de l'utilisateur. Par exemple, si l'URL canonique d'un document correspond à l'URL pour mobile, il est probable que Google continue à présenter l'URL pour ordinateur (alternative) aux internautes effectuant des recherches sur ordinateur.

La plupart des rapports de la Search Console collectent des données pour l'URL canonique du document. Certains outils (tels que l'outil d'inspection d'URL) permettent le test des URL secondaires, mais l'inspection de l'URL canonique devrait également fournir des informations sur les autres URL.

Vous pouvez nous indiquer l'URL canonique, mais Google peut choisir une autre URL canonique pour diverses raisons.

Voici un résumé des termes et de leur utilisation dans la Search Console :

  • Document : ensemble de pages similaires. Comprend une URL canonique et éventuellement d'autres URL si votre site comporte des pages en double. Les URL du document peuvent provenir de la même organisation ou non (domaine racine, par exemple "google" dans www.google.com). Google choisit l'URL à afficher dans les résultats de recherche en fonction de la plate-forme (mobile/ordinateur), de la langue de l'utilisateur ou de sa zone géographique. De nombreuses autres variables entrent également en jeu. Google découvre les pages associées de votre site via l'exploration naturelle ou des fonctionnalités intégrées dans le site, telles que les redirections ou les balises <link rel=alternate/canonical>. Les pages associées provenant d'autres organisations ne peuvent être marquées comme pages secondaires ou alternatives que si elles sont explicitement codées par votre site (via des redirections ou des balises "link").
  • URL : URL permettant d'accéder à un contenu spécifique sur un site. Le site peut utiliser différentes URL pour renvoyer à la même page.
  • Page : page Web spécifique, accessible via une ou plusieurs URL. Il peut exister différentes versions d'une page, en fonction de la plate-forme de l'utilisateur (mobile, ordinateur, tablette, etc.).
  • Version : variante de la page, généralement classée dans les catégories "mobile", "ordinateur" et "AMP" (bien que les pages AMP puissent elles-mêmes proposer des versions pour mobile et pour ordinateur). Chaque version peut avoir une URL différente (example.com ou m.example.com) ou la même URL en fonction de la configuration de votre site. En effet, si votre site utilise l'affichage dynamique ou le Responsive Web Design, la même URL peut afficher différentes versions de la même page. Les variantes linguistiques ne sont pas considérées comme des versions distinctes, mais comme des documents différents.
  • Page ou URL canonique : URL considérée par Google comme étant la plus représentative du document. Google explore toujours cette URL. Les URL en double du document sont explorées occasionnellement.
  • Autre page ou URL/Page ou URL en double : URL du document que Google est susceptible d'explorer (occasionnellement). Google diffuse également ces URL si elles sont adaptées à la demande de l'internaute (par exemple, si l'internaute utilise un ordinateur, l'URL alternative destinée aux utilisateurs d'ordinateur lui sera présentée au lieu de l'URL canonique mobile).
  • Site : terme généralement utilisé comme synonyme de "site Web" (ensemble conceptuel de pages Web), mais parfois aussi comme synonyme d'une propriété de la Search Console, bien qu'une propriété puisse être définie comme faisant uniquement partie d'un site. Un site peut couvrir plusieurs sous-domaines (voire plusieurs organisations, si les pages AMP sont correctement associées).

Les pages dont le contenu est identique dans différentes langues sont stockées dans différents documents que l'on distingue via des balises hreflang. C'est pourquoi il est important d'utiliser ces balises pour le contenu traduit.

Diffusion des résultats

Lorsqu'un internaute saisit une requête, nos ordinateurs recherchent les pages correspondantes dans l'index et renvoient les résultats que nous estimons être les plus pertinents. La pertinence est déterminée par un algorithme qui repose sur des centaines de facteurs et que nous ne cessons d'améliorer. La qualité de l'expérience utilisateur fait partie des critères sur lesquels nous nous basons pour inclure ou non votre page dans les résultats et pour déterminer son classement. Assurez-vous donc qu'elle se charge rapidement et qu'elle est adaptée aux mobiles.

Améliorer la diffusion de votre page

  • Si vos résultats sont destinés à des utilisateurs dont la zone géographique ou la langue sont spécifiques, vous pouvez nous indiquer vos préférences.
  • Assurez-vous que votre page se charge rapidement et qu'elle est adaptée aux mobiles.
  • Suivez les Consignes Google aux webmasters pour éviter les erreurs courantes et améliorer le classement de votre site.
  • Envisagez de mettre en œuvre des fonctionnalités de résultats de recherche pour votre site, telles que des fiches de recettes ou d'articles.
  • Adoptez le format AMP pour accélérer le chargement des pages sur les appareils mobiles. Certaines pages AMP sont également éligibles à des fonctionnalités de recherche supplémentaires, telles que le carrousel "À la une".
  • Nous améliorons constamment notre algorithme. Au lieu d'essayer d'en deviner les spécificités et de concevoir votre page en conséquence, nous vous conseillons de suivre nos consignes et de vous concentrer sur la création d'un contenu apportant des informations originales, utiles et de bonne qualité aux internautes.

Version encore plus longue

Découvrez une version encore plus longue sur la façon dont la recherche Google fonctionne (avec des photos et des vidéos).

Ces informations vous-ont elles été utiles ?
Comment pouvons-nous l'améliorer ?