Bloquer des URL avec un fichier robots.txt

En savoir plus sur les fichiers robots.txt

Qu'est-ce qu'un fichier robots.txt ?

Un fichier robots.txt indique aux robots d'exploration des moteurs de recherche les pages ou les fichiers qu'ils peuvent ou ne peuvent pas demander à votre site. Son objectif principal est d'éviter de surcharger votre site de demandes. Il ne sert pas à empêcher qu'une page Web figure dans les résultats de recherche Google. Pour empêcher qu'une page figure sur Google, vous devez utiliser des balises ou des directives noindex, ou la protéger par un mot de passe.

À quoi sert le fichier robots.txt ?

Le fichier robots.txt sert principalement à gérer le trafic des robots d'exploration sur votre site et, parfois, à empêcher Google d'explorer une page, en fonction du type de fichier :

Type de page Gestion du trafic Non explorable par Google Description
Page Web

Pour les pages Web (HTML, PDF ou autres formats non multimédias que Google peut lire), le fichier robots.txt permet de gérer le trafic d'exploration si vous pensez que le serveur sera submergé par les requêtes du robot Google, ou pour éviter l'exploration de pages semblables ou sans importance sur votre site.

N'utilisez pas le fichier robots.txt pour masquer votre page Web dans les résultats de la Recherche Google. En effet, si d'autres pages redirigent vers la vôtre avec un texte descriptif, celle-ci peut être indexée sans avoir à être explorée. Si vous voulez empêcher l'affichage de votre page dans les résultats de recherche, utilisez une autre méthode, telle que la protection par mot de passe ou une directive noindex.

Si votre page Web est bloquée avec un fichier robots.txt, elle peut tout de même apparaître dans les résultats de la recherche. Toutefois, le résultat n'aura pas de description et ressemblera à ceci. Les fichiers image, vidéo, PDF et autres fichiers non HTML sont exclus. Si vous voyez ce résultat de recherche pour votre page et que vous souhaitez le corriger, supprimez l'entrée robots.txt qui bloque la page correspondante. Si vous souhaitez empêcher complètement l'affichage de la page dans les résultats de recherche, utilisez une autre méthode.

Fichier multimédia

Utilisez le fichier robots.txt pour gérer le trafic d'exploration, et empêcher les fichiers image, vidéo et audio d'apparaître dans les résultats de recherche Google. Notez que cela n'empêche pas les autres pages ou utilisateurs de créer des liens vers votre fichier image, vidéo ou audio.

Fichier de ressource

Vous pouvez utiliser le fichier robots.txt pour bloquer les fichiers de ressource tels que les images, scripts ou fichiers de style non importants, si vous pensez que l'absence de ces ressources n'affectera pas le chargement des pages. Cependant, si l'absence de ces ressources rend la page plus compliquée à comprendre pour le robot d'exploration Google, vous ne devez pas les bloquer, car cela nous empêche d'analyser correctement les pages dépendant de ces ressources.

J'utilise un service d'hébergement de site

Si vous utilisez un service d'hébergement de site Web, tel que Wix, Drupal ou Blogger, il n'est pas toujours nécessaire (ou possible) de modifier directement le fichier robots.txt. Au lieu de cela, un paramètre de page ou un autre mécanisme est mis à votre disposition pour indiquer aux moteurs de recherche s'ils peuvent ou non explorer votre page.

Pour déterminer si votre page a été explorée par Google, recherchez son URL dans Google.

Si vous voulez masquer une page, ajoutez-y des identifiants de connexion. À l'inverse, si vous souhaitez en autoriser l'affichage, supprimez les identifiants de connexion qui lui sont associés. Ensuite, recherchez sur Google comment modifier la visibilité de la page dans les moteurs de recherche pour l'hébergeur de votre site. Par exemple : empêcher les moteurs de recherche d'accéder à une page avec Wix.

Comprendre les limites du fichier robots.txt

Avant de créer ou de modifier un fichier robots.txt, vous devez connaître les limites liées à cette méthode de blocage des URL. Il est parfois possible d'envisager d'autres solutions pour vous assurer que vos URL sont introuvables sur le Web.

  • Les instructions des fichiers robots.txt sont des consignes et non des règles
    Les instructions des fichiers robots.txt ne sont pas des règles que tout robot d'exploration doit suivre. Il est préférable de les considérer comme des consignes destinées aux robots d'exploration qui accèdent à votre site. Googlebot et les autres robots d'exploration sérieux respectent les instructions des fichiers robots.txt, mais il est possible que d'autres robots ne le fassent pas. Par conséquent, si vous souhaitez protéger vos informations en empêchant leur récupération par les robots d'exploration, nous vous conseillons d'utiliser d'autres méthodes de blocage, comme la protection par mot de passe des fichiers privés sur votre serveur.
  • Les robots d'exploration peuvent interpréter la syntaxe de différentes façons
    Même si les robots d'exploration sérieux suivent les instructions du fichier robots.txt, tous ne les interprètent pas forcément de la même façon. Nous vous recommandons de vous renseigner sur le sujet, car certains robots pourraient ne pas comprendre certaines instructions.
  • Une page bloquée par un robot peut tout de même être indexée si d'autres sites renvoient vers elle
    Nous n'explorerons ni n'indexerons pas le contenu bloqué par le fichier robots.txt, mais nous pouvons toujours trouver et indexer une URL non autorisée si elle est référencée ailleurs sur le Web. Par conséquent, l'adresse URL, et potentiellement d'autres informations accessibles au public, comme le texte d'ancrage dans les liens vers la page, peuvent continuer de figurer dans les résultats de recherche Google. La procédure conseillée pour empêcher l'affichage d'une URL dans les résultats de la Recherche Google consiste à protéger par mot de passe les fichiers correspondants sur votre serveur, à utiliser la balise Meta ou l'en-tête de réponse "noindex", ou encore à supprimer complètement la page.
Remarque : La combinaison de plusieurs directives d'exploration et d'indexation risque de créer des conflits. Découvrez comment configurer correctement ces directives dans la documentation Google Developers.

Tester si une page est bloquée par un fichier robots.txt

Vous pouvez tester si une page ou une ressource est bloquée par une règle robots.txt.

Pour déterminer si une page est bloquée par une directive noindex, utilisez l'Outil d'inspection d'URL.

Cet article vous a-t-il été utile ?
Comment pouvons-nous l'améliorer ?