À propos du fichier robots.txt

Questions fréquentes sur les robots

Questions générales sur les robots

Questions sur le fichier robots.txt

Questions sur la balise Meta pour les robots

Questions sur l'en-tête HTTP "X-Robots-Tag"

Avons-nous oublié une question fréquente ? Si vous avez des questions, n'hésitez pas à les poser sur notre Forum d'aide pour les webmasters.

Questions générales sur les robots

Dois-je forcément utiliser un fichier robots.txt sur mon site Web ?

Non. Lorsque nous consultons un site Web à l'aide de Googlebot, nous demandons d'abord l'autorisation d'explorer ce site en tentant de récupérer le fichier robots.txt. En général, même si un site Web n'a pas de fichier robots.txt, de balise Meta pour les robots ou d'en-tête HTTP "X-Robots-Tag", nous l'explorons et l'indexons normalement.

Quelle méthode utiliser ?

Cela dépend. En résumé, il y a de bonnes raisons d'utiliser chacune de ces méthodes :

  1. Fichier robots.txt : utilisez-le si l'exploration de votre contenu provoque des problèmes sur votre serveur. Par exemple, vous pouvez interdire l'exploration des scripts d'agenda à n'en plus finir. N'utilisez pas le fichier robots.txt pour bloquer un contenu privé (utilisez plutôt l'authentification côté serveur) ou pour gérer la mise en forme canonique (consultez notre Centre d'aide). Si vous voulez vous assurer qu'une URL n'est pas indexée, utilisez plutôt la balise Meta pour les robots ou l'en-tête HTTP "X-Robots-Tag".
  2. Balise Meta pour les robots : utilisez-la pour contrôler l'affichage d'une page HTML individuelle dans les résultats de recherche, ou pour vous assurer qu'elle ne s'y affiche pas.
  3. En-tête HTTP "X-Robots-Tag" : utilisez-le pour contrôler l'affichage d'un contenu qui n'est pas de type HTML dans les résultats de recherche, ou pour vous assurer qu'il ne s'y affiche pas.

Puis-je utiliser ces méthodes pour supprimer le site d'un tiers ?

Non. Ces méthodes ne sont valables que pour les sites dont vous pouvez modifier le code ou sur lesquels vous pouvez ajouter des fichiers. Si vous souhaitez supprimer le contenu d'un site tiers, vous devez contacter le webmaster pour lui demander de retirer ledit contenu.

Comment puis-je ralentir l'exploration de mon site Web par Google ?

Vous pouvez généralement modifier la vitesse d'exploration dans votre compte Google Search Console.

Questions sur le fichier robots.txt

J'utilise le même fichier robots.txt pour plusieurs sites Web. Puis-je utiliser une URL complète au lieu d'un chemin d'accès relatif ?

Non. À l'exception de "Sitemap:", les instructions du fichier robots.txt ne sont valables que pour les chemins d'accès relatifs.

Puis-je placer le fichier robots.txt dans un sous-répertoire ?

Non. Le fichier doit être placé dans le répertoire racine du site Web.

Je veux bloquer un dossier privé. Puis-je empêcher d'autres personnes de lire mon fichier robots.txt ?

Non. Le fichier robots.txt est lisible par les internautes. Si vous souhaitez que des dossiers ou des noms de fichier de contenu restent privés, vous ne devez pas les faire figurer dans le fichier robots.txt. Il est déconseillé d'utiliser différents fichiers robots.txt en fonction du user-agent ou d'autres attributs.

Dois-je inclure une instruction allow pour permettre l'exploration ?

Non, vous n'avez pas besoin d'inclure une instruction allow. L'instruction allow sert à ignorer les instructions disallow dans le même fichier robots.txt.

Que se passe-t-il s'il y a une erreur dans mon fichier robots.txt ou si j'utilise une instruction non acceptée ?

Les robots d'exploration sont généralement très flexibles, et ils ne sont normalement pas perturbés par des erreurs mineures dans le fichier robots.txt. En général, dans le pire des cas, ils ignorent les instructions incorrectes/non acceptées. Gardez toutefois à l'esprit que nous ne pouvons pas lire dans les pensées. Nous devons interpréter le fichier robots.txt exploré. Cela dit, si vous êtes conscient qu'il y des problèmes dans votre fichier robots.txt, vous n'aurez généralement aucun mal à les résoudre.

Quel programme dois-je utiliser pour créer un fichier robots.txt ?

Vous pouvez utiliser tout programme qui permet de créer un fichier texte valide. Les programmes les plus utilisés pour la création de fichiers robots.txt sont Notepad, TextEdit, vi ou emacs. Familiarisez-vous avec la création de fichiers robots.txt. Une fois le fichier créé, validez-le à l'aide de l'outil de test du fichier robots.txt.

Si j'empêche Google d'explorer une page en plaçant une instruction disallow dans un fichier robots.txt, cette page va-t-elle disparaître des résultats de recherche ?

Empêcher Google d'explorer une page peut entraîner sa suppression de l'index. 

Cependant, l'instruction Disallow du fichier robots.txt ne garantit pas que la page ne s'affichera pas dans les résultats : nous pouvons décider, sur la base d'informations externes telles que des liens entrants, que la page est pertinente. Si vous souhaitez véritablement empêcher l'indexation d'une page, utilisez plutôt la balise Meta noindex pour les robots ou l'en-tête HTTP "X-Robots-Tag". Dans ce cas, vous ne devez pas bloquer la page dans le fichier robots.txt, car il est nécessaire que nous puissions l'explorer pour repérer la balise et suivre ses instructions.

Combien de temps faut-il pour que les changements apportés à mon fichier robots.txt se répercutent sur mes résultats de recherche ?

Tout d'abord, le cache du fichier robots.txt doit être actualisé. Nous gardons généralement le contenu en cache durant un jour au maximum. Même une fois le changement identifié, l'exploration et l'indexation sont des processus complexes, qui peuvent être particulièrement longs pour les URL individuelles. Il est donc impossible de donner une chronologie précise. De plus, sachez que même si votre fichier robots.txt interdit l'accès à une URL, celle-ci peut rester visible dans les résultats de recherche, bien que nous ne puissions pas l'explorer. Si vous souhaitez accélérer la suppression des pages bloquées, veuillez envoyer une demande de suppression via notre Search Console.

Comment puis-je suspendre temporairement toute exploration de mon site Web ?

Vous pouvez suspendre temporairement l'exploration de votre site en affichant un code de résultat HTTP 503 pour toutes les URL, y compris le fichier robots.txt. Nous essaierons régulièrement d'accéder au fichier robots.txt, jusqu'à ce qu'il soit de nouveau accessible. Nous vous déconseillons de modifier votre fichier robots.txt pour interdire l'exploration.

Mon serveur n'est pas sensible à la casse. Comment puis-je interdire totalement l'exploration de certains dossiers ?

Les instructions du fichier robots.txt sont sensibles à la casse. Dans ce cas, nous vous conseillons de vous assurer qu'une seule version de l'URL est indexée en utilisant les méthodes de mise en forme canonique. Cela vous permet de simplifier votre fichier robots.txt. Si cela n'est pas possible, nous vous recommandons de faire la liste des combinaisons fréquentes du nom de dossier ou de le raccourcir autant que possible, en utilisant seulement les premiers caractères au lieu du nom complet. Par exemple, au lieu de dresser la liste de toutes les permutations entre majuscules et minuscules de "/MyPrivateFolder", vous pouvez lister les permutations de "/MyP", si vous êtes certain qu'aucune autre URL à explorer ne commence par ces mêmes caractères. Si l'exploration ne pose pas de problème, il peut être judicieux de privilégier une balise Meta pour les robots ou un en-tête HTTP "X-Robots-Tag".

Le message 403 "Interdit" s'affiche pour toutes les URL, y compris le fichier robots.txt. Pourquoi l'exploration du site se poursuit-elle ?

Le code de résultat HTTP 403, comme tous les autres codes de résultat HTTP de type 4xx, est perçu comme indiquant l'absence de fichier robots.txt. Ainsi, les robots d'exploration estiment généralement qu'ils peuvent explorer toutes les URL du site Web. Afin de bloquer l'exploration du site Web, le fichier robots.txt doit s'afficher normalement (avec un code de résultat HTTP 200 "OK") et comporter une instruction "disallow" appropriée.

Questions sur la balise Meta pour les robots

La balise Meta pour les robots sert-elle à remplacer le fichier robots.txt ?

Non. Le fichier robots.txt permet de contrôler l'accessibilité des pages. La balise Meta pour les robots contrôle l'indexation d'une page, mais pour que cette balise soit visible, la page doit être explorée. Si l'exploration d'une page est problématique (par exemple, si cela génère une charge élevée sur le serveur), vous devez utiliser le fichier robots.txt. Si la seule question est d'afficher ou non la page dans les résultats de recherche, vous pouvez utiliser la balise Meta pour les robots.

La balise Meta pour les robots peut-elle servir à empêcher l'indexation d'une partie d'une page ?

Non, la balise Meta pour les robots est un paramètre qui s'applique au niveau de la page.

Puis-je utiliser la balise Meta pour les robots ailleurs que dans la section <head> ?

Non. Pour l'instant, la balise Meta pour les robots doit figurer dans la section <head> d'une page.

La balise Meta pour les robots interdit-elle l'exploration ?

Non. Même si la balise Meta pour les robots indique à un moment noindex, nous devrons explorer de nouveau cette URL de temps en temps pour vérifier si la balise Meta a changé.

Quelle est la différence entre la balise Meta pour les robots nofollow et l'attribut "link" rel="nofollow" ?

La balise Meta pour les robots nofollow s'applique à tous les liens d'une page. L'attribut "link" rel="nofollow" ne s'applique qu'à des liens précis d'une page. Pour en savoir plus sur l'attribut "link" rel="nofollow", veuillez consulter les articles de notre centre d'aide consacrés au spam généré par l'internaute et à l'attribut rel="nofollow".

Questions sur l'en-tête HTTP "X-Robots-Tag"

Comment puis-je vérifier l'en-tête "X-Robots-Tag" d'une URL ?

Pour consulter les en-têtes du serveur, le plus simple est d'utiliser un vérificateur d'en-tête de serveur en ligne ou d'utiliser la fonctionnalité Explorer comme Googlebot dans la Search Console.

Ces informations vous-ont elles été utiles ?
Comment pouvons-nous l'améliorer ?