Rédiger et envoyer un fichier robots.txt

Un fichier robots.txt vous permet de contrôler les fichiers auxquels les robots d'exploration peuvent accéder sur votre site.

Les fichiers robots.txt résident à la racine des sites. Par exemple, pour le site www.example.com, le fichier robots.txt se trouve à l'adresse www.example.com/robots.txt. Il s'agit d'un fichier au format texte brut qui respecte le protocole d'exclusion des robots et énonce une ou plusieurs règles. Chaque règle indique si tous les robots d'exploration ou si un robot donné est autorisé ou non à accéder à un fichier spécifique, précisé par son chemin d'accès, du domaine ou sous-domaine où le fichier robots.txt est hébergé. Sauf indication contraire de votre part dans votre fichier robots.txt, l'exploration est implicitement autorisée pour tous les fichiers.

Voici un fichier robots.txt simple à deux règles :

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: https://www.example.com/sitemap.xml

Signification de ce fichier robots.txt :

Le user-agent nommé Googlebot n'est pas autorisé à explorer les URL commençant par https://example.com/nogooglebot/.
Tous les autres user-agents sont autorisés à explorer l'ensemble du site. Cette partie peut être omise sans que cela ne change rien au résultat. Par défaut, les user-agents sont autorisés à explorer l'ensemble du site.
Le fichier sitemap du site se trouve à l'adresse https://www.example.com/sitemap.xml.

Consultez la section Syntaxe pour obtenir d'autres exemples.

Consignes élémentaires pour la création d'un fichier robots.txt

Pour créer un fichier robots.txt et en assurer l'accessibilité générale, ainsi que le bon fonctionnement, vous devez suivre quatre étapes :

Créez un fichier nommé robots.txt.
Ajoutez des règles au fichier robots.txt.
Importez le fichier robots.txt à la racine de votre site.
Testez le fichier robots.txt.

Créer un fichier robots.txt

Vous pouvez utiliser presque tous les éditeurs de texte pour créer un fichier robots.txt. Par exemple, Notepad, TextEdit, vi et emacs permettent de créer des fichiers robots.txt valides. N'utilisez pas de logiciels de traitement de texte, car ils enregistrent souvent les fichiers dans un format propriétaire et peuvent ajouter des caractères inattendus (des guillemets courbes, par exemple), ce qui peut perturber les robots d'exploration. Lorsque vous y êtes invité, veillez à enregistrer le fichier à l'aide de l'encodage UTF-8.

Règles relatives au format et à l'emplacement :

Le fichier doit être nommé robots.txt.
Votre site ne peut contenir qu'un seul fichier robots.txt.
Le fichier robots.txt doit se trouver à la racine de l'hôte du site Web auquel il s'applique. Par exemple, afin de contrôler l'exploration de toutes les URL sous https://www.example.com/, le fichier robots.txt doit se trouver à l'adresse https://www.example.com/robots.txt. Il ne peut pas être placé dans un sous-répertoire (par exemple, dans https://example.com/pages/robots.txt). Si vous ne savez pas comment accéder à la racine de votre site Web ou si vous avez besoin d'autorisations pour le faire, contactez votre fournisseur de services d'hébergement Web. Si vous ne pouvez pas accéder à la racine de votre site Web, utilisez une autre méthode de blocage, comme les balises meta.
Un fichier robots.txt peut être publié sur un sous-domaine (par exemple, https://website.example.com/robots.txt) ou sur des ports non standards (comme https://example.com:8181/robots.txt).
Un fichier robots.txt ne s'applique qu'aux chemins d'accès dans le protocole, l'hôte et le port sur lesquels il est publié. En d'autres termes, les règles de https://example.com/robots.txt ne s'appliquent qu'aux fichiers de https://example.com/, et pas aux sous-domaines comme https://m.example.com/ ni à d'autres protocoles tels que http://example.com/.
Un fichier robots.txt doit être un fichier texte encodé au format UTF-8 (ce qui inclut le code ASCII). Il se peut que Google ignore les caractères qui ne font pas partie de la plage UTF-8, ce qui pourrait invalider les règles du fichier robots.txt.

Écrire des règles de fichier robots.txt

Les règles indiquent aux robots d'exploration les sections de votre site qu'ils peuvent explorer. Suivez les consignes ci-dessous pour ajouter des règles à votre fichier robots.txt :

Un fichier robots.txt se compose d'un ou plusieurs groupes (ensemble de règles).
Chaque groupe se compose de plusieurs règles (également appelées directives), avec une seule règle par ligne. Chaque groupe commence par une ligne User-agent spécifiant la cible des groupes.
Un groupe fournit les informations suivantes :
- Le robot (user-agent) auquel le groupe s'applique.
- Les répertoires ou fichiers auxquels cet agent peut accéder.
- Les répertoires ou fichiers auxquels cet agent ne peut pas accéder.
Les robots d'exploration traitent les groupes de haut en bas. Un même user-agent ne peut relever que d'un seul ensemble de règles, défini comme le premier groupe le plus spécifique correspondant à un user-agent donné. S'il existe plusieurs groupes pour le même user-agent, ils seront combinés en un seul groupe avant le traitement.
Le principe de départ veut qu'à partir du moment où une page ou un répertoire ne sont pas bloqués par une règle disallow, le user-agent peut les explorer.
Les règles sont sensibles à la casse. Par exemple, disallow: /file.asp s'applique à https://www.example.com/file.asp, mais pas à https://www.example.com/FILE.asp.
Le caractère # marque le début d'un commentaire. Les commentaires sont ignorés lors du traitement.

Les robots d'exploration Google acceptent les règles suivantes dans les fichiers robots.txt :

user-agent: [obligatoire, une ou plusieurs entrées par groupe] : cette règle spécifie le nom du client automatique (robot d'exploration du moteur de recherche) auquel la règle s'applique. Il s'agit de la première ligne de tout groupe de règles. Le nom des user-agents Google est répertorié dans la liste Google des user-agents. L'utilisation d'un astérisque (*) permet d'englober tous les robots d'exploration, à l'exception des différents robots d'exploration AdsBot, lesquels doivent être nommés explicitement. Exemple :
```
# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /

# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

# Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly)
User-agent: *
Disallow: /
```
disallow: [au moins une ou plusieurs entrées disallow ou allow par règle] : répertoire ou page d'un domaine racine que vous ne souhaitez pas autoriser le user-agent à explorer. Si la règle fait référence à une page, il doit s'agir du nom complet de la page, tel qu'il apparaît dans le navigateur. Elle doit commencer par un caractère /. Si elle renvoie à un répertoire, elle doit se terminer par le signe /.
allow: [au moins une ou plusieurs entrées disallow ou allow par règle] : répertoire ou page du domaine racine, qui doivent être explorés par le user-agent mentionné précédemment. Cette règle est utilisée pour remplacer disallow et autoriser l'exploration d'un sous-répertoire ou d'une page dans un répertoire non autorisé. Pour une page unique, indiquez le nom complet de la page, comme indiqué dans le navigateur. Il doit commencer par un caractère /. S'il renvoie à un répertoire, il doit se terminer par le signe /.
sitemap: [Facultatif, zéro ou plus par fichier] : emplacement d'un sitemap pour ce site Web. L'URL du sitemap doit être une URL complète. Google ne déduit pas les variantes (http, https, www, non www, etc.) ni ne les vérifie. Les sitemaps sont un bon moyen d'indiquer quel contenu Google doit explorer, par opposition au contenu qu'il peut ou ne peut pas explorer. Découvrez-en davantage sur les sitemaps. Exemple
```
Sitemap: https://example.com/sitemap.xml
Sitemap: https://www.example.com/sitemap.xml
```

Toutes les règles, à l'exception de sitemap, sont compatibles avec le caractère générique * pour un préfixe, un suffixe ou une chaîne complète de chemin.

Les lignes qui ne correspondent à aucune de ces règles sont ignorées.

Lisez notre page sur l'interprétation de la spécification robots.txt par Google pour obtenir une description complète de chaque règle.

Importer le fichier robots.txt

Une fois que vous avez enregistré le fichier robots.txt sur votre ordinateur, vous pouvez le mettre à disposition des robots d'exploration des moteurs de recherche. Pour ce faire, il n'existe pas d'outil spécifique, car l'importation du fichier robots.txt sur votre site dépend de l'architecture de votre site et de votre serveur. Pour en savoir plus, contactez votre société d'hébergement ou consultez sa documentation. Par exemple, recherchez "comment importer des fichiers sur infomaniak".

Après avoir importé le fichier robots.txt, vérifiez s'il est accessible au public et si Google peut l'analyser.

Tester le balisage du fichier robots.txt

Pour déterminer si le fichier robots.txt que vous venez d'importer est accessible au public, ouvrez une fenêtre de navigation privée (ou un mode de navigation équivalent) dans le navigateur, puis accédez à l'emplacement du fichier robots.txt (par exemple, https://example.com/robots.txt). Si le contenu de votre fichier robots.txt est visible, vous pouvez tester le balisage.

Google propose deux options pour tester le balisage du fichier robots.txt :

L'outil de test du fichier robots.txt dans la Search Console. Vous ne pouvez utiliser cet outil que pour les fichiers robots.txt déjà accessibles sur votre site.
Si vous êtes développeur, consultez et créez la bibliothèque robots.txt Open Source de Google, qui est également utilisée dans la recherche Google. Cet outil vous permet de tester les fichiers robots.txt localement sur votre ordinateur.

Envoyer le fichier robots.txt à Google

Une fois que vous avez importé et testé votre fichier robots.txt, les robots d'exploration Google trouvent automatiquement votre fichier robots.txt et se mettent à l'utiliser. Aucune action de votre part n'est requise. Si vous avez mis à jour votre fichier robots.txt et que vous devez actualiser la copie en cache de Google au plus vite, découvrez comment envoyer un fichier robots.txt mis à jour.

Règles utiles relatives aux fichiers robots.txt

Voici quelques règles courantes utiles concernant les fichiers robots.txt :

Règles utiles
Interdire l'exploration de tout le site Web	Notez que dans certains cas, les URL d'un site Web peuvent être indexées, même sans avoir été explorées. Remarque : Cela ne s'applique pas aux différents robots d'exploration AdsBot, qui doivent être nommés explicitement. User-agent: * Disallow: /
Interdire l'exploration d'un répertoire et de son contenu	Ajoutez une barre oblique au nom du répertoire pour en empêcher l'exploration. Attention : N'oubliez pas que vous ne devez pas utiliser de fichier robots.txt pour bloquer l'accès à un contenu privé : utilisez plutôt une authentification appropriée. Nous pouvons indexer les URL bloquées par le fichier robot.txt sans les explorer. Sachant que n'importe qui peut voir ce fichier, il se peut que l'emplacement de votre contenu privé soit révélé. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/
Autoriser l'accès pour un seul robot d'exploration	Seul `googlebot-news` peut explorer l'ensemble du site. User-agent: Googlebot-news Allow: / User-agent: * Disallow: /
Autoriser l'accès pour tous les robots d'exploration sauf un	`Unnecessarybot` risque de ne pas explorer le site, contrairement à tous les autres robots. User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
Interdire l'exploration d'une seule page Web	Par exemple, interdisez l'exploration de la page `useless_file.html` située aux emplacements `https://example.com/useless_file.html` et `other_useless_file.html` dans le répertoire `junk`. User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html
Interdire l'exploration de tout le site Web, sauf un sous-répertoire	Les robots d'exploration ont uniquement accès au sous-répertoire `public`. User-agent: * Disallow: / Allow: /public/
Bloquer une image spécifique sur Google Images	Par exemple, interdisez l'exploration de l'image `dogs.jpg`. User-agent: Googlebot-Image Disallow: /images/dogs.jpg
Bloquer toutes les images de votre site sur Google Images	Nous ne pouvons pas indexer les images ni les vidéos sans les explorer. User-agent: Googlebot-Image Disallow: /
Interdire l'exploration de certains types de fichiers	Par exemple, interdisez l'exploration de tous les fichiers `.gif`. User-agent: Googlebot Disallow: /*.gif$
Interdire l'exploration de tout un site, mais autoriser `Mediapartners-Google`	Cette mise en œuvre masque vos pages dans les résultats de recherche, mais le robot d'exploration `Mediapartners-Google` peut tout de même les analyser pour déterminer quelles annonces diffuser auprès des visiteurs de votre site. User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Utilisez les caractères génériques `*` et `$` pour cibler les URL qui se terminent par une chaîne spécifique.	Par exemple, interdisez l'exploration de tous les fichiers `.xls`. User-agent: Googlebot Disallow: /*.xls$