À propos du fichier robots.txt

Créer un fichier robots.txt

Si vous utilisez un service d'hébergement de site, comme Wix ou Blogger, vous n'avez pas forcément besoin de modifier le fichier robots.txt ou d'en créer un.

Premiers pas

Les fichiers robots.txt résident à la racine des sites. Par exemple, pour le site www.example.com, le fichier robots.txt se trouve à l'adresse www.example.com/robots.txt. Il s'agit d'un fichier au format texte brut qui respecte le protocole d'exclusion des robots et énonce une ou plusieurs règles. Chacune indique si un robot d'exploration donné est autorisé ou non à accéder à un fichier spécifique du site Web, précisé par son chemin d'accès.

Voici un fichier robots.txt simple à deux règles, dont le contenu est expliqué plus bas :

# Règle 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Règle 2
User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

 

Explication :

  1. Le user-agent nommé "Googlebot" n'est pas autorisé à explorer le dossier http://example.com/nogooglebot/, ni ses sous-répertoires.
  2. Tous les autres user-agents peuvent accéder à l'ensemble du site. Cette partie peut être omise, car l'accès est supposé complet par principe, et cette précision ne change rien au résultat.
  3. Le fichier sitemap du site se trouve à l'adresse http://www.example.com/sitemap.xml.

Nous donnerons par la suite un exemple plus détaillé.

Consignes de base relatives aux fichiers robots.txt

Voici quelques consignes de base pour les fichiers robots.txt. Nous vous recommandons de lire la syntaxe complète des fichiers robots.txt, car elle comporte des subtilités qu'il est important de comprendre.

Format et emplacement

Pour créer un fichier robots.txt, vous pouvez utiliser quasiment n'importe quel éditeur de texte qui permette d'enregistrer des fichiers texte standards au format ASCII ou UTF-8. N'utilisez pas de logiciels de traitement de texte, car ils enregistrent souvent les fichiers dans un format propriétaire et peuvent ajouter des caractères inattendus (des guillemets courbes, par exemple), ce qui peut perturber les robots d'exploration.

Utilisez cet outil de test pour modifier le fichier robots.txt de votre site ou en créer un. Vous pourrez ainsi tester la syntaxe de vos fichiers et la logique de vos règles par rapport à votre site.

Règles relatives au format et à l'emplacement :

  • Le fichier doit être nommé robots.txt.
  • Votre site ne peut contenir qu'un seul fichier robots.txt.
  • Le fichier robots.txt doit se trouver à la racine de votre site Web. Par exemple, afin de contrôler l'exploration de toutes les URL sous http://www.example.com/, le fichier robots.txt doit se trouver à l'adresse http://www.example.com/robots.txt. Il ne peut pas être placé dans un sous-répertoire (par exemple, dans http://example.com/pages/robots.txt). Si vous ne savez pas comment accéder à la racine de votre site Web ou si vous avez besoin d'autorisations pour le faire, contactez votre fournisseur de services d'hébergement Web. Si vous ne pouvez pas accéder à la racine de votre site Web, utilisez une autre méthode de blocage, comme les balises Meta.
  • Un fichier robots.txt peut s'appliquer aux sous-domaines (par exemple, http://website.example.com/robots.txt) ou aux ports non standards (par exemple, http://example.com:8181/robots.txt).
  • Le signe dièse (#) introduit un commentaire. 

Syntaxe

  • Le fichier robots.txt doit être un fichier texte ASCII ou UTF-8. Aucun autre caractère n'est autorisé.
  • Un fichier robots.txt est constitué d'une ou plusieurs règles.
  • Chaque règle est composée de plusieurs directives (instructions), une directive par ligne.
  • Une règle fournit les informations suivantes :
    • Le robot (user-agent) auquel la règle s'applique
    • Les répertoires ou fichiers auxquels cet agent peut accéder, le cas échéant
    • Les répertoires ou fichiers auxquels cet agent ne peut pas accéder, le cas échéant
  • Les règles sont traitées de haut en bas, et un même user-agent ne peut relever que d'une seule règle, définie comme la première règle la plus spécifique régissant son comportement.
  • Le principe de départ veut qu'à partir du moment où une page ou un répertoire ne sont pas bloqués par une règle Disallow:, le user-agent peut les explorer.
  • Les règles sont sensibles à la casse. Par exemple, Disallow: /fichier.asp s'applique à http://www.example.com/fichier.asp, mais pas à http://www.example.com/Fichier.asp.

Les directives suivantes sont utilisées dans les fichiers robots.txt :

  • User-agent [obligatoire, un ou plusieurs par règle] : nom d'un robot de moteur de recherche (logiciel de robot d'exploration) auquel la règle s'applique. Il s'agit de la première ligne de toute règle. La plupart des noms de user-agent sont répertoriés dans la base de données des robots du Web ou dans la liste Google des user-agents. Compatible avec le caractère générique * pour un préfixe, un suffixe ou une chaîne complète de chemin. L'utilisation d'un astérisque (*), comme dans l'exemple ci-dessous, permet d'englober tous les robots d'exploration, à l'exception des différents robots d'exploration AdsBot, qui doivent être nommés explicitement. Voir la liste des noms de robots de Google Exemples :
    # Exemple 1 : Bloquer uniquement Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Exemple 2 : Bloquer Googlebot et Adsbot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
     
    # Exemple 3: Bloquer tous les robots, sauf les robots AdsBot
    User-agent: * 
    Disallow: /
  • Disallow [au moins une ou plusieurs entrées Disallow ou Allow par règle] : répertoire ou page, relatifs au domaine racine, qui ne doivent pas être explorés par le user-agent. Pour une page, il doit s'agir du nom complet de la page, tel qu'indiqué dans le navigateur. Pour un répertoire, le nom doit se terminer par une barre oblique (/).  Compatible avec le caractère générique * pour un préfixe, un suffixe ou une chaîne complète de chemin.
  • Allow [au moins une ou plusieurs entrées Disallow ou Allow par règle] : répertoire ou page, relatifs au domaine racine, qui doivent être explorés par le user-agent mentionné précédemment. Cette directive est utilisée pour contourner l'instruction Disallow appliquée à un répertoire et permettre l'exploration d'une de ses pages ou d'un de ses sous-répertoires. Pour une page, il doit s'agir du nom complet de la page, tel qu'indiqué dans le navigateur. Pour un répertoire, le nom doit se terminer par une barre oblique (/). Compatible avec le caractère générique * pour un préfixe, un suffixe ou une chaîne complète de chemin.
  • Sitemap [facultatif, zéro ou plus par fichier] : emplacement d'un sitemap pour ce site Web. L'URL fournie doit être complète. Google ne déduit pas les variantes (http, https, www, non www, etc.) ni ne les vérifie. Les sitemaps sont un bon moyen d'indiquer quel contenu Google doit explorer, par opposition au contenu qu'il peut ou ne peut pas explorer. Découvrez-en davantage sur les sitemaps. Exemple :
    Sitemap : https://example.com/sitemap.xml
    Sitemap : http://www.example.com/sitemap.xml

Les mots clés inconnus sont ignorés.

Autre fichier d'exemple

Un fichier robots.txt se compose d'un ou de plusieurs blocs de règles, chacun commençant par une ligne User-agent qui indique la cible des règles. Voici un fichier comprenant deux règles. Les commentaires intégrés expliquent chacune d'elles :

# Bloquer l'accès à example.com/répertoire1/... et example.com/répertoire2/... pour googlebot
# mais autoriser l'accès à répertoire2/sous-répertoire1/...
# Tous les autres répertoires du site sont autorisés par défaut.
User-agent: googlebot
Disallow: /répertoire1/
Disallow: /répertoire2/
Allow: /répertoire2/sous-répertoire1/

# Bloquer l'accès au site entier pour anothercrawler.
User-agent: anothercrawler
Disallow: /

Syntaxe complète d'un fichier robots.txt

Vous pouvez trouver la syntaxe complète d'un fichier robots.txt ici. Veuillez lire la documentation complète, car la syntaxe d'un fichier robots.txt comporte quelques aspects complexes qu'il est important de connaître.

Règles utiles relatives aux fichiers robots.txt

Voici quelques règles courantes utiles concernant les fichiers robots.txt :

Règle Exemple
Interdire l'exploration de tout le site Web. Notez que dans certains cas, les URL d'un site Web peuvent être indexées, même sans avoir été explorées. Remarque : cela ne s'applique pas aux différents robots d'exploration AdsBot, qui doivent être nommés explicitement.
User-agent: *
Disallow: /
Interdire l'exploration d'un répertoire et de son contenu en terminant le nom du répertoire par une barre oblique. N'oubliez pas que vous ne devez pas utiliser de fichier robots.txt pour bloquer l'accès à un contenu privé : utilisez plutôt une authentification appropriée. Nous pouvons indexer les URL bloquées par le fichier robot.txt sans les explorer, et n'importe qui peut voir le fichier robots.txt. Ce dernier risque donc de révéler l'emplacement de votre contenu privé.
User-agent: *
Disallow: /calendrier/
Disallow: /spam/
Autoriser l'accès pour un seul robot d'exploration
User-agent: Googlebot-news
Disallow:

User-agent: *
Disallow: /
Autoriser l'accès pour tous les robots d'exploration sauf un
User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Interdire l'exploration d'une seule page Web en indiquant la page après la barre oblique :

Disallow: /fichier_privé.html

Bloquer une image spécifique dans Google Images :

User-agent: Googlebot-Image
Disallow: /images/chiens.jpg

Bloquer toutes les images de votre site dans Google Images :

User-agent: Googlebot-Image
Disallow: /

Interdire l'exploration des fichiers d'un certain type (par exemple, les fichiers .gif) :

User-agent: Googlebot
Disallow: /*.gif$

Interdire l'exploration de l'ensemble du site, mais afficher des annonces AdSense sur ces pages, bloquer tous les robots d'exploration Web autres que Mediapartners-Google. L'objectif de cette instruction est de masquer vos pages dans les résultats de recherche tout en permettant au robot d'exploration Mediapartners-Google de continuer à les analyser afin de choisir les annonces à diffuser auprès des visiteurs de votre site.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Faire correspondre les URL qui se terminent par une chaîne spécifique, avec $. Par exemple, le code suivant bloque toutes les URL qui se terminent par .xls :
User-agent: Googlebot
Disallow: /*.xls$
Ces informations vous-ont elles été utiles ?
Comment pouvons-nous l'améliorer ?