Bloquer des URL avec un fichier robots.txt

Créer un fichier robots.txt

Premiers pas

Un fichier robots.txt est constitué d'une ou plusieurs règles. Chaque règle bloque (ou autorise) l'accès d'un robot d'exploration donné à un chemin d'accès au fichier précis sur le site Web.

Voici un fichier robots.txt simple avec deux règles, expliquées ci-dessous :

User-agent : Googlebot
Disallow : /nongooglebot/

User-agent : *
Allow : /

Sitemap : http://www.example.com/sitemap.xml

 

Explication :

  1. Le user-agent nommé robot d'exploration "Googlebot" ne doit pas explorer le dossier http://example.com/nogooglebot/, ni les sous-répertoires.
  2. Tous les autres user-agent peuvent accéder à l'ensemble du site. Si cette partie avait été omise, le résultat aurait été le même, car l'accès complet est l'hypothèse.
  3. Le fichier sitemap du site se trouve à l'adresse http://www.example.com/sitemap.xml.

Nous donnerons par la suite un exemple plus détaillé.

Règles de base relatives aux fichiers robots.txt

Voici quelques règles de base concernant les fichiers robots.txt. Essayez d'utiliser l'outil de test du fichier robots.txt pour écrire ou modifier des fichiers robots.txt pour votre site. Il vous permet de tester la syntaxe et le comportement des fichiers sur votre site. Lisez ensuite la syntaxe complète des fichiers robots.txt, car elle est plus compliquée qu'il n'y paraît.

Format et emplacement

Vous pouvez utiliser presque tous les éditeurs de texte pour créer un fichier robots.txt. L'éditeur de texte doit être capable de créer des fichiers texte ASCII ou UTF-8 standards. N'utilisez pas de traitement de texte, car ces logiciels enregistrent souvent les fichiers dans un format propriétaire et peuvent ajouter des caractères inattendus (des guillemets courbes, par exemple), ce qui peut perturber les robots d'exploration.

Règles relatives au format et à l'emplacement :

  • Le fichier robots.txt est un fichier texte ASCII ou UTF-8. Aucun autre caractère n'est autorisé.
  • Le fichier doit être nommé robots.txt.
  • Votre site ne peut contenir qu'un seul fichier robots.txt.
  • Le fichier robots.txt doit se trouver à la racine de l'hébergeur du site Web. Par exemple, afin de contrôler l'exploration de toutes les URL sous http://www.example.com/, le fichier robots.txt doit se trouver à l'adresse http://www.example.com/robots.txt. Il ne peut pas être placé dans un sous-répertoire (par exemple, dans http://example.com/pages/robots.txt). Si vous ne savez pas comment accéder à la racine de votre site Web ou si vous avez besoin d'autorisations pour le faire, contactez votre fournisseur de services d'hébergement Web. Si vous ne pouvez pas accéder à la racine de votre site Web, utilisez une autre méthode de blocage, comme les balises Meta.
  • Un fichier robots.txt peut s'appliquer aux sous-domaines (par exemple, http://website.example.com/robots.txt) ou aux ports non standards (par exemple, http://example.com:8181/robots.txt).

Syntaxe

  • Un fichier robots.txt est constitué d'un ou plusieurs ensembles de règles.
  • Chaque règle nomme un ou plusieurs user-agents, et décrit les répertoires ou fichiers auxquels ce user-agent peut accéder ou non.
  • Les règles sont traitées de haut en bas. Un user-agent ne peut correspondre qu'à une seule configuration de règle, qui consiste en la première règle et la plus spécifique correspondant à un user-agent donné.
  • L'hypothèse par défaut est qu'un user-agent peut explorer une page ou un répertoire non bloqué par une règle Disallow:.
  • Les règles sont sensibles à la casse. Par exemple, Disallow: /fichier.asp s'applique à http://www.example.com/fichier.asp, mais pas à http://www.example.com/Fichier.asp.

Les mots-clés suivants sont utilisés dans les fichiers robots.txt :

  • User-agent : [obligatoire, un ou plusieurs par règle] le nom d'un robot de moteur de recherche (logiciel de robot d'exploration) auquel la règle s'applique. La plupart des noms d'user-agent sont répertoriés dans la base de données des robots du Web ou dans la liste Google des user-agents. Compatible avec le caractère générique * pour un préfixe, un suffixe ou une chaîne complète de chemin. L'utilisation d'un astérisque (*) comme dans l'exemple ci-dessous correspondra à tous les robots d'exploration, à l'exception des différents robots d'exploration AdsBot, qui doivent être nommés explicitement. Voir la liste des noms de robots de Google
    # Bloquer tous les robots sauf les robots AdsBot
    User-agent: *
  • Disallow : [au moins une ou plusieurs entrées Disallow ou Allow par règle] un répertoire ou une page, relatif au domaine racine, qui ne doit pas être exploré par le user-agent. Pour une page, il doit s'agir du nom complet de la page comme indiqué dans le navigateur. Pour un répertoire, le nom doit se terminer par un signe /.  Compatible avec le caractère générique * pour un préfixe, un suffixe ou une chaîne complète de chemin.
  • Allow : [au moins une ou plusieurs entrées Disallow ou Allow par règle] un répertoire ou une page, relatif au domaine racine, qui doit être exploré par le user-agent mentionné précédemment. Cela est utilisé pour remplacer Disallow, et permettre l'exploration d'un sous-répertoire ou d'une page dans un répertoire non autorisé. Pour une page, il doit s'agir du nom complet de la page comme indiqué dans le navigateur. Pour un répertoire, le nom doit se terminer par un signe /. Compatible avec le caractère générique * pour un préfixe, un suffixe ou une chaîne complète de chemin.
  • Sitemap : [facultatif, zéro ou plus par fichier] l'emplacement d'un sitemap pour ce site Web. Cette ligne est facultative et vous pouvez indiquer plusieurs sitemaps, chacun sur sa propre ligne. Les sitemaps sont un bon moyen d'indiquer quel contenu Google doit explorer, par opposition au contenu qu'il peut ou ne peut pas explorer. En savoir plus sur les sitemaps

Les mots-clés inconnus sont ignorés.

Autre fichier d'exemple

Un fichier robots.txt se compose d'un ou de plusieurs blocs de règles, chacun commençant par une ligne User-agent qui indique la cible des règles. Voici un fichier avec deux règles. Les commentaires intégrés expliquent chaque règle :

# Bloquer à googlebot l'accès à example.com/répertoire1/... et example.com/répertoire2/...
# mais autoriser l'accès à répertoire2/sous-répertoire1/...
# Tous les autres répertoires du site sont autorisés par défaut.
User-agent: googlebot
Disallow: /répertoire1/
Disallow: /répertoire2/
Allow: /répertoire2/sous-répertoire1/

# Bloquer le site entier à anothercrawler.
User-agent: anothercrawler
Disallow: /

Syntaxe complète d'un fichier robots.txt

Vous pouvez trouver la syntaxe complète d'un fichier robots.txt ici. Veuillez lire la documentation complète, car la syntaxe d'un fichier robots.txt comporte quelques aspects complexes qu'il est important de connaître.

Règles utiles relatives aux fichiers robots.txt

Voici quelques règles courantes utiles concernant les fichiers robots.txt :

Règle Exemple
Interdire l'exploration de tout le site Web. Notez que dans certains cas, les URL d'un site Web peuvent être indexées, même sans avoir été explorées. Remarque : cela ne s'applique pas aux différents robots d'exploration AdsBot, qui doivent être nommés explicitement.
User-agent: *
Disallow: /
Interdire l'exploration d'un répertoire et de son contenu en terminant le nom du répertoire par une barre oblique. N'oubliez pas que vous ne devez pas utiliser de fichier robots.txt pour bloquer l'accès à un contenu privé : utilisez plutôt une authentification appropriée. Nous pouvons indexer les URL bloquées par le fichier robot.txt sans les explorer, et n'importe qui peut voir le fichier robots.txt. Ce dernier risque donc de révéler l'emplacement de votre contenu privé.
User-agent: *
Disallow: /calendrier/
Disallow: /spam/
Autoriser l'accès à un seul robot d'exploration
User-agent: Googlebot-news
Disallow:

User-agent: *
Disallow: /
Autoriser l'accès à tous les robots d'exploration sauf un
User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Interdire l'exploration d'une seule page Web en répertoriant la page après la barre oblique :

Disallow: /fichier_privé.html

Bloquer une image spécifique dans Google Images :

User-agent: Googlebot-Image
Disallow: /images/chiens.jpg

Bloquer toutes les images de votre site dans Google Images :

User-agent: Googlebot-Image
Disallow: /

Interdire l'exploration des fichiers d'un type de fichier spécifique (par exemple, .gif) :

User-agent: Googlebot
Disallow: /*.gif$

Interdire l'exploration de l'ensemble du site, mais afficher des annonces AdSense sur ces pages, interdire tous les robots d'exploration Web autres que Mediapartners-Google. La mise en œuvre de cette commande masque vos pages dans les résultats de recherche tout en permettant au robot d'exploration Mediapartners-Google de continuer à les analyser afin de choisir les annonces à diffuser auprès des visiteurs de votre site.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Faire correspondre les URL qui se terminent par une chaîne spécifique, avec $. Par exemple, le code suivant bloque toutes les URL qui se terminent par .xls :
User-agent: Googlebot
Disallow: /*.xls$
Cet article vous a-t-il été utile ?
Comment pouvons-nous l'améliorer ?