Recherche
Effacer la recherche
Fermer la recherche
Applications Google
Menu principal

Bloquer des URL avec un fichier robots.txt

Créer un fichier robots.txt

Pour créer un fichier robots.txt, vous devez accéder à la racine de votre domaine. Si vous ne savez pas comment y accéder, contactez votre fournisseur de services d'hébergement Web. Par ailleurs, si vous ne pouvez pas accéder à la racine de votre domaine, vous pouvez utiliser d'autres méthodes de blocage, telles que la protection par mot de passe des fichiers sur votre serveur et l'insertion de balises Meta dans votre fichier HTML.

Vous pouvez créer ou modifier un fichier robots.txt en utilisant l'outil de test du fichier robots.txt. Il vous permet de tester vos modifications au fur et à mesure que vous optimisez votre fichier robots.txt.

Apprendre la syntaxe des fichiers robots.txt

Les fichiers robots.txt les plus simples utilisent deux mots clés : User-agent et Disallow. Les user-agents sont des robots de moteur de recherche ou des robots d'exploration. La plupart des user-agents sont répertoriés dans la base de données des robots d'exploration. Disallow est une commande qui demande au user-agent de ne pas accéder à une URL particulière. Cependant, si vous souhaitez nous donner accès à une URL particulière qui est un répertoire enfant d'un répertoire parent non autorisé, vous pouvez utiliser le troisième mot clé Allow.

Nous utilisons plusieurs user-agents tels que Googlebot pour la recherche Google et Googlebot-Image pour Google Recherche d'images. La plupart de nos user-agents suivent les règles que vous fixez pour Googlebot, cependant vous pouvez ignorer cette option et établir des règles spécifiques uniquement pour certains de nos user-agents.

La syntaxe qui permet d'utiliser les mots clés est la suivante :

User-agent: [the name of the robot the following rule applies to]

Disallow: [the URL path you want to block]

Allow: [the URL path in of a subdirectory, within a blocked parent directory, that you want to unblock]

L'ensemble de ces lignes ne correspond qu'à une seule entrée dans le fichier, et la règle Disallow ne s'applique qu'au user-agent désigné au-dessus. Vous pouvez inclure autant d'entrées que vous le souhaitez, et plusieurs lignes Disallow peuvent s'appliquer à plusieurs user-agents, le tout dans une seule entréeVous pouvez configurer la commande User-agent pour qu'elle s'applique à tous les robots d'exploration en insérant un astérisque (*) comme dans l'exemple ci-dessous :

User-agent: *

Commandes de blocage d'URL à utiliser dans le fichier robots.txt

Bloque...

Exemple

Le site complet avec une barre oblique (/) :

Disallow: /

Un répertoire et son contenu en insérant une barre oblique après le nom du répertoire :

Disallow: /sample-directory/

Une page Web en indiquant la page après la barre oblique :

Disallow: /private_file.html

Une image en particulier dans Google Images :

User-agent: Googlebot-Image

Disallow: /images/dogs.jpg

Toutes les images de votre site dans Google Images :

User-agent: Googlebot-Image

Disallow: /

Un type de fichier particulier (par exemple .gif) :

User-agent: Googlebot

Disallow: /*.gif$

Les pages de votre site, tout en continuant d'afficher les annonces AdSense de ces pages : désactive tous les robots d'exploration autres que Mediapartners-Google. La mise en œuvre de cette commande masque vos pages dans les résultats de recherche tout en permettant au robot d'exploration Mediapartners-Google de continuer à les analyser afin de choisir les annonces à diffuser auprès des visiteurs de votre site.

User-agent: *

Disallow: /

User-agent: Mediapartners-Google

Allow: /

Sachez que ces instructions sont sensibles à la casse. Par exemple, avec l'instruction Disallow: /file.asp, le fichier http://www.example.com/file.asp serait bloqué, mais pas le fichier http://www.example.com/File.asp. En outre, ni les espaces blancs, ni les instructions inconnues indiquées dans le fichier robots.txt ne sont pris en compte.
Règles de correspondance de format pour optimiser le code de votre fichier robots.txt

Règle de correspondance de format

Exemple

Pour bloquer n'importe quelle séquence de caractères, utilisez un astérisque (*). Par exemple, le code suivant bloque l'accès à tous les sous-répertoires qui commencent par le mot "private" :

User-agent: Googlebot

Disallow: /private*/

Pour bloquer l'accès à toutes les URL qui incluent un point d'interrogation (?). Par exemple, le code suivant bloque les URL qui commencent par votre nom de domaine, suivi de n'importe quelle chaîne, suivie d'un point d'interrogation, et qui se terminent par n'importe quelle chaîne :

User-agent: Googlebot

Disallow: /*?

Pour bloquer toutes les URL qui se terminent d'une certaine manière, utilisez $. Par exemple, le code suivant bloque toutes les URL qui se terminent par .xls :

User-agent: Googlebot

Disallow: /*.xls$

Pour bloquer des formats avec les directives Allow et Disallow, regardez l'exemple à droite. Dans cet exemple, un ? indique un identifiant de session. Notre accès aux URL qui contiennent ces identifiants devrait normalement être bloqué afin d'empêcher les robots d'explorer les pages en double. Cependant, si certaines URL qui se terminent par un ? sont des versions de la page que vous souhaitez inclure, vous pouvez utiliser l'approche suivante et combiner les instructions Allow et Disallow :

  1. L'instruction Allow: /*?$ autorise toutes les URL qui se terminent par un ? et plus précisément, elle autorise les URL qui commencent par votre nom de domaine, suivi par une chaîne, suivie par un ?, sans caractère après le ?.
  2. L'instruction Disallow: / *? bloque toutes les URL qui contiennent un ? et plus précisément, elle bloque les URL qui commencent par votre nom de domaine, suivi d'une chaîne, suivie d'un point d'interrogation, suivi d'une chaîne.

User-agent: *

Allow: /*?$

Disallow: /*?

Enregistrer votre fichier robots.txt

Vous devez appliquer les conventions d'enregistrement suivantes afin que Googlebot et d'autres robots d'exploration puissent trouver et identifier votre fichier robots.txt :

  • Vous devez enregistrer votre code de fichier robots.txt dans un fichier texte.
  • Vous devez placer votre fichier dans le répertoire au plus haut niveau sur votre site ou à la racine de votre domaine.
  • Le fichier robots.txt doit être nommé robots.txt.

Par exemple, les robots d'exploration peuvent identifier un fichier robots.txt enregistré à la racine de example.com, au niveau de l'URL http://www.example.com/robots.txt, mais aucun robot d'exploration ne peut trouver un fichier robots.txt enregistré au niveau de l'URL http://www.example.com/not_root/robots.txt.

Cet article vous a-t-il été utile ?
Comment pouvons-nous l'améliorer ?