Un fichier robots.txt empêche les robots des moteurs de recherche qui explorent le Web d'accéder à votre site. Ces robots sont automatisés et, avant d'accéder aux pages d'un site, ils vérifient si un fichier robots.txt leur interdit d'accéder à certaines pages. Tous les robots sérieux respectent les instructions d'un fichier robots.txt, mais certains robots peuvent les interpréter différemment. Toutefois, un fichier robots.txt n'est pas incontournable et certains spammeurs (ou d'autres utilisateurs mal intentionnés) peuvent l'ignorer. C'est pourquoi nous vous conseillons de protéger vos données confidentielles par un mot de passe.
Pour savoir quelles URL n'ont pas pu être explorées, consultez la page URL bloquées de la section État de santé dans les outils pour les webmasters.
Un fichier robots.txt est nécessaire uniquement si votre site contient des informations que vous ne souhaitez pas que les moteurs de recherche indexent. Si vous souhaitez que les moteurs de recherche indexent l'intégralité du contenu de votre site, tout fichier robots.txt (même vide) est inutile.
Même si le contenu des pages bloquées par le fichier robots.txt n'est ni exploré, ni indexé, il est possible que nous indexions les URL de ces pages si nous les rencontrons sur d'autres sites Web. Cela signifie que l'URL de la page et, éventuellement, d'autres informations accessibles au public, notamment le texte d'ancrage des liens qui pointent vers le site ou le titre créé par l'ODP (Open Directory Project, www.dmoz.org) peuvent apparaître dans les résultats de recherche Google.
Pour utiliser un fichier robots.txt, vous devez avoir accès à la racine de votre domaine (si vous n'êtes pas sûr, consultez votre hébergeur Web). Si vous n'avez pas accès à la racine du domaine, vous pouvez restreindre l'accès à l'aide de la balise Meta robots.
Créer un fichier robots.txt
Le fichier robots.txt le plus simple a recours à deux règles :
- User-agent : robot auquel s'applique la règle qui suit.
- Disallow : URL à bloquer.
Ces deux lignes sont considérées comme une seule entrée du fichier. Vous pouvez inclure autant d'entrées que vous le souhaitez. Vous pouvez inclure plusieurs lignes Disallow et plusieurs user-agents dans une même entrée.
Les différentes sections du fichier robots.txt sont séparées l'une de l'autre et ne sont pas interdépendantes. Exemples :
User-agent: * Disallow: /dossier1/ User-Agent: Googlebot Disallow: /dossier2/
Dans cet exemple, seules les URL correspondant au /dossier2/ sont bloquées pour Googlebot.
Robots et user-agents
Un user-agent est un robot de moteur de recherche spécifique. La base de données des robots sur le Web répertorie les robots les plus courants. Vous pouvez définir une entrée qui s'applique à un robot spécifique (précisez le nom du robot) ou à tous les robots (insérez un astérisque). Une entrée s'appliquant à tous les robots se présente comme suit :
User-agent: *
Google utilise plusieurs robots différents (user-agents). Le robot que nous utilisons pour nos recherches Web s'appelle Googlebot. Nos autres robots, par exemple Googlebot-Mobile et Googlebot-Image, respectent les mêmes règles que celles définies pour Googlebot, mais vous pouvez également définir des règles propres à ces derniers.
Bloquer des user-agents
La ligne Disallow indique les pages à bloquer. Vous pouvez inclure un modèle ou une URL spécifique. L'entrée doit commencer par une barre oblique (/).
- Pour bloquer le site dans son intégralité, insérez une barre oblique.
Disallow: /
- Pour bloquer un répertoire et tous les éléments qu'il contient, ajoutez une barre oblique après le nom du répertoire.
Disallow: /répertoire-xyz/
- Pour bloquer une page, indiquez la page à bloquer.
Disallow: /fichier_confidentiel.html
- Pour supprimer une image en particulier de Google Recherche d'images, ajoutez les lignes suivantes :
User-agent: Googlebot-Image Disallow: /images/chiens.jpg
- Pour supprimer toutes les images de votre site de Google Images, ajoutez les lignes suivantes :
User-agent: Googlebot-Image Disallow: /
- Pour bloquer un type de fichier spécifique (les fichiers .gif, par exemple), ajoutez les lignes suivantes :
User-agent: Googlebot Disallow: /*.gif$
- Pour empêcher l'exploration des pages de votre site tout en continuant à afficher des annonces AdSense sur ces pages, désactivez tous les robots autres, à l'exception de Mediapartners-Google. Dans ce cas, les pages n'apparaissent pas dans les résultats de recherche mais le robot Mediapartners-Google peut tout de même les analyser pour définir les annonces à diffuser. Le robot Mediapartners-Google ne partage aucune page avec les autres user-agents Google. Exemples :
User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Notez que les instructions sont sensibles à la casse. Par exemple, Disallow: /fichier_corbeille.asp bloque http://www.example.com/fichier_corbeille.asp, mais autorise l'accès à http://www.example.com/Fichier_corbeille.asp. Googlebot ne prend pas en compte les espaces (en particulier les lignes vides), ni les instructions inconnues indiquées dans le fichier robots.txt.
Googlebot prend en charge l'envoi de fichiers sitemap via le fichier robots.txt.
Correspondances de format
Googlebot respecte certaines correspondances de format, ce qui n'est pas le cas de tous les moteurs de recherche.
- Pour remplacer une séquence de caractères, utilisez un astérisque (*). Par exemple, pour bloquer l'accès à tous les sous-répertoires commençant par "personnel", ajoutez les lignes suivantes :
User-agent: Googlebot Disallow: /personnel*/
- Pour bloquer l'accès à toutes les URL qui contiennent un point d'interrogation (?) et, plus précisément, toute URL qui commence par votre nom de domaine, qui se poursuit par une chaîne, un point d'interrogation, puis une chaîne, ajoutez les lignes suivantes :
User-agent: Googlebot Disallow: /*?
- Pour indiquer la fin d'une URL, utilisez le symbole $. Par exemple, pour bloquer toutes les URL qui se terminent par .xls, ajoutez les lignes suivantes :
User-agent: Googlebot Disallow: /*.xls$
La correspondance de format peut être utilisée avec l'instruction Allow. Par exemple, si un signe "?" indique un identifiant de session, vous pouvez exclure toutes les URL contenant ce signe pour que Googlebot n'explore pas de pages en double. Toutefois, une URL qui se termine par un point d'interrogation peut correspondre à la version de la page que vous souhaitez inclure. Dans ce cas, configurez votre fichier robots.txt de la manière suivante :
User-agent: * Allow: /*?$ Disallow: /*?
L'instruction Disallow: / *? bloque toute URL contenant un point d'interrogation. (En d'autres termes, elle bloque toute URL qui commence par votre nom de domaine, suivi d'une chaîne, d'un point d'interrogation, puis d'une chaîne).
L'instruction Allow: /*?$ autorise l'accès à toute URL se terminant par un point d'interrogation. (En d'autres termes, elle autorise l'accès à toute URL qui commence par votre nom de domaine, suivi d'une chaîne et qui se termine par un point d'interrogation : aucun caractère ne doit être ajouté après le point d'interrogation).
Téléchargez le fichier ou copiez le contenu dans un fichier texte, puis enregistrez-le sous le nom robots.txt. Enregistrez le fichier dans le répertoire de plus haut niveau de votre site. Le fichier robots.txt doit se trouver en racine du domaine et son nom doit être "robots.txt". Un fichier robots.txt inséré dans un sous-répertoire n'est pas valide, car les robots recherchent ce fichier uniquement au niveau de la racine du domaine. Par exemple, http://www.example.com/robots.txt est un emplacement valide, mais pas http://www.example.com/monsite/robots.txt.
Tester un fichier robots.txt
L'outil Test de robots.txt vous indique si votre fichier robots.txt empêche accidentellement Googlebot d'accéder à un fichier ou répertoire de votre site, ou s'il permet à Googlebot d'explorer des fichiers qui ne sont pas censés apparaître sur le Web. Lorsque vous saisissez le texte d'un éventuel fichier robots.txt, l'outil l'interprète de la même façon que Googlebot et affiche les effets du fichier ainsi que tout problème détecté.
Pour tester le fichier robots.txt d'un site, procédez comme suit :
- Sur la page d'accueil des outils pour les webmasters, cliquez sur le site de votre choix.
- Sous Santé, cliquez sur URL bloquées.
- Cliquez sur l'onglet Test de robots.txt, si ce n'est pas déjà fait.
- Copiez le contenu de votre fichier robots.txt et collez-le dans le premier champ.
- Dans la zone URL, indiquez le site à tester.
- Dans la liste User-agents, sélectionnez les user-agents de votre choix.
Aucune des modifications effectuées dans cet outil ne sera sauvegardée. Pour sauvegarder les modifications, vous devez copier le contenu et le coller dans votre fichier robots.txt.
Les données fournies par cet outil concernent uniquement les user-agents de Google (par exemple, le robot Googlebot). Certains robots n'interprètent pas le fichier robots.txt de la même manière. Par exemple, Googlebot est compatible avec la définition étendue du protocole robots.txt standard. Il comprend les directives Allow:, ainsi que certains critères spéciaux. Ainsi, même si l'outil signale comme correctes des lignes comprenant ces extensions, n'oubliez pas que cela concerne uniquement Googlebot et non les autres robots susceptibles d'explorer votre site.
