Le rapport robots.txt indique les fichiers robots.txt que Google a trouvés pour les 20 principaux hôtes de votre site, la date de la dernière exploration, ainsi que les éventuels avertissements et les erreurs rencontrées. Il vous permet également de demander une nouvelle exploration d'un fichier robots.txt en cas d'urgence.
Ce rapport n'est disponible que pour les propriétés au niveau du domaine. En d'autres termes, il doit s'agir :
- d'une propriété de domaine (comme example.com ou m.example.com) ; ou
- d'une propriété avec préfixe d'URL définie sans chemin d'accès (comme https://example.com/, mais pas https://example.com/chemin/).
Consulter vos fichiers robots.txt et l'état de l'exploration
Dans une propriété de domaine, le rapport inclut les fichiers robots.txt des 20 principaux hôtes de la propriété.
Pour chaque fichier robots.txt vérifié par la Search Console, vous pouvez consulter les informations suivantes :
- Chemin d'accès au fichier : URL complète pour laquelle Google a vérifié la présence d'un fichier robots.txt. Une URL apparaît dans le rapport uniquement si elle a eu l'état "Récupéré" ou "Non récupéré" au cours des 30 derniers jours. Consultez la section Emplacement des fichiers robots.txt.
- État de l'exploration : état de la dernière demande d'exploration pour ce fichier. Voici les valeurs possibles :
- Non récupéré – Introuvable (404) : une erreur 404 (fichier introuvable) s'est produite lors de la demande de fichier. Si vous avez publié un fichier robots.txt à l'URL indiquée, mais que cette erreur s'affiche, essayez d'inspecter l'URL pour vérifier si elle présente des problèmes de disponibilité. Si le fichier affiche l'état Introuvable (404) pendant 30 jours, il n'apparaîtra plus dans le rapport (mais Google continuera de vérifier en arrière-plan). L'absence d'erreur robots.txt signifie que Google peut explorer toutes les URL de votre site. Pour en savoir plus, consultez la section sur le comportement de Google en cas d'erreur robots.txt.
- Non récupéré – Autre raison : un autre problème est survenu lorsque vous avez demandé ce fichier. Consultez la section Liste des problèmes d'indexation.
- Récupéré : la dernière tentative d'exploration a renvoyé un fichier robots.txt. Les problèmes détectés lors de l'analyse du fichier sont listés dans la colonne Problèmes. Google ignore les lignes présentant des problèmes et utilise celles qu'il peut analyser.
- Vérifié le : date et heure de la dernière tentative d'exploration de cette URL par Google.
- Taille : taille du fichier récupéré, en octets. Si la dernière tentative de récupération a échoué, ce champ sera vide.
- Problèmes : le tableau affiche le nombre de problèmes d'analyse du contenu du fichier lors de la dernière récupération. Les erreurs empêchent l'utilisation d'une règle, ce qui n'est pas le cas des avertissements. Consultez la section sur le comportement de Google en cas d'erreur du fichier robots.txt. Pour résoudre les problèmes d'analyse, utilisez un programme de validation robots.txt.
Afficher la dernière version récupérée
Pour afficher la dernière version récupérée d'un fichier robots.txt, cliquez dessus dans la liste des fichiers du rapport. Si le fichier robots.txt comporte des erreurs ou des avertissements, ils sont mis en surbrillance dans le contenu du fichier affiché. Vous pouvez faire défiler les erreurs et les avertissements à l'aide des touches fléchées.
Afficher les versions précédemment récupérées
Pour afficher les demandes d'exploration d'un fichier robots.txt effectuées au cours des 30 derniers jours, cliquez sur le fichier dans la liste des fichiers du rapport, puis sur Versions. Pour afficher le contenu du fichier d'une version spécifique, cliquez dessus. Une demande d'exploration n'est incluse dans l'historique que si le fichier récupéré ou le résultat de l'exploration a changé depuis la demande d'exploration du fichier précédente.
Si Google a rencontré une erreur de récupération lors de la dernière tentative, il utilise la dernière version récupérée sans erreur pendant 30 jours maximum.
Demander une nouvelle exploration
Vous pouvez demander une nouvelle exploration d'un fichier robots.txt lorsque vous corrigez une erreur ou effectuez une modification importante.
Quand demander une nouvelle exploration ?
En règle générale, vous n'avez pas besoin de demander une nouvelle exploration d'un fichier robots.txt, car Google le fait régulièrement. Toutefois, vous pouvez en faire la demande dans les cas suivants :
- Vous avez modifié les règles du fichier robots.txt pour débloquer certaines URL importantes, et vous souhaitez en informer Google rapidement (notez que cela ne garantit pas une réexploration immédiate des URL débloquées).
- Vous avez corrigé une erreur de récupération ou une autre erreur critique.
Demander une nouvelle exploration
Pour demander une nouvelle exploration, sélectionnez l'icône Plus de paramètres à côté d'un fichier dans la liste des fichiers robots.txt, puis cliquez sur Demander une nouvelle exploration.
Sites Web hébergés sur un service d'hébergement de sites Web
Si votre site Web est hébergé sur un service d'hébergement de site Web, il n'est peut-être pas facile de modifier votre fichier robots.txt. Dans ce cas, consultez la documentation de votre fournisseur pour savoir comment empêcher Google d'explorer ou d'indexer certaines pages. Notez que la plupart des utilisateurs souhaitent empêcher des fichiers d'apparaître dans la recherche Google plutôt que d'être explorés par Google. Si c'est le cas pour vous, renseignez-vous auprès de votre service d'hébergement pour savoir comment empêcher les moteurs de recherche d'afficher certaines pages.
Que se passe-t-il lorsque Google ne parvient pas à récupérer ou à lire votre fichier robots.txt ?
Si aucun fichier robots.txt n'est trouvé pour un domaine ou un sous-domaine, Google considère qu'il peut explorer n'importe quelle URL de cet hôte.
Si Google trouve un fichier robots.txt, mais ne parvient pas à le récupérer, la procédure est la suivante :
- Pendant les 12 premières heures, Google cesse d'explorer le site, mais tente à plusieurs reprises de récupérer le fichier robots.txt.
- Si Google ne parvient pas à récupérer une nouvelle version, il utilisera pendant 30 jours la dernière version récupérée, tout en continuant d'essayer de récupérer une nouvelle version. Vous pouvez afficher la dernière version récupérée dans l'historique des versions.
- Si les erreurs ne sont toujours pas corrigées après 30 jours :
- Si le site est accessible, Google se comportera comme s'il n'existait pas de fichier robots.txt, mais continuera de vérifier si une nouvelle version est disponible.
- Si le site présente des problèmes de disponibilité, Google cessera de l'explorer, tout en continuant à demander régulièrement un fichier robots.txt.
Si Google parvient à récupérer un fichier robots.txt : il le lit ligne par ligne. Si une ligne comporte une erreur ou ne peut pas être analysée en fonction d'une règle robots.txt, elle est ignorée. Si le fichier ne contient aucune ligne valide, Google considère qu'il s'agit d'un fichier robots.txt vide et qu'aucune règle n'est déclarée pour le site.
Emplacement des fichiers robots.txt
Terminologie :
- Le protocole (également appelé schéma) correspond à HTTP ou HTTPS.
- L'hôte correspond à tout ce qui se trouve dans l'URL après le protocole (http:// ou https://) jusqu'au chemin d'accès. Ainsi, m.de.example.com implique trois hôtes possibles : m.de.example.com, de.example.com et example.com, chacun pouvant avoir son propre fichier robots.txt.
- Une origine correspond au protocole suivi de l'hôte. Exemple : https://example.com/ ou https://m.example.co.es/
Conformément à la norme RFC 9309, le fichier robots.txt doit se trouver à la racine de chaque combinaison protocole/hôte de votre site.
Pour une propriété de domaine :
- La Search Console choisit les 20 principaux hôtes, triés par vitesse d'exploration. Pour chaque domaine, le rapport peut afficher jusqu'à deux origines. Ainsi, le tableau peut afficher jusqu'à 40 lignes. Si vous ne trouvez pas l'URL du fichier robots.txt de l'un de vos hôtes, créez une propriété de domaine pour le sous-domaine manquant.
- Pour chaque hôte, la Search Console vérifie deux URL :
- http://<hôte>/robots.txt
- https://<hôte>/robots.txt
- Si le fichier robots.txt de l'URL demandée est signalé comme Introuvable pendant 30 jours, la Search Console n'affiche pas l'URL dans ce rapport, mais Google continue de vérifier en arrière-plan. Pour tout autre résultat, le rapport indique l'URL vérifiée.
Pour une propriété avec préfixe d'URL au niveau de l'hôte (par exemple, https://example.com/), la Search Console ne vérifie qu'une seule origine. Ainsi, pour la propriété https://example.com, la Search Console ne vérifie que https://example.com/robots.txt, et pas http://example.com/robots.txt ni https://m.example.com/robots.txt.
Tâches courantes
Afficher un fichier robots.txt
Pour ouvrir un fichier robots.txt à partir de ce rapport, cliquez dessus dans la liste des fichiers robots.txt. Pour ouvrir le fichier dans votre navigateur, cliquez sur Ouvrir le fichier robots.txt en ligne.
Vous pouvez ouvrir n'importe quel fichier robots.txt sur le Web dans votre navigateur. Consultez la section ci-dessous pour savoir à quelle URL accéder.
Emplacement des fichiers robots.txt
Un fichier robots.txt se trouve à la racine d'un protocole et d'un domaine. Pour déterminer l'URL, coupez tout ce qui suit l'hôte (y compris le port facultatif) dans l'URL d'un fichier, puis ajoutez "/robots.txt" à la fin. Si un fichier robots.txt est présent, vous pouvez le consulter dans votre navigateur. Les fichiers robots.txt ne sont pas hérités par les sous-domaines ni par les domaines parents, et une page donnée ne peut être affectée que par un seul fichier robots.txt. Voici quelques exemples :
URL du fichier | URL du fichier robots.txt qui peut affecter ce fichier |
---|---|
http://example.com/home | http://example.com/robots.txt |
https://m.de.example.com/une/page/ici/ma-page | https://m.de.example.com/robots.txt |
https://example.com?pageid=234#ancre | https://example.com/robots.txt |
https://images.example.com/fleurs/jonquille.png | https://images.example.com/robots.txt |
Découvrir quel fichier robots.txt affecte une page ou une image
Pour trouver l'URL du fichier robots.txt qui affecte une page ou une image :
- Identifiez l'URL exacte de la page ou de l'image. Pour une image, ouvrez le navigateur Google Chrome, effectuez un clic droit, puis sélectionnez Copier l'URL de l'image.
- Supprimez la partie de l'URL après le domaine de premier niveau (par exemple, .com, .org, .co.il), puis ajoutez "/robots.txt" à la fin. Le fichier robots.txt pour https://images.example.com/fleurs/jonquille.png est https://images.example.com/robots.txt.
- Ouvrez l'URL dans votre navigateur pour vérifier que le fichier existe. Si votre navigateur ne peut pas ouvrir le fichier, cela signifie qu'il n'existe pas.
Vérifier si Google est bloqué par le fichier robots.txt
- Pour vérifier si une URL spécifique est bloquée par un fichier robots.txt, vous pouvez tester la disponibilité de l'URL à l'aide de l'outil d'inspection d'URL.
- Si vous souhaitez tester une règle robots.txt spécifique pour un fichier qui n'est pas encore disponible sur le Web ou tester une nouvelle règle, vous pouvez utiliser un outil de test du fichier robots.txt tiers
En savoir plus
- Qu'est-ce qu'un fichier robots.txt et à quoi sert-il ?
- Implémenter un fichier robots.txt