​Relatório robots.txt

Verificar se o Google pode processar seus arquivos robots.txt

O relatório robots.txt mostra quais arquivos robots.txt o Google encontrou para os 20 hosts principais do seu site, a última vez em que foram rastreados e todos os avisos ou erros encontrados. O relatório também permite que você peça um novo rastreamento de um arquivo robots.txt para situações de emergência.

Um arquivo robots.txt é usado para impedir que mecanismos de pesquisa rastreiem seu site. Use uma tag noindex se quiser impedir que o conteúdo apareça nos resultados da pesquisa.

Esse relatório está disponível apenas para propriedades no nível do domínio. Isso inclui os seguintes casos:

  • Uma propriedade do domínio, como example.com ou m.example.com
  • Uma propriedade com prefixo de URL sem um caminho, como https://example.com/, mas não https://example.com/path/

Abrir relatório do robots.txt

 

Conferir seus arquivos robots.txt e o status do rastreamento

Para uma propriedade do domínio, o relatório inclui arquivos robots.txt dos 20 hosts principais da propriedade.

Para cada arquivo robots.txt verificado pelo Search Console, é possível conferir as seguintes informações:

  • Caminho do arquivo: é o URL completo em que o Google verificou a presença de um arquivo robots.txt. Um URL só vai ser exibido no relatório se tiver o status "Buscado" ou "Não buscado" a qualquer momento nos últimos 30 dias. Consulte Localização dos arquivos robots.txt.
  • Status da busca: é o status da solicitação de busca mais recente do arquivo. Estes são os valores:
    • Não buscado – Não encontrado (404): ocorreu um erro 404 (o arquivo não existe) ao solicitar o arquivo. Se você publicou um arquivo robots.txt no URL listado, mas esse erro está ocorrendo, inspecione o URL para conferir se há algum problema de disponibilidade. Um arquivo com o status Não encontrado (404) por 30 dias não é mais exibido no relatório, embora ele continue sendo verificado pelo Google em segundo plano. Não ter nenhum erro no robots.txt é normal. Isso significa que o Google pode rastrear todos os URLs do site. Para conferir todos os detalhes, leia o que o Google faz quando há um erro no robots.txt.
    • Não buscado – Qualquer outro motivo: ocorreu outro problema ao solicitar o arquivo. Consulte a lista de problemas de indexação.
    • Buscado: a última tentativa de rastreamento retornou um arquivo robots.txt. Os erros encontrados durante a análise do arquivo são listados na coluna Problemas. O Google ignora as linhas com problemas e usa aquelas que ele consegue analisar.
  • Verificado em: mostra quando o Google tentou rastrear esse URL pela última vez, no horário local.
  • Tamanho: é o tamanho do arquivo buscado, em bytes. Se a última tentativa de busca falhar, esse valor vai estar em branco.
  • Problemas: a tabela mostra o número de problemas de análise no conteúdo do arquivo na última busca. Os erros impedem o uso de uma regra. Já os avisos, não. Saiba o que o Google faz quando há um erro no robots.txt. Para corrigir problemas de análise, use um validador de robots.txt.

Conferir a última versão buscada

Para conferir a última versão buscada de um arquivo robots.txt, clique nele na lista de arquivos do relatório. Se o arquivo robots.txt tiver erros ou avisos, eles vão ser destacados no conteúdo do arquivo exibido. É possível alternar entre os erros e avisos usando as teclas de seta.

Conferir versões buscadas anteriormente

Para conferir as solicitações de busca de um determinado arquivo robots.txt nos últimos 30 dias, clique no documento na lista de arquivos do relatório e em Versões. Para acessar o conteúdo do arquivo de uma versão, clique nela. Uma solicitação só vai ser incluída no histórico se o arquivo recuperado ou o resultado da busca for diferente da solicitação anterior de busca de arquivo.

Se o Google tiver encontrado um erro na última tentativa, ele vai usar a última versão buscada sem erros por até 30 dias.

Solicitar um novo rastreamento

Você pode solicitar um novo rastreamento de um arquivo robots.txt depois de corrigir um erro ou fazer uma mudança importante.

Quando solicitar um novo rastreamento

Geralmente, não é necessário solicitar um novo rastreamento de um arquivo robots.txt porque o Google já faz isso com frequência. No entanto, talvez você queira solicitar um novo rastreamento do robots.txt nas seguintes circunstâncias:

  • Você mudou as regras do robots.txt para desbloquear alguns URLs importantes e quer informar o Google rapidamente. Isso não garante um novo rastreamento imediato de URLs desbloqueados.
  • Você corrigiu um erro de busca ou outro erro crítico.

Como solicitar um novo rastreamento

Para solicitar um novo rastreamento, selecione o ícone de mais configurações ao lado de um item na lista de arquivos robots.txt e clique em Solicitar um novo rastreamento.

Sites em serviços de hospedagem

Caso seu site esteja em um serviço de hospedagem, talvez não seja fácil editar o arquivo robots.txt. Nesse caso, consulte a documentação do host do site para saber como impedir que páginas específicas sejam rastreadas ou indexadas pelo Google. A maioria dos usuários quer impedir que os arquivos apareçam na Pesquisa, e não que sejam rastreados pelo Google. Se esse for seu caso, pesquise no serviço de hospedagem informações sobre como bloquear páginas para não serem exibidas em mecanismos de pesquisa.

O que acontece quando o Google não consegue buscar nem ler o robots.txt

Se um arquivo robots.txt não for encontrado em um domínio ou subdomínio, o Google vai pressupor que pode rastrear todos os URLs nesse host.

Quando o Google encontra um robots.txt, mas não consegue fazer a busca do arquivo, ele segue este procedimento:

  1. Nas primeiras 12 horas, o Google para de rastrear o site, mas continua tentando buscar o arquivo robots.txt.
  2. Caso não consiga buscar uma nova versão, nos próximos 30 dias, o Google vai usar a última versão válida enquanto tenta buscar uma nova. Confira a última versão válida no histórico de versões.
  3. Se os erros ainda não forem corrigidos após 30 dias:
    • Se o site estiver disponível para todos os usuários, o Google vai agir como se não houvesse um arquivo robots.txt, mas vai continuar verificando se há novas versões.
    • Se o site tiver problemas de disponibilidade geral, o Google vai interromper o rastreamento e continuar solicitando um arquivo robots.txt periodicamente.

Se o Google encontrar e conseguir buscar um arquivo robots.txt: ele vai ler o arquivo linha por linha. Se uma linha tiver um erro ou não puder ser analisada com base em uma regra de robots.txt, ela vai ser ignorada. Se não houver linhas válidas no arquivo, ele vai ser tratado pelo Google como um arquivo robots.txt vazio, e nenhuma regra vai ser declarada para o site.

Localização dos arquivos robots.txt

Terminologia:

  • Um protocolo (também chamado de esquema) pode ser HTTP ou HTTPS.
  • Um host é tudo no URL após o protocolo (http:// ou https://) até o caminho. Portanto, o host m.de.example.com tem três possíveis hosts: m.de.example.com, de.example.com e example.com. Cada um deles pode ter um arquivo robots.txt próprio.
  • Uma origem é o protocolo mais o host. Portanto: https://example.com/ ou https://m.example.co.es/

De acordo com o RFC 9309 (página em inglês), o arquivo robots.txt precisa estar na raiz de cada combinação de protocolo e host do site.

Para uma propriedade do domínio:

  1. O Search Console escolhe os 20 hosts principais, classificados por taxa de rastreamento. Para cada domínio, o relatório pode mostrar até duas origens. Isso significa que a tabela pode exibir até 40 linhas. Se você não conseguir encontrar o URL robots.txt de um host, crie uma propriedade do domínio para o subdomínio ausente.
  2. Em cada host, o Search Console verifica dois URLs:
    • http://<host>/robots.txt
    • https://<host>/robots.txt
  3. Se o arquivo robots.txt no URL solicitado for marcado como Não encontrado por 30 dias, o Search Console não vai mostrar o URL no relatório. No entanto, o Google vai continuar verificando o URL em segundo plano. Em qualquer outro resultado, o relatório vai mostrar o URL verificado.

Para uma propriedade de prefixo de URL no nível do host (como https://example.com/), o Search Console verifica somente uma origem da propriedade. Ou seja, no caso da propriedade https://example.com, o Search Console verifica somente https://example.com/robots.txt, e não http://example.com/robots.txt ou https://m.example.com/robots.txt.

Tarefas comuns

Abrir um arquivo robots.txt

Para abrir um arquivo robots.txt listado nesse relatório, clique nele na lista. Para abrir o arquivo no navegador, clique em Abrir o robots.txt publicado.

Você pode abrir qualquer arquivo robots.txt na Web no seu navegador. Confira abaixo qual URL acessar.

Onde os arquivos robots.txt podem estar localizados

O arquivo robots.txt está localizado na raiz de um protocolo e domínio. Para determinar o URL, remova o que vem após o host (e a porta opcional) no URL de um arquivo e adicione "/robots.txt". Caso haja um robots.txt, você pode abrir o arquivo no seu navegador. Os arquivos robots.txt não são herdados por subdomínios nem domínios-pai. Cada página só pode ser afetada por um arquivo robots.txt. Alguns exemplos:

URL do arquivo URL do robots.txt que pode afetar o arquivo
http://example.com/home http://example.com/robots.txt
https://m.de.example.com/some/page/here/mypage https://m.de.example.com/robots.txt
https://example.com?pageid=234#myanchor https://example.com/robots.txt
https://images.example.com/flowers/daffodil.png https://images.example.com/robots.txt

Conferir qual arquivo robots.txt afeta uma página ou imagem

Para encontrar o URL do arquivo robots.txt que afeta uma página ou imagem, faça o seguinte:

  1. Encontre o URL exato da página ou imagem. No caso de uma imagem, no navegador Google Chrome, clique com o botão direito do mouse e selecione Copiar URL da imagem.
  2. Remova o final do URL após o domínio de nível superior (por exemplo, .com, .org ou .co.il) e adicione "/robots.txt" ao final. Por exemplo, o arquivo robots.txt de https://images.example.com/flowers/daffodil.png é https://images.example.com/robots.txt.
  3. Abra o URL no navegador para confirmar se ele existe. Se o navegador não conseguir abrir o arquivo, isso significa que ele não existe.

Verificar se o Google está bloqueado pelo robots.txt

Mais informações

Isso foi útil?

Como podemos melhorá-lo?
Pesquisa
Limpar pesquisa
Fechar pesquisa
Google Apps
Menu principal