Sobre o robots.txt

Perguntas frequentes sobre robots

Perguntas gerais sobre robots

Perguntas sobre robots.txt

Perguntas sobre a metatag robots

Perguntas sobre o cabeçalho HTTP X-Robots-Tag

Não encontrou alguma pergunta frequente? Faça uma postagem em nosso Fórum de Ajuda para webmasters se precisar de mais ajuda.

Perguntas gerais sobre robots

Meu site precisa de um arquivo robots.txt?

Não. Quando o Googlebot visita um website, ele primeiro pede permissão para o rastreamento tentando recuperar o arquivo robots.txt. Um website sem arquivo robots.txt, metatags robots ou cabeçalhos HTTP X-Robots-Tag em geral é rastreado e indexado normalmente.

Qual método devo usar?

Depende. Basicamente, há boas razões para usar cada um destes métodos:

  1. robots.txt: use este arquivo se o rastreamento do seu conteúdo estiver causando problemas no servidor. Por exemplo, é possível impedir o rastreamento de scripts de calendários infinitos. Não use o robots.txt para bloquear conteúdo privado (em vez disso, use a autenticação do servidor) nem para lidar com a canonicalização (consulte nossa Central de Ajuda). Caso você precise se certificar de que o URL não está indexado, use a metatag robots ou o cabeçalho HTTP X-Robots-Tag.
  2. Metatag robots: use esta metatag se for necessário controlar a forma como uma página HTML individual é exibida nos resultados da pesquisa ou para se certificar de que ela não será exibida.
  3. Cabeçalho HTTP X-Robots-Tag: use este cabeçalho se for necessário controlar a forma como o conteúdo não HTML é exibido nos resultados da pesquisa ou para se certificar de que ele não será exibido.

Posso usar esses métodos para remover o site de outra pessoa?

Não. Esses métodos são válidos somente para sites em que você pode modificar o código ou adicionar arquivos. Se você quiser remover o conteúdo de um site de terceiros, será necessário entrar em contato com o webmaster para solicitar a remoção desse conteúdo.

Como posso desacelerar o rastreamento que o Google faz no meu site?

Geralmente é possível ajustar a configuração da taxa de rastreamento na sua conta do Google Search Console.

Perguntas sobre robots.txt

Eu uso o mesmo robots.txt para vários sites. Posso usar um URL completo em vez de um caminho relativo?

Não. As diretivas no arquivo robots.txt (com exceção de "Sitemap:") são válidas somente para caminhos relativos.

Posso colocar o arquivo robots.txt em um subdiretório?

Não. O arquivo precisa ser colocado no diretório superior do site.

Desejo bloquear uma pasta privada. Posso impedir que outras pessoas leiam meu arquivo robots.txt?

Não. O arquivo robots.txt pode ser lido por vários usuários. Caso as pastas ou os nomes de arquivo de conteúdo não sejam públicos, eles não devem ser listados no arquivo robots.txt. Não recomendamos a veiculação de arquivos robots.txt diferentes com base no user agent ou em outros atributos.

Preciso incluir uma diretiva allow para permitir o rastreamento?

Não, não é necessário incluir uma diretiva allow. A diretiva allow é usada para modificar diretivas disallow no mesmo arquivo robots.txt.

O que acontecerá se meu arquivo robots.txt tiver um erro ou for usada uma diretiva sem suporte?

Os rastreadores da Web em geral são muito flexíveis e, normalmente, não são influenciados por pequenos erros no arquivo robots.txt. Muitas vezes, o pior que pode acontecer é as diretivas incorretas / sem suporte serem ignoradas. O Google não faz adivinhações ao interpretar um arquivo robots.txt: ele precisa interpretar o arquivo robots.txt que foi buscado. Dessa forma, se você estiver ciente dos problemas no seu arquivo robots.txt, saiba que eles geralmente são de fácil correção.

Que programa devo usar para criar um arquivo robots.txt?

Use qualquer programa para a criação de arquivos de texto válidos. Programas comuns usados para criar arquivos robots.txt incluem o Bloco de Notas, TextEdit, vi e Emacs. Saiba mais sobre como criar arquivos robots.txt. Depois de criar seu arquivo, valide-o usando a ferramenta Testar robots.txt.

Se eu impedir que o Google rastreie uma página usando uma diretiva disallow no robots.txt, ela desaparecerá dos resultados de pesquisa?

Bloquear o Google para rastrear uma página provavelmente removerá a página do índice do Google. 

No entanto, Disallow no robots.txt não garante que uma página não será exibida nos resultados. O Google ainda pode decidir que ela é relevante com base em informações externas, como links de entrada. Se você desejar bloquear explicitamente a indexação de uma página, use a metatag robots noindex ou o cabeçalho HTTP X-Robots-Tag. Nesse caso, não bloqueie a página no robots.txt, pois a página precisa ser rastreada para que a tag seja vista e obedecida.

Quanto tempo leva para que as alterações no meu arquivo robots.txt afetem os resultados da pesquisa?

Em primeiro lugar, o cache do arquivo robots.txt precisa ser atualizado. Geralmente, os conteúdos são armazenados em cache por até um dia. Mesmo depois de encontrar a alteração, o rastreamento e a indexação fazem parte de um processo complicado que, por vezes, demora algum tempo para URLs individuais, por isso é impossível fornecer um cronograma exato. Além disso, mesmo que seu arquivo robots.txt não permita o acesso a um URL, esse URL pode permanecer visível nos resultados da pesquisa, apesar de não poder ser rastreado. Se você quiser acelerar a remoção das páginas que foram bloqueadas para o Google, envie uma solicitação de remoção por meio do Google Search Console.

Como posso suspender temporariamente todo o rastreamento do meu site?

É possível suspender temporariamente todo o rastreamento retornando um código de resultado HTTP 503 para todos os URLs, incluindo o arquivo robots.txt. O rastreamento do arquivo robots.txt será repetido periodicamente até que ele possa ser acessado novamente. Não recomendamos alterar o arquivo robots.txt para impedir o rastreamento.

Meu servidor não diferencia maiúsculas de minúsculas. Como posso impedir completamente o rastreamento de algumas pastas?

As diretivas no arquivo robots.txt diferenciam maiúsculas de minúsculas. Nesse caso, recomendamos garantir que somente uma versão do URL seja indexada usando métodos de canonicalização. Isso permite que você simplifique seu arquivo robots.txt. Caso isso não seja possível, recomendamos que você liste as combinações comuns do nome da pasta ou encurte o arquivo o máximo possível, utilizando somente os primeiros caracteres em vez de o nome completo. Por exemplo, em vez de listar todas as permutações de maiúsculas e minúsculas de "/MyPrivateFolder", liste as permutações de "/MyP", se tiver certeza de que nenhum outro URL rastreável existe com esses primeiros caracteres. Como alternativa, use uma metatag robots ou um cabeçalho HTTP X-Robots-Tag se o rastreamento não for um problema.

O erro 403 "Proibido" é retornado para todos os URLs, incluindo o arquivo robots.txt. Por que o site ainda está sendo rastreado?

O código de resultado HTTP 403, como todos os outros códigos de resultado HTTP 4xx, é visto como um sinal de que o arquivo robots.txt não existe. Devido a isso, os rastreadores geralmente presumem que eles podem rastrear todos os URLs do website. Para bloquear o rastreamento do website, o robots.txt precisa ser retornado normalmente com um código de resultado HTTP "OK" 200 e um "disallow" adequado.

Perguntas sobre a metatag robots

A metatag robots substitui o arquivo robots.txt?

Não. O arquivo robots.txt controla quais páginas são acessadas. A metatag robots controla a indexação de uma página. No entanto, para ver essa tag, a página precisa ser rastreada. Se o rastreamento de uma página for problemático (por exemplo, se a página gerar um carregamento elevado no servidor), você precisará usar o arquivo robots.txt. Se for só uma questão de exibir ou não uma página nos resultados da pesquisa, será possível usar a metatag robots.

A metatag robots pode ser usada para impedir a indexação de parte de uma página?

Não, a metatag robots é uma configuração de nível de página.

Posso usar a metatag robots fora de uma seção <head>?

Não, a metatag robots atualmente precisa estar na seção <head> de uma página.

A metatag robots impede o rastreamento?

Não. Mesmo que a metatag robots seja atualmente noindex, precisaremos rastrear de novo esse URL ocasionalmente para verificar se a metatag mudou.

Como a metatag robots nofollow se compara com o atributo de link rel="nofollow"?

A metatag robots nofollow é aplicada a todos os links em uma página. O atributo de link rel="nofollow" só se aplica a links específicos em uma página. Para mais informações sobre o atributo de link rel="nofollow", consulte nossos artigos da Central de Ajuda sobre spam gerado pelo usuário e rel="nofollow".

Perguntas sobre o cabeçalho HTTP X-Robots-Tag

Como posso verificar a X-Robots-Tag de um URL?

Uma maneira simples de visualizar os cabeçalhos do servidor é usar um verificador de cabeçalho do servidor baseado na Web ou usar o recurso "Buscar como o Googlebot" no Google Search Console.

Isso foi útil?
Como podemos melhorá-lo?