Introdução ao robots.txt

Um arquivo robots.txt informa aos rastreadores do mecanismo de pesquisa quais URLs podem ser acessados no seu site. Esse recurso é usado principalmente para evitar a sobrecarga do site com solicitações e não funciona como um mecanismo para manter uma página da Web fora dos resultados da pesquisa do Google. Para fazer isso, bloqueie a indexação com noindex ou proteja a página com uma senha.

Para que serve um arquivo robots.txt?

Ele é usado principalmente para gerenciar o tráfego do rastreador no seu site e, em alguns casos, para manter um arquivo fora do Google, dependendo do tipo de arquivo:

Efeito do arquivo robots.txt em diferentes tipos de arquivo

Página da Web

Efeito do arquivo robots.txt em diferentes tipos de arquivo
Página da Web	É possível usar um arquivo robots.txt em páginas da Web (HTML, PDF ou outros formatos que não sejam de mídia e possam ser lidos pelo Google) para gerenciar o tráfego de rastreamento caso você ache que o servidor vai ser sobrecarregado por solicitações do rastreador do Google. Além disso, o uso do arquivo pode evitar o rastreamento de informações sem importância ou páginas semelhantes no site. Aviso: não use um arquivo robots.txt para ocultar suas páginas da Web (incluindo PDFs e outros formatos de texto compatíveis com o Google) dos resultados da pesquisa do Google. Se outras páginas redirecionarem o usuário para sua página com texto descritivo, o Google ainda vai poder indexar o URL sem acessar a página. Se você quiser bloquear a página nos resultados da pesquisa, use outro método, como proteção por senha ou `noindex`. Caso a página da Web esteja bloqueada com um arquivo robots.txt, o URL ainda vai poder aparecer nos resultados da pesquisa. No entanto, esse resultado não vai ter uma descrição. Imagens, vídeos, PDFs e outros arquivos não HTML incorporados na página bloqueada também vão ser excluídos do rastreamento, a menos que sejam referenciados por outras páginas com permissão para rastreamento. Se você encontrar esse resultado de pesquisa para sua página e quiser fazer a correção, remova a entrada do robots.txt que causa o bloqueio. Caso você queira ocultar completamente a página da pesquisa, use outro método.
Arquivo de mídia	Use um arquivo robots.txt para gerenciar o tráfego de rastreamento e também para evitar que arquivos de imagem, vídeo e áudio sejam exibidos nos resultados da pesquisa do Google. Isso não vai impedir que outras páginas nem usuários vinculem seu arquivo de imagem, vídeo ou áudio. Leia mais sobre como impedir que imagens sejam exibidas no Google. Leia mais sobre como remover ou restringir a exibição dos seus arquivos de vídeo no Google.
Arquivo de recurso	É possível usar um arquivo robots.txt para bloquear arquivos de imagem, script ou estilo menos importantes, caso a página possa ser carregada sem esses recursos e sem perdas significativas. No entanto, se a falta desses recursos dificultar o trabalho do rastreador do Google, não os bloqueie, já que isso pode prejudicar a análise das páginas que dependem deles.

É possível usar um arquivo robots.txt em páginas da Web (HTML, PDF ou outros formatos que não sejam de mídia e possam ser lidos pelo Google) para gerenciar o tráfego de rastreamento caso você ache que o servidor vai ser sobrecarregado por solicitações do rastreador do Google. Além disso, o uso do arquivo pode evitar o rastreamento de informações sem importância ou páginas semelhantes no site.

Caso a página da Web esteja bloqueada com um arquivo robots.txt, o URL ainda vai poder aparecer nos resultados da pesquisa. No entanto, esse resultado não vai ter uma descrição. Imagens, vídeos, PDFs e outros arquivos não HTML incorporados na página bloqueada também vão ser excluídos do rastreamento, a menos que sejam referenciados por outras páginas com permissão para rastreamento. Se você encontrar esse resultado de pesquisa para sua página e quiser fazer a correção, remova a entrada do robots.txt que causa o bloqueio. Caso você queira ocultar completamente a página da pesquisa, use outro método.

Arquivo de mídia

Use um arquivo robots.txt para gerenciar o tráfego de rastreamento e também para evitar que arquivos de imagem, vídeo e áudio sejam exibidos nos resultados da pesquisa do Google. Isso não vai impedir que outras páginas nem usuários vinculem seu arquivo de imagem, vídeo ou áudio.

Arquivo de recurso É possível usar um arquivo robots.txt para bloquear arquivos de imagem, script ou estilo menos importantes, caso a página possa ser carregada sem esses recursos e sem perdas significativas. No entanto, se a falta desses recursos dificultar o trabalho do rastreador do Google, não os bloqueie, já que isso pode prejudicar a análise das páginas que dependem deles.

Limitações de um arquivo robots.txt

Antes de criar ou editar um arquivo robots.txt, é necessário conhecer os limites desse método de bloqueio de URL. Dependendo das suas metas e situação, talvez seja melhor considerar outros mecanismos para garantir que os URLs não sejam encontrados facilmente na Web.

As regras do arquivo robots.txt podem não ser compatíveis com todos os mecanismos de pesquisa.
As instruções nos arquivos robots.txt não podem impor o comportamento do rastreador no seu site. Cabe ao rastreador obedecer ou não. Embora o Googlebot e outros rastreadores da Web confiáveis sigam as instruções de um arquivo robots.txt, elas podem não ser obedecidas por outros rastreadores. Por isso, caso você não queira que os rastreadores da Web acessem suas informações, é recomendado o uso de outros métodos de bloqueio, como a proteção por senha de arquivos particulares no seu servidor.
Rastreadores diferentes interpretam a sintaxe de maneiras distintas.
Embora os rastreadores da Web confiáveis sigam as regras de um arquivo robots.txt, cada rastreador pode interpretar essas instruções de maneira diferente. É importante saber a sintaxe apropriada para atender a diferentes rastreadores da Web, porque alguns podem não entender todas as instruções.
Uma página não permitida no arquivo robots.txt ainda vai poder ser indexada se estiver vinculada a outros sites.
Embora o Google não rastreie nem indexe o conteúdo bloqueado por um arquivo robots.txt, ainda podemos encontrar e indexar um URL desabilitado de outros locais da Web. Como resultado, o endereço URL e talvez outras informações disponíveis publicamente, como texto âncora em links para a página, ainda podem aparecer nos resultados da pesquisa do Google. Para impedir de maneira adequada que seu URL apareça nos resultados da pesquisa do Google, proteja os arquivos no seu servidor com uma senha, use o cabeçalho da resposta ou a tag noindex meta ou remova toda a página.

Criar ou atualizar um arquivo robots.txt

Saiba como criar um arquivo robots.txt. Caso já tenha um, descubra como atualizar o arquivo.

Quer saber mais? Confira os seguintes recursos: