Bloqueie URLs com o robots.txt

Saiba mais sobre os arquivos robots.txt

Um robots.txt é um arquivo na raiz do seu site. O arquivo indica as partes do site que você não deseja que sejam acessadas por indexadores de mecanismos de pesquisa. O arquivo usa o Protocolo de Exclusão de Robôs padrão, um pequeno conjunto de comandos que podem ser usados para indicar o acesso ao site por seção e tipos específicos de rastreadores da Web (como rastreadores de dispositivos móveis vs. computadores).

Somente um arquivo robots.txt é necessário caso o site inclua conteúdo no qual você não deseja a indexação do Google ou de outros mecanismos de pesquisa.

Para testar quais URLs o Google pode ou não acessar no seu website, use a ferramenta Testar robots.txt.

Entenda as limitações do robots.txt

Antes de criar seu robots.txt, é importante conhecer os riscos deste método de bloqueio de URL. Em alguns casos, talvez você queira considerar outros mecanismos para garantir que seus URLs não sejam encontrados facilmente na Web.

  • As instruções do robots.txt são somente diretivas

    As instruções nos arquivos robots.txt não podem executar o comportamento de rastreador no site. Em vez disso, essas instruções atuam como diretivas aos rastreadores que acessam o site. Embora o Googlebot e outros rastreadores da Web confiáveis sigam as instruções de um arquivo robots.txt, elas podem não ser seguidas por outros rastreadores. Por isso, caso você queira manter informações seguras de rastreadores da Web, é recomendado o uso de outros métodos de bloqueio, como a proteção por senha de arquivos privados no seu servidor.
  • Rastreadores diferentes interpretam a sintaxe de maneiras distintas

    Embora os rastreadores da Web confiáveis sigam as diretivas de um arquivo robots.txt, cada rastreador pode interpretá-las de maneira diferente. É importante saber a sintaxe apropriada para atender a diferentes rastreadores da Web, pois alguns podem não entender todas as instruções.
  • As diretivas do robots.txt não podem impedir que outros sites façam referência aos seus URLs

    Embora o Google não rastreie nem indexe o conteúdo bloqueado pelo robots.txt, ainda podemos encontrar e indexar um URL desabilitado a partir de outros locais da Web. Como resultado, o endereço URL e possivelmente outras informações publicamente disponíveis, como texto âncora em links para o site, ainda podem aparecer nos resultados de pesquisa do Google. É possível impedir completamente a exibição do seu URL nos resultados da Pesquisa Google usando o robots.txt em conjunto com outros métodos de bloqueio do URL, como a proteção por senha de arquivos privados no seu servidor ou a inserção de metatags das diretivas de indexação no seu HTML.
Observação: combinar várias diretivas de indexação e rastreamento pode fazer com que algumas delas anulem outras. Saiba como configurar essas diretivas de maneira adequada lendo a seção sobre como combinar o rastreamento com a indexação / veiculação de diretivas na documentação do Google Developers.