Bloquear ou remover páginas usando um arquivo robots.txt

A ferramenta "Gerar robots.txt" será descontinuada. É possível criar um arquivo robots.txt manualmente ou usar uma das muitas ferramentas de geração de robots.txt na Web.

Um arquivo robots.txt restringe o acesso a seu site de robôs de mecanismos de pesquisa que rastreiam a Web. Esses bots são automáticos e, antes de acessarem as páginas de um site, verificam se existe um arquivo robots.txt que impede que eles acessem certas páginas. (Todos os robôs honrados respeitam as instruções de um arquivo robots.txt, embora alguns possam interpretá-las de modo diferente. No entanto, um arquivo robots.txt não é executável e alguns criadores de spam e outros usuários mal-intencionados podem ignorá-lo. Por isso, recomendamos que as informações confidenciais sejam protegidas por senha.)

Para ver quais URLs o Google foi impedido de rastrear, visite a página URLs bloqueados da seção Integridade das Ferramentas do Google para webmasters.

O arquivo robots.txt é necessário apenas para o caso de seu site incluir conteúdo que você não queira que os mecanismos de pesquisa indexem. Se você desejar que os mecanismos de pesquisa indexem tudo o que há no seu site, o arquivo robots.txt não será necessário (nem mesmo um arquivo em branco).

Embora o Google não rastreie ou indexe o conteúdo de páginas bloqueadas pelo robots.txt, ele ainda pode rastrear e indexar os URLs se os encontrar em outras páginas da Web. Dessa forma, o URL da página e, possivelmente, outras informações disponíveis, como o texto âncora em links para o site ou o título de um Open Directory Project (www.dmoz.org), poderão ser exibidos nos resultados de pesquisa do Google.

Para usar um arquivo robots.txt, é necessário ter acesso à raiz do domínio (se não tiver certeza disso, entre em contato com o hoster da web). Se não tiver acesso à raiz do domínio, você pode restringir o acesso usando uma meta tag de robôs.

Para impedir completamente que o conteúdo de uma página seja relacionado no índice da web do Google, mesmo que outros sites estejam vinculados a ela, use uma metatag noindex ou uma x-robots-tag Quando o Googlebot buscar a página, encontrará a metatag noindex e impedirá que a página apareça no índice da web. O cabeçalho HTTP x-robots-tag é útil principalmente se você deseja limitar a indexação de arquivos não HTML, como gráficos e outros tipos de documentos.

Criar um arquivo robots.txt

O arquivo robots.txt mais simples usa duas regras:

  • User agent: o robô ao qual se aplica a regra seguinte
  • Disallow: o URL que deseja bloquear

Essas duas linhas são consideradas uma única entrada no arquivo. Inclua quantas entradas desejar. É possível incluir várias linhas "Disallow" e diversos user-agents em uma entrada.

Cada seção no arquivo robots.txt é separada e não é criada sobre as seções anteriores. Por exemplo:


User-agent: *

Disallow: /pasta1/

User-agent: Googlebot 

Disallow: /pasta2/


Neste exemplo, apenas os URLs que correspondem a /pasta2/ não serão permitidos para o Googlebot.

User-agents e robôs

Um user-agent é um robô específico dos mecanismos de pesquisa. A Web Robots Database relaciona muitos robôs comuns. Configure uma entrada para ser aplicada em um robô específico (listando o nome) ou configure-a para ser aplicada em todos os robôs (listando um asterisco). Uma entrada que se aplica a todos os robôs tem esta forma:

User-agent: *

O Google usa diversos robôs (user-agents). O bot que usamos em nossa pesquisa na Web é o Googlebot. Nossos outros bots, como o Googlebot Mobile e o Googlebot Image, seguirão as regras que você configurar para o Googlebot, mas também é possível configurar regras próprias específicas a esses bots.

Como bloquear user-agents

A linha "Disallow" lista as páginas que você deseja bloquear. Relacione um URL específico ou um padrão. A entrada deve começar com uma barra (/).

  • Para bloquear todo o site, use uma barra inclinada para a frente.
    Disallow: /
  • Para bloquear um diretório e tudo que houver nele, adicione a mesma barra após o nome do diretório.
    Disallow: /diretorio-lixo/
  • Para bloquear uma página, liste a página.
    Disallow: /arquivo_particular.html
  • Para remover uma imagem específica da Pesquisa de imagens do Google, adicione o seguinte:
    User-agent: Googlebot-Image
    
    Disallow: /imagens/cachorros.jpg 
  • Para remover todas as imagens do seu site da Pesquisa de imagens do Google:
    User-agent: Googlebot-Image
    
    Disallow: / 
  • Para bloquear os arquivos de um tipo específico (por exemplo, .gif), use o seguinte:
    User-agent: Googlebot
    Disallow: /*.gif$
  • Para impedir que as páginas do seu site sejam rastreadas, mas continuem exibindo anúncios do AdSense, bloqueie todos os robôs, exceto o Mediapartners-Google. Isso impede que as páginas apareçam nos resultados de pesquisa, mas permite que o robô Mediapartners-Google analise as páginas para determinar os anúncios que devem ser mostrados. O robô Mediapartners-Google não compartilha páginas com outros user-agents do Google. Por exemplo:
    User-agent: *
    Disallow: /
    
    User-agent: Mediapartners-Google
    Allow: /

As diretivas diferenciam caracteres maiúsculos e minúsculos. Por exemplo, Disallow: /junk_file.asp bloquearia http://www.example.com/junk_file.asp, mas permitiria http://www.example.com/Junk_file.asp. O Googlebot ignorará espaços em branco (em particular, linhas vazias) e diretivas desconhecidas no robots.txt.

O Googlebot é compatível com o envio de arquivos do Sitemap por meio do arquivo robots.txt.

Correspondência por padrão

O Googlebot (mas não todos os mecanismos de pesquisa) respeita algumas correspondências por padrão.

  • Para fazer com que uma sequência de caracteres gere uma correspondência, use um asterisco (*). Por exemplo, para bloquear o acesso a todos os subdiretórios que começam com “particular”:
    User-agent: Googlebot
    Disallow: /particular*/
  • Para bloquear o acesso a todos os URLs que incluam um ponto de interrogação (?) (mais especificamente, qualquer URL que comece com o nome de seu domínio, seguido por qualquer string, seguidpor um ponto de interrogação, seguido por qualquer string):
    User-agent: Googlebot
    Disallow: /*?
  • Para especificar a correspondência do fim do URL, use $. Por exemplo, para bloquear os URLs que terminam com .xls:
    User-agent: Googlebot 
     
    Disallow: /*.xls$

    Use essa correspondência por padrão juntamente com a instrução "Allow". Por exemplo, se um “?” indicar um ID de sessão, convém excluir todos os URLs que contenham o caractere para assegurar que o Googlebot não rastreie páginas duplicadas. Mas os URLs terminados em “?” podem ser a versão da página que você deseja incluir. Nesse caso, você pode configurar o arquivo robots.txt da seguinte maneira:

    User-agent: *
    Allow: /*?$
    Disallow: /*?

    A diretiva Disallow: / *? bloqueará qualquer URL que contenha um “?” (mais especificamente, a linha bloqueará qualquer URL que comece com o nome de seu domínio, seguido por qualquer string, seguida por um ponto de interrogação, seguido por qualquer string).

    A diretiva Allow: /*?$ permitirá qualquer URL que termine com um "?" (mais especificamente, a linha permitirá qualquer URL que comece com o nome de seu domínio, seguido por uma string, seguida por um "?" e sem qualquer caractere depois do "?").

Para salvar o arquivo robots.txt, faça download do arquivo ou copie o conteúdo em um arquivo de texto e salve como robots.txt. Salve o arquivo no diretório de nível superior do seu site. O arquivo robots.txt deve ficar na raiz do domínio e deve ter o nome "robots.txt". Um arquivo robots.txt localizado em um subdiretório não é válido, já que os robôs apenas procuram por esse arquivo na raiz do domínio. Por exemplo, http://www.example.com/robots.txt é um local válido, mas http://www.example.com/mysite/robots.txt não é.

Testar um arquivo robots.txt

A ferramenta Testar robots.txt mostrará a você se o arquivo robots.txt está bloqueando acidentalmente o Googlebot de um arquivo ou diretório em seu site ou se está permitindo que o Googlebot rastreie arquivos que não deveriam aparecer na Web. Quando você digita o texto de um arquivo robots.txt sugerido, a ferramenta lê o arquivo da mesma maneira que o Googlebot faz e lista os efeitos do arquivo e quaisquer problemas encontrados.

Testar o arquivo robots.txt de um site:

  1. Na página inicial das Ferramentas do Google para webmasters, clique no site desejado.
  2. Em Rastreamento, clique em URLs bloqueados.
  3. Se ainda não estiver selecionada, clique na guia Testar robots.txt.
  4. Copie o conteúdo do arquivo robots.txt e cole-o na primeira caixa.
  5. Na caixa URLs, liste o site a ser testado.
  6. Na lista User agents, selecione os user agents desejados.

Toda alteração feita nessa ferramenta não será salva. Para salvar qualquer alteração, é necessário copiar o conteúdo e colá-lo em seu arquivo robots.txt.

Essa ferramenta fornece resultados apenas para os user-agents do Google (como o Googlebot). Outros bots talvez não interpretem o arquivo robots.txt da mesma maneira. Por exemplo, o Googlebot suporta uma definição estendida do protocolo robots.txt padrão. São entendidas as instruções Allow:, bem como algumas correspondências do padrão. Desse modo, embora a ferramenta mostre linhas que tenham essas extensões como processadas, lembre-se de que isso se aplica apenas ao Googlebot e não necessariamente a outros bots que podem rastrear seu site.