Sobre o robots.txt

Criar um arquivo robots.txt

Caso você use um serviço de hospedagem de sites, como o Wix ou o Blogger, talvez não seja necessário criar nem editar um arquivo robots.txt.

Primeiros passos

O arquivo robots.txt fica na raiz do seu site. Por isso, no site www.example.com, o arquivo robots.txt aparece como www.example.com/robots.txt. O robots.txt é um arquivo de texto simples que segue o Protocolo de exclusão de robôs (em inglês). Um arquivo robots.txt é constituído por uma ou mais regras. Cada regra bloqueia (ou permite) o acesso de um determinado rastreador a um caminho de arquivo especificado no site.

Veja abaixo um arquivo robots.txt simples, com duas regras:

# Rule 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Rule 2
User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

 

Explicação:

  1. O user agent chamado de rastreador "Googlebot" não poderá rastrear a pasta http://example.com/nogooglebot/ nem qualquer subdiretório.
  2. Os demais user agents têm acesso a todo o site. Essa informação poderia ter sido omitida, e o resultado seria o mesmo porque se supõe que há acesso total.
  3. O arquivo de Sitemap do site está localizado em http://www.example.com/sitemap.xml.

Um exemplo mais detalhado será fornecido posteriormente.

Diretrizes básicas do arquivo robots.txt

Veja algumas diretrizes básicas para usar o arquivos robots.txt. Recomendamos que você leia a sintaxe completa dos arquivos robots.txt para entender o comportamento peculiar que ela tem.

Formato e localização

É possível usar praticamente todos os editores de texto para criar um arquivo robots.txt. Com o editor de texto, é possível criar arquivos de texto ASCII ou UTF-8 padrão. Não use um processador de texto porque muitas vezes esses programas salvam os arquivos em formatos próprios e podem adicionar caracteres inesperados, como aspas curvas. Isso pode causar problemas para os rastreadores.

Use a ferramenta Testar robots.txt para escrever ou editar arquivos robots.txt no seu site. Com ela, você pode testar a sintaxe e o comportamento do arquivo no site.

Regras de formato e localização:

  • O arquivo precisa ter o nome robots.txt.
  • Seu site pode ter somente um arquivo robots.txt.
  • O arquivo robots.txt precisa estar localizado na raiz do host do site em que será aplicado. Por exemplo, para controlar o rastreamento em todos os URLs em http://www.example.com/, o arquivo robots.txt precisa estar localizado em http://www.example.com/robots.txt. O arquivo não pode ser colocado em um subdiretório (por exemplo, em http://example.com/pages/robots.txt). Caso você tenha dúvidas sobre como acessar a raiz do seu site ou precise de permissões para fazer isso, entre em contato com o provedor de serviços de hospedagem na Web. Caso você não consiga acessar a raiz do seu site, use métodos alternativos de bloqueio, como metatags.
  • O arquivo robots.txt pode ser aplicado em subdomínios (por exemplo, http://website.example.com/robots.txt) ou em portas não padrão (por exemplo, http://example.com:8181/robots.txt).
  • Os comentários são linhas que começam com #. 

Sintaxe

  • O robots.txt precisa ser um arquivo de texto ASCII ou UTF-8. Nenhum outro caractere é permitido.
  • Um arquivo robots.txt é constituído por uma ou mais regras.
  • Cada regra é formada por várias diretivas (instruções), que aparecem uma por linha.
  • Uma regra fornece as seguintes informações:
    • A quem a regra se aplica (o user agent).
    • Quais diretórios ou arquivos esse user agent pode acessar.
    • Quais diretórios ou arquivos esse user agent não pode acessar.
  • As regras são processadas de cima para baixo. Um user agent pode corresponder a somente um conjunto de regras (o primeiro e mais específico que for correspondente a determinado user agent).
  • Por padrão, um user agent pode rastrear uma página ou um diretório que não estejam bloqueados por uma regra Disallow:.
  • As regras diferenciam maiúsculas de minúsculas. Por exemplo, Disallow: /file.asp aplica-se a http://www.example.com/file.asp, mas não a http://www.example.com/File.asp.

As seguintes diretivas são usadas em arquivos robots.txt:

  • User-agent: [obrigatório, um ou mais por regra] é o nome de um robô de mecanismo de pesquisa (software rastreador da Web) em que a regra será aplicada. Essa é a primeira linha de qualquer regra. A maioria dos user agents pode ser encontrada no Web Robots Database (em inglês) ou na lista de user agents do Google. É compatível com o caractere curinga * em prefixos, sufixos ou strings completas de caminhos. O uso de um asterisco (*), como no exemplo abaixo, corresponderá a todos os rastreadores, exceto aos diversos rastreadores Google AdsBot, que precisam ser nomeados explicitamente. Veja a lista de nomes de rastreadores do Google. Exemplos:
    # Example 1: Block only Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Example 2: Block Googlebot and Adsbot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
     
    # Example 3: Block all but AdsBot crawlers
    User-agent: * 
    Disallow: /
  • Disallow: [ao menos uma ou mais entradas Disallow/Allow por regra] é um diretório ou uma página, referente ao domínio raiz, que não pode ser rastreado pelo user agent citado anteriormente. Se for uma página, use o nome completo dela, conforme exibido no navegador. No caso de um diretório, é preciso terminar com "/".  É compatível com o caractere curinga * em prefixos, sufixos ou strings completas de caminhos.
  • Allow: [ao menos uma ou mais entradas Disallow/Allow por regra] é um diretório ou uma página, referente ao domínio raiz, que pode ser rastreado pelo user agent citado anteriormente. Isso é usado para modificar "Disallow" e permitir o rastreamento de um subdiretório ou de uma página em um diretório proibido. Se for uma página, use o nome completo dela, conforme exibido no navegador. No caso de um diretório, é preciso terminar com "/". É compatível com o caractere curinga * em prefixos, sufixos ou strings completas de caminhos.
  • Sitemap: [opcional, zero ou mais por arquivo] é a localização de um sitemap do site. Ele precisa ser um URL totalmente qualificado. O Google não supõe nem verifica as variações de http/https/www.non-www. O uso dos sitemaps é uma boa maneira de indicar qual conteúdo o Google deve rastrear, em vez do que pode ou não pode ser rastreado pelo mecanismo de pesquisa. Saiba mais sobre os sitemaps. Exemplo:
    Sitemap: https://example.com/sitemap.xml
    Sitemap: http://www.example.com/sitemap.xml

As palavras-chave desconhecidas são ignoradas.

Outro exemplo de arquivo

Um arquivo robots.txt é constituído por um ou mais bloqueios de regras. Cada um deles começa com uma linha User-agent que especifica o destino das regras. Veja abaixo um arquivo com duas regras. Comentários in-line explicam cada regra:

# Block googlebot from example.com/directory1/... and example.com/directory2/...
# but allow access to directory2/subdirectory1/...
# All other directories on the site are allowed by default.
User-agent: googlebot
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/subdirectory1/

# Block the entire site from anothercrawler.
User-agent: anothercrawler
Disallow: /

Sintaxe completa do robots.txt

Você pode encontrar a sintaxe completa do arquivo robots.txt aqui. Leia a documentação completa porque a sintaxe tem seções complicadas que são importantes conhecer.

Regras úteis do arquivo robots.txt

Veja aqui algumas regras úteis do arquivo robots.txt:

Regra Amostra
Impedir o rastreamento do site inteiro. Em algumas situações, os URLs do site ainda poderão ser indexados, mesmo que não tenham sido rastreados. Observação: isso não corresponde aos diversos rastreadores Google AdsBot, que precisam ser nomeados explicitamente.
User-agent: *
Disallow: /
Não permitir o rastreamento de um diretório e o conteúdo dele usando uma barra depois do nome do diretório. Não use o robots.txt para bloquear o acesso a conteúdo privado. Em vez disso, use uma autenticação adequada. Os URLs não permitidos pelo arquivo robots.txt ainda poderão ser indexados, mesmo que não tenham sido rastreados. Além disso, esse arquivo ficará visível para qualquer pessoa, o que poderá revelar a localização de seu conteúdo privado.
User-agent: *
Disallow: /calendar/
Disallow: /junk/
Permitir acesso a um único rastreador
User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Permitir acesso a todos os rastreadores, exceto um deles
User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Não permitir o rastreamento de uma página da Web usando uma barra antes do nome dela:

Disallow: /private_file.html

Bloquear uma imagem específica das Imagens do Google:

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Bloquear todas as imagens do seu site das Imagens do Google:

User-agent: Googlebot-Image
Disallow: /

Não permitir o rastreamento de arquivos de um tipo específico (por exemplo, .gif):

User-agent: Googlebot
Disallow: /*.gif$

Não permitir o rastreamento do site inteiro, mas exibir anúncios do Google AdSense nas páginas bloqueando os rastreadores da Web que não sejam Mediapartners-Google. Essa implementação oculta suas páginas dos resultados da pesquisa, mas o rastreador da Web Mediapartners-Google ainda pode analisá-los e decidir quais anúncios exibir para os visitantes do seu site.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Para corresponder a URLs que terminam com uma string específica, use $. Por exemplo, o código de amostra bloqueia todos os URLs que terminam com .xls:
User-agent: Googlebot
Disallow: /*.xls$
Isso foi útil?
Como podemos melhorá-lo?