Bloqueie URLs com o robots.txt

Saiba mais sobre os arquivos robots.txt

O que é um arquivo robots.txt?

Um arquivo robots.txt informa aos rastreadores do mecanismo de pesquisa quais páginas ou arquivos podem ser solicitados a partir do seu site. Esse recurso é usado principalmente para evitar a sobrecarga do site com solicitações e não funciona como um mecanismo para manter uma página da Web fora dos resultados da pesquisa do Google. Para fazer isso, use tags ou diretivas noindex ou proteja sua página com uma senha.

Para que serve o robots.txt?

O robots.txt é usado principalmente para gerenciar o tráfego do rastreador no seu site e, em alguns casos, para manter uma página fora do Google, dependendo do tipo de arquivo:

Tipo de página Gerenciamento de tráfego Ocultar do Google Descrição
Página da Web

Em páginas da Web (HTML, PDF ou outros formatos que não sejam de mídia e possam ser lidos pelo Google), o robots.txt pode ser usado para gerenciar o tráfego de rastreamento caso você ache que o servidor será sobrecarregado por solicitações do rastreador do Google. Além disso, o uso do arquivo pode evitar o rastreamento de informações sem importância ou páginas semelhantes no site.

Não use o robots.txt para ocultar suas páginas da Web dos resultados da Pesquisa Google. Isso porque, se outras páginas redirecionarem o usuário para sua página com texto descritivo, ela ainda poderá ser indexada sem receber acessos. Se você quiser bloquear sua página nos resultados da pesquisa, use outro método, como proteção por senha ou uma diretiva noindex.

Caso sua página da Web esteja bloqueada com um arquivo robots.txt, ela ainda poderá aparecer nos resultados da pesquisa. No entanto, esse resultado não terá uma descrição e será parecido com isto. Arquivos de imagem, de vídeo, PDFs e outros arquivos não HTML serão excluídos. Se você vir esse resultado de pesquisa para sua página e quiser corrigi-lo, remova a entrada do robots.txt que causa o bloqueio. Se você quiser ocultar completamente a página da pesquisa, use outro método.

Arquivo de mídia

Use o robots.txt para gerenciar o tráfego de rastreamento e também para evitar que arquivos de imagem, vídeo e áudio sejam exibidos nos resultados da pesquisa do Google. Isso não impedirá que outras páginas nem usuários vinculem seu arquivo de imagem/vídeo/áudio.

Arquivo de recurso

É possível usar o robots.txt para bloquear arquivos de imagem, script ou estilo menos importantes, caso a página possa ser carregada sem esses recursos e sem perdas significativas. No entanto, se a falta desses recursos dificultar o trabalho do rastreador do Google, será melhor não bloqueá-los, já que isso pode prejudicar a análise das páginas que dependam deles.

Eu uso um serviço de hospedagem de sites

Caso você use um serviço de hospedagem de sites, como WIX, Drupal ou Blogger, talvez não seja necessário (ou possível) editar seu arquivo robots.txt diretamente. Em vez disso, seu provedor pode expor uma configuração de página ou outro mecanismo para informar aos mecanismos de pesquisa se devem ou não rastreá-la.

Para ver se sua página foi rastreada pelo Google, pesquise o URL correspondente no Google.

Se você quiser ocultar (ou exibir) sua página, adicione (ou remova) requisitos de login e pesquise no Google instruções sobre como modificar a visibilidade da página nos mecanismos de pesquisa do host do site. Por exemplo: usar o Wix para ocultar a página dos mecanismos de pesquisa.

Entenda as limitações do robots.txt

Antes de criar ou editar o robots.txt, você precisa conhecer os limites desse método de bloqueio de URL. Em alguns casos, talvez você queira considerar outros mecanismos para garantir que seus URLs não sejam encontrados facilmente na Web.

  • As instruções do robots.txt são somente diretivas
    As instruções nos arquivos robots.txt não podem executar o comportamento de rastreador no site. Em vez disso, essas instruções atuam como diretivas aos rastreadores que acessam o site. Embora o Googlebot e outros rastreadores da Web confiáveis sigam as instruções de um arquivo robots.txt, elas podem não ser seguidas por outros rastreadores. Por isso, caso você queira manter informações seguras de rastreadores da Web, é recomendado o uso de outros métodos de bloqueio, como a proteção por senha de arquivos privados no seu servidor.
  • Rastreadores diferentes interpretam a sintaxe de maneiras distintas
    Embora os rastreadores da Web confiáveis sigam as diretivas de um arquivo robots.txt, cada rastreador pode interpretá-las de maneira diferente. É importante saber a sintaxe apropriada para atender a diferentes rastreadores da Web porque alguns podem não entender todas as instruções.
  • Uma página protegida por robots.txt ainda poderá ser indexada se estiver vinculada a outros sites
    Embora o Google não rastreie nem indexe o conteúdo bloqueado por robots.txt, ainda podemos encontrar e indexar um URL desabilitado a partir de outros locais da Web. Como resultado, o endereço URL e talvez outras informações disponíveis publicamente, como texto âncora em links para a página, ainda podem aparecer nos resultados de pesquisa do Google. Para impedir de maneira adequada que seu URL apareça nos resultados da Pesquisa Google, proteja os arquivos no seu servidor com uma senha ou use o cabeçalho da resposta ou a metatag noindex. Você também pode remover toda a página.
Observação: combinar várias diretivas de indexação e rastreamento pode fazer com que algumas delas anulem outras. Saiba como configurar essas diretivas de maneira adequada lendo a seção sobre como combinar o rastreamento com a indexação / veiculação de diretivas na documentação do Google Developers.

Como testar bloqueios do robots.txt em uma página

Você pode testar se uma página ou um recurso está bloqueado por uma regra de robots.txt.

Para testar as diretivas noindex, use a ferramenta de inspeção de URL.

Este artigo foi útil para você?
Como podemos melhorá-lo?