Googlebot

Googlebot é o robô de rastreamento da web do Google (também chamado de "indexador"). O rastreamento é o processo pelo qual o Googlebot descobre páginas novas e atualizadas para serem incluídas no índice do Google.

Nós usamos um grande conjunto de computadores para buscar (ou “rastrear”) bilhões de páginas na web. O Googlebot usa um processo de algoritmos: programas de computador que determinam quais sites devem ser rastreados, com que frequência e quantas páginas devem ser buscadas em cada site.

O processo de rastreamento do Googlebot começa com uma lista de URLs de páginas web, gerada a partir de processos anteriores de rastreamento e aumentada com dados dos Sitemaps fornecidos por webmasters. Conforme o Googlebot visita cada um desses sites, ele detecta os links (SRC e HREF) de cada página e os inclui na sua lista de páginas a serem rastreadas. Novos sites, alterações em sites existentes e links inativos serão detectados e usados para atualizar o índice do Google.

Para webmasters: Googlebot e o seu site

Como o Googlebot acessa o seu site

Para a maioria dos sites, o acesso do Googlebot não deve ocorrer, em média, mais de uma vez no intervalo de poucos segundos. No entanto, devido a atrasos na rede, é possível que a taxa pareça ser um pouco mais elevada por curtos períodos. Em geral, o Googlebot deve fazer download de apenas uma cópia de cada página por vez. Se você notar que o Googlebot está fazendo download de uma página várias vezes, é porque o rastreador provavelmente foi interrompido e reiniciado.

O Googlebot foi desenvolvido para ser distribuído em várias máquinas para melhorar o desempenho e a escala conforme a web cresce. Além disso, para diminuir o uso de largura de banda, executamos muitos rastreadores nas máquinas localizadas perto dos sites que estão sendo indexados na rede. Desse modo, os seus registros podem mostrar visitas de diversas máquinas no google.com, todas com o Googlebot user-agent. Nosso objetivo é rastrear o maior número possível de páginas em seu site a cada visita, sem sobrecarregar a largura de banda do servidor. Solicite uma alteração na taxa de rastreamento.

Como bloquear o Googlebot no conteúdo do seu site

É quase impossível manter um servidor web em sigilo não publicando links para ele. Assim que alguém segue um link do seu servidor "secreto" para outro servidor web, o seu URL "secreto" pode aparecer na tag de referência e pode ser armazenado e publicado pelo outro servidor web em seu registro de referência. De modo similar, a web possui muitos links desatualizados e corrompidos. Sempre que alguém publica um link incorreto para o seu site ou não consegue atualizar links para refletir as alterações no seu servidor, o Googlebot tenta fazer download de um link incorreto do seu site.

Se desejar impedir que o Googlebot rastreie conteúdo no seu site, você terá várias opções, incluindo o uso do robots.txt para bloquear o acesso a arquivos e diretórios do seu servidor.

Depois que o seu arquivo robots.txt for criado, levará algum tempo para que o Googlebot descubra as alterações. Se o Googlebot ainda estiver rastreando conteúdo que foi bloqueado no robots.txt, verifique se o robots.txt está no local correto. Ele deve estar no diretório principal do servidor (por exemplo, www.meuhost.com/robots.txt). Colocar o arquivo em um subdiretório não terá nenhum efeito.

Se você quiser apenas evitar as mensagens de erro "arquivo não encontrado" no registro do seu servidor web, crie um arquivo vazio chamado robots.txt. Se você quiser impedir que o Googlebot siga qualquer link de uma página do seu site, use a metatag nofollow. Para impedir que o Googlebot siga um link individual, adicione o atributo rel="nofollow" ao link propriamente dito.

Veja mais algumas dicas:

  • Teste se seu robots.txt funciona como esperado. A ferramenta Testar robots.txt na página URLs bloqueados (em Integridade) permite que você veja exatamente como o Googlebot interpretará o conteúdo de seu arquivo robots.txt. O user-agent do Google é (propício o suficiente) Googlebot.
  • A ferramenta Buscar como o Google nas Ferramentas do Google para webmasters ajuda você a entender exatamente como seu site aparece no Googlebot. Isso pode ser muito útil para a solução de problemas com o conteúdo ou relevância do seu site nos resultados de pesquisa.

Como verificar se o seu site pode ser rastreado

O Googlebot encontra sites seguindo os links de todas as páginas. A página de erros de rastreamento nas Ferramentas do Google para webmasters relaciona todos os problemas encontrados pelo Googlebot ao rastrear o seu site. Recomendamos que você revise esses erros de rastreamento regularmente para identificar problemas no site.

Se você estiver executando um aplicativo AJAX com o conteúdo que você gostaria que aparecesse nos seus resultados de pesquisa, recomendamos que você avalie nossa proposta de tornar o conteúdo baseado em AJAX rastreável e indexável.

Se o seu arquivo robots.txt estiver funcionando conforme o esperado, mas o seu site não estiver obtendo tráfego, veja alguns possíveis motivos que explicam por que o seu conteúdo não tem um bom desempenho na pesquisa.

Problemas com criadores de spam e outros user-agents

Os endereços IP usados pelo Googlebot mudam de tempos em tempos. A melhor maneira de identificar os acessos pelo Googlebot é por meio do user-agent (Googlebot). Você pode verificar se o robô que está acessando o seu servidor é realmente o Googlebot usando uma busca DNS inversa.

O Googlebot e todos os robôs de mecanismos de pesquisa confiáveis respeitarão as instruções do robots.txt, mas alguns criminosos e criadores de spam não farão isso. Denuncie spam para o Google.

O Google tem vários outros user-agents, incluindo o Feedfetcher (user-agent Feedfetcher-Google). Como as solicitações do Feedfetcher resultam da ação explícita de usuários humanos que adicionaram os feeds à sua página inicial do Google ou ao Google Reader, e não de rastreadores automáticos, o Feedfetcher não segue as instruções do robots.txt. Você pode impedir que o Feedfetcher rastreie seu site configurando o servidor para exibir uma mensagem 404, 410 ou outra mensagem de status de erro para o user-agent Feedfetcher-Google. Mais informações sobre o Feedfetcher.