Googlebot

Googlebot é o robô de rastreamento da Web do Google (também chamado de "indexador"). O rastreamento é o processo pelo qual o Googlebot descobre páginas novas e atualizadas para serem incluídas no índice do Google.

Nós usamos um grande conjunto de computadores para buscar (ou “rastrear”) bilhões de páginas na Web. O Googlebot usa um processo de algoritmos: programas de computador que determinam quais sites devem ser indexados, com que frequência e quantas páginas devem ser buscadas em cada site.

O processo de rastreamento do Googlebot começa com uma lista de URLs de páginas da Web, gerada a partir de processos anteriores de rastreamento e aumentada com dados dos sitemaps fornecidos por webmasters. Conforme o Googlebot visita cada um desses sites, ele detecta os links (SRC e HREF) de cada página e os inclui na sua lista de páginas a serem rastreadas. Novos sites, alterações em sites existentes e links inativos serão detectados e usados para atualizar o índice do Google.

Para webmasters: Googlebot e seu site

Como o Googlebot acessa seu site

Para a maioria dos sites, o acesso do Googlebot não deve ocorrer, em média, mais de uma vez no intervalo de poucos segundos. No entanto, devido a atrasos na rede, é possível que a taxa pareça ser um pouco mais elevada por curtos períodos. Em geral, o Googlebot deve fazer o download de somente uma cópia de cada página por vez. Se você notar que o Googlebot está fazendo download de uma página várias vezes, é porque o rastreador provavelmente foi interrompido e reiniciado.

O Googlebot foi desenvolvido para ser distribuído em várias máquinas a fim de melhorar o desempenho e a escala conforme a Web cresce. Além disso, para diminuir o uso de largura de banda, executamos muitos rastreadores nas máquinas localizadas perto dos sites que estão sendo indexados na rede. Desse modo, seus registros podem mostrar visitas de diversas máquinas no google.com.br, todas com o Googlebot user-agent. Nosso objetivo é rastrear o maior número possível de páginas em seu site a cada visita, sem sobrecarregar a largura de banda do servidor. Solicite uma alteração na taxa de rastreamento.

Como bloquear o Googlebot no conteúdo do seu site

É quase impossível manter um servidor da web em sigilo não publicando links para ele. Assim que alguém segue um link do seu servidor "secreto" para outro servidor da web, seu URL "secreto" pode aparecer na tag de referência e pode ser armazenado e publicado pelo outro servidor da web em seu registro de referência. De modo similar, a Web possui muitos links desatualizados e corrompidos. Sempre que alguém publicar um link incorreto para seu site ou não conseguir atualizar links para refletir as alterações no seu servidor, o Googlebot tentará fazer o download de um link incorreto do seu site.

Se desejar impedir que o Googlebot rastreie conteúdo no seu site, você terá várias opções, incluindo o uso do robots.txt para bloquear o acesso a arquivos e diretórios do seu servidor.

Depois que seu arquivo robots.txt for criado, levará algum tempo para que o Googlebot descubra as alterações. Se o Googlebot ainda estiver rastreando conteúdo que foi bloqueado no robots.txt, verifique se o robots.txt está no local correto. Ele precisa estar no diretório principal do servidor (por exemplo, www.meuhost.com/robots.txt). Colocar o arquivo em um subdiretório não terá nenhum efeito.

Se você quiser somente evitar as mensagens de erro "arquivo não encontrado" no registro do seu servidor da web, crie um arquivo vazio chamado robots.txt. Se você quiser impedir que o Googlebot siga qualquer link de uma página do seu site, use a metatag nofollow. Para impedir que o Googlebot siga um link individual, adicione o atributo rel="nofollow" ao próprio link.

Veja mais algumas dicas:

  • Teste se seu robots.txt está funcionando como esperado. A ferramenta Testar robots.txt na página URLs bloqueados (em Integridade) permite que você veja exatamente como o Googlebot interpretará os conteúdos do seu arquivo robots.txt. O user-agent do Google é (propício o suficiente) Googlebot.
  • A ferramenta Buscar como o Google no Search Console ajuda você a compreender exatamente como seu site aparece para o Googlebot. Isso pode ser muito útil para a solução de problemas com o conteúdo ou relevância do seu site nos resultados de pesquisa.

Como verificar se seu site pode ser rastreado

O Googlebot encontra sites seguindo os links de todas as páginas. A página Erros de rastreamento no Search Console lista todos os problemas encontrados pelo Googlebot ao rastrear seu site. Recomendamos que você revise esses erros de rastreamento regularmente para identificar problemas no site.

Se você executar um aplicativo AJAX com o conteúdo que você gostaria que aparecesse nos seus resultados da pesquisa, recomendamos que você avalie nossa proposta de tornar o conteúdo baseado em AJAX rastreável e indexável.

Caso seu arquivo robots.txt esteja funcionando conforme o esperado, mas o site não esteja recebendo tráfego, veja alguns possíveis motivos que explicam por que seu conteúdo não tem bom desempenho na pesquisa.

Problemas com criadores de spam e outros user-agents

Os endereços IP usados pelo Googlebot mudam de tempos em tempos. A melhor maneira de identificar os acessos pelo Googlebot é por meio do user-agent (Googlebot). Você pode verificar se o robô que está acessando seu servidor é realmente o Googlebot usando uma busca DNS inversa.

O Googlebot e todos os robôs de mecanismos de pesquisa confiáveis respeitarão as instruções do robots.txt, mas alguns mal-intencionados e criadores de spam não farão isso. Denuncie spam para o Google.

O Google tem vários outros user-agents, incluindo o Feedfetcher (user-agent Feedfetcher-Google). Como as solicitações do Feedfetcher resultam da ação explícita de usuários humanos que adicionaram os feeds à sua página inicial do Google ou ao Google Reader, e não de rastreadores automáticos, o Feedfetcher não segue as instruções do robots.txt. Você pode impedir que o Feedfetcher rastreie seu site configurando o servidor para exibir uma mensagem 404, 410 ou outra mensagem de status de erro para o user-agent Feedfetcher-Google. Mais informações sobre o Feedfetcher.

Este artigo foi útil para você?