Googlebot

Googlebot é o robô de rastreamento da Web do Google (também chamado de "indexador"). O rastreamento é o processo pelo qual o Googlebot descobre páginas novas e atualizadas para serem incluídas no índice do Google.

Nós usamos um grande conjunto de computadores para buscar (ou “rastrear”) bilhões de páginas na Web. O Googlebot usa um processo de algoritmos: programas de computador que determinam quais sites devem ser rastreados, com que frequência e quantas páginas devem ser buscadas em cada site.

Como o Googlebot acessa seu site

Para a maioria dos sites, o acesso do Googlebot não deve ocorrer, em média, mais de uma vez no intervalo de poucos segundos. No entanto, devido a atrasos na rede, é possível que a taxa pareça ser um pouco mais elevada em intervalos curtos.

O Googlebot foi desenvolvido para ser distribuído em várias máquinas a fim de melhorar o desempenho e a escala conforme a Web cresce. Além disso, para diminuir o uso de largura de banda, executamos muitos rastreadores nas máquinas localizadas perto dos sites que estão sendo indexados na rede. Desse modo, seus registros podem mostrar visitas de diversas máquinas no google.com.br, todas com o Googlebot user-agent. Nosso objetivo é rastrear o maior número possível de páginas no seu website a cada visita, sem sobrecarregar a largura de banda do servidor. Solicite uma alteração na taxa de rastreamento.

Como bloquear o Googlebot no conteúdo do seu website

É quase impossível manter um servidor da web em sigilo não publicando links para ele. Assim que alguém segue um link do seu servidor "secreto" para outro servidor da web, seu URL "secreto" pode aparecer na tag de referência e pode ser armazenado e publicado pelo outro servidor da web em seu registro de referência. De modo similar, a Web possui muitos links desatualizados e corrompidos. Sempre que alguém publicar um link incorreto para seu site ou deixar de atualizar links de acordo com as alterações no seu servidor, o Googlebot tentará fazer o download de um link incorreto do seu site.

Caso você queira impedir que o Googlebot rastreie conteúdo no seu site, temos várias opções. Há diferenças entre evitar o rastreamento de uma página pelo Googlebot, impedir que ele indexe uma página e não permitir que uma página seja acessada por rastreadores nem por usuários.

Problemas com criadores de spams e outros user agents

Os endereços IP usados pelo Googlebot mudam periodicamente. O Googlebot se identifica com uma string de user agent, mas isso pode ser falsificado por spoofing. A melhor maneira de identificar os acessos do Googlebot é usar uma busca DNS inversa.

O Googlebot e todos os bots de mecanismos de pesquisa confiáveis respeitam as instruções do robots.txt, mas há usuários mal-intencionados e criadores de spam que não fazem isso. Denuncie spam para o Google.

O Google tem vários outros user-agents, incluindo o Feedfetcher (user-agent Feedfetcher-Google). Como as solicitações do Feedfetcher resultam da ação explícita de usuários humanos que adicionaram os feeds à página inicial do Google e não de rastreadores automáticos, o Feedfetcher não segue as diretrizes do robots.txt. É possível impedir que o Feedfetcher rastreie seu website configurando o servidor para exibir uma mensagem 404, 410 ou outra mensagem de status de erro para o user-agent Feedfetcher-Google. Veja mais informações sobre o Feedfetcher.

Este artigo foi útil para você?
Como podemos melhorá-lo?