Googlebot

Googlebot é o nome genérico do rastreador da web do Google. Esse nome é usado para dois tipos diferentes de rastreadores: um rastreador para computadores e outro para dispositivos móveis que simulam a ação de um usuário em cada um desses ambientes.

Seu site provavelmente será rastreado pelo Googlebot Desktop e pelo Googlebot Mobile. Você pode identificar o subtipo do Googlebot observando a string do user agent na solicitação. No entanto, os dois tipos de rastreador obedecem ao mesmo token de produto (user agent token) no robots.txt. Por isso, não é possível segmentar seletivamente o Googlebot Desktop nem o Google Mobile usando o robots.txt.

Caso seu site tenha sido convertido para dispositivos móveis primeiro no Google, a maioria das solicitações de rastreamento do Googlebot será feita usando o rastreador para esse tipo de dispositivo e uma minoria com o rastreador para computadores. Para sites que ainda não foram convertidos, a maioria dos rastreamentos será feita usando o rastreador para computadores. Nos dois casos, o rastreador minoritário rastreia somente URLs que já foram rastreados pelo majoritário.

 

Como o Googlebot acessa seu site

Para a maioria dos sites, o acesso do Googlebot não deve ocorrer, em média, mais de uma vez no intervalo de poucos segundos. No entanto, devido a atrasos, é possível que a taxa pareça ser um pouco mais elevada em intervalos curtos.

O Googlebot foi desenvolvido para funcionar simultaneamente em milhares de máquinas a fim de melhorar o desempenho e a escala de acordo com o crescimento da Web. Além disso, para reduzir o uso de largura de banda, muitos rastreadores funcionam em máquinas localizadas perto dos sites que podem ser rastreados. Desse modo, seus registros podem mostrar visitas de diversas máquinas no google.com.br, todas com o Googlebot user agent. Nosso objetivo é rastrear o maior número possível de páginas no seu site a cada visita, sem sobrecarregar a largura de banda do servidor. Caso seu site esteja com problemas no acompanhamento das solicitações de rastreamento do Google, solicite uma alteração na taxa de rastreamento.

Como impedir o acesso do Googlebot ao seu site

É quase impossível manter um servidor da Web em sigilo não publicando links para ele. Quando alguém segue um link do seu servidor "secreto" para outro servidor da Web, o URL "secreto" pode aparecer na tag de referência, ser armazenado e publicado pelo outro servidor da Web no seu registro de referência. De modo similar, a Web tem muitos links desatualizados e corrompidos. Sempre que alguém publicar um link incorreto para seu site ou deixar de atualizar links de acordo com as alterações no seu servidor, o Googlebot tentará rastrear esse link.

Caso você queira impedir que o Googlebot rastreie conteúdo no seu site, temos várias opções. Há diferenças entre evitar o rastreamento de uma página pelo Googlebot, impedir que ele indexe uma página e não permitir que uma página seja acessada por rastreadores nem por usuários.

Verificação do Googlebot

Antes de decidir bloquear o Googlebot, lembre-se de que a string do user agent usada pela ferramenta muitas vezes é falsificada por spoofing por outros rastreadores. É importante verificar se uma solicitação com problemas tem origem no Google. A melhor maneira de verificar se uma solicitação realmente vem do Googlebot é usar uma busca DNS reversa no IP de origem da solicitação.

O Googlebot e todos os bots de mecanismos de pesquisa confiáveis respeitam as instruções do robots.txt, mas há usuários mal-intencionados e criadores de spam que não fazem isso. O Google combate ativamente criadores de spam. Por isso, se você notar páginas ou sites de spam nos resultados da Pesquisa Google, denuncie ao Google.

 

Isso foi útil?
Como podemos melhorá-lo?