Googlebot

Googlebot é o nome genérico dos dois tipos de rastreadores da Web do Google:

Googlebot para smartphones: um rastreador para dispositivos móveis que simula um usuário em um dispositivo móvel.
Googlebot para computadores: um rastreador para computadores que simula um usuário no computador.

Você pode identificar o subtipo do Googlebot observando o cabeçalho da solicitação do HTTP user-agent na solicitação. No entanto, os dois tipos de rastreador obedecem ao mesmo token de produto (user agent token) no robots.txt. Por isso, não é possível segmentar seletivamente o Googlebot para smartphones nem o Googlebot Desktop usando o robots.txt.

Na maioria dos sites, o Google indexa principalmente a versão para dispositivos móveis do conteúdo. Dessa forma, a maioria das solicitações de rastreamento do Googlebot será feita usando o rastreador para esse tipo de dispositivo e uma minoria com o rastreador para computadores.

Como o Googlebot acessa seu site

Para a maioria dos sites, o acesso do Googlebot não deve ocorrer, em média, mais de uma vez no intervalo de poucos segundos. No entanto, devido a atrasos, é possível que a taxa pareça ser um pouco mais elevada em intervalos curtos.

O Googlebot foi desenvolvido para funcionar simultaneamente em milhares de máquinas a fim de melhorar o desempenho e a escala de acordo com o crescimento da Web. Além disso, para reduzir o uso da largura de banda, muitos rastreadores funcionam em máquinas localizadas perto dos sites que podem ser rastreados. Por isso, seus registros talvez mostrem visitas de vários endereços IP, todos com o user agent do Googlebot. Nosso objetivo é rastrear o maior número possível de páginas no seu site a cada visita, sem sobrecarregar o servidor. Caso seu site esteja com problemas ao acompanhar as solicitações de rastreamento do Google, reduza a taxa de rastreamento.

O Googlebot rastreia principalmente endereços IP nos Estados Unidos. Caso o Googlebot detecte que um site está bloqueando solicitações dos Estados Unidos, ele poderá tentar rastrear endereços IP localizados em outros países. A lista de blocos de endereços IP usados atualmente pelo Googlebot está disponível no formato JSON.

O Googlebot rastreia o HTTP/1.1 e, se compatível com o site, HTTP/2. Não há benefício de classificação com base na versão do protocolo usada para rastrear seu site. No entanto, o rastreamento por HTTP/2 pode economizar recursos de computação (por exemplo, CPU e RAM) do seu site e do Googlebot.
Para desativar o rastreamento via HTTP/2, instrua o servidor que hospeda o site para responder com um código de status HTTP 421 quando o Googlebot tentar fazer o rastreamento dessa maneira. Se isso não for viável, envie uma mensagem para a equipe do Googlebot. No entanto, essa solução é temporária.

O Googlebot pode rastrear os primeiros 15 MB de um arquivo HTML ou um arquivo de texto compatível. Cada recurso referenciado no HTML, como CSS e JavaScript, é buscado separadamente, e cada busca é restrita ao mesmo limite de tamanho de arquivo. Depois disso, ele interrompe o rastreamento e considera apenas os primeiros 15 MB do arquivo para indexação. O limite de tamanho do arquivo é aplicado considerando os dados descompactados. Outros rastreadores do Google como o Googlebot Video e o Googlebot Image podem ter limites diferentes.

Ao rastrear endereços IP nos EUA, o fuso horário do Googlebot é o Horário do Pacífico.

Como impedir o acesso do Googlebot ao seu site

É quase impossível manter um site em sigilo não publicando links para ele. Quando alguém segue um link do seu site "secreto" para outro site, o URL "secreto" pode aparecer na tag de referência, ser armazenado e publicado pelo outro site no seu registro de referência.

Caso você queira impedir que o Googlebot rastreie conteúdo no seu site, temos várias opções. Há diferenças entre evitar o rastreamento de uma página pelo Googlebot, impedir que ele indexe uma página e não permitir que uma página seja acessada por rastreadores nem por usuários.

Verificação do Googlebot

Antes de decidir bloquear o Googlebot, esteja ciente de que o cabeçalho da solicitação HTTP user-agent usado pelo Googlebot muitas vezes é falsificado por outros rastreadores. É importante confirmar se uma solicitação com problemas tem origem no Google. A melhor maneira de verificar se a solicitação realmente vem do Googlebot é usar uma busca DNS reversa no IP de origem da solicitação ou comparar o IP de origem com os intervalos de IP do Googlebot.