Como a Pesquisa Google funciona

Saiba como o Google detecta, rastreia e exibe páginas da Web

Como o Google funciona? Veja uma resposta curta e outra longa.

O Google reúne informações de muitas fontes diferentes, incluindo: 

  • páginas da Web;
  • conteúdo enviado pelo usuário, como envios ao Google Meu Negócio e ao Google Maps;
  • livros digitalizados;
  • bancos de dados públicos na Internet;
  • e muitas outras fontes.

No entanto, este conteúdo se concentra nas páginas da Web.

A resposta curta

O Google segue três etapas básicas para gerar resultados a partir de páginas da Web:

Rastreamento

A primeira etapa é descobrir as páginas que existem na Web. Não há um registro central de todas elas. Por isso, o Google precisa pesquisar novas páginas constantemente e adicioná-las à própria lista de páginas conhecidas. Algumas páginas são conhecidas porque já foram visitadas pelo Google. Outras são descobertas quando o Google segue um link de uma página conhecida para uma nova. Além disso, algumas são detectadas quando o proprietário de um site envia uma lista de páginas (um sitemap) para o Google rastrear. Com um host da Web gerenciado, como o Wix ou o Blogger, você pode solicitar ao Google que rastreie todas as suas páginas novas ou atualizadas.

Depois que o Google descobre um URL de página, ele visita ou rastreia a página para descobrir o que há nela. O Google renderiza a página e analisa o conteúdo, tanto textual quanto não textual, e o layout visual geral para decidir onde ela deve aparecer nos resultados da pesquisa. Quanto melhor o Google entender o site, mais ele conseguirá levar seu conteúdo até as pessoas que estão à procura dele.

Para melhorar o rastreamento do site, faça o seguinte:

  • Verifique se o Google consegue acessar todas as páginas do site, e se elas aparecem corretamente. O Google acessa a Web como um usuário anônimo, sem senhas nem informações. Ele também precisa ver todas as imagens e outros elementos da página para poder entendê-la corretamente. É possível fazer uma verificação rápida digitando o URL da sua página na Ferramenta de teste de compatibilidade com dispositivos móveis.
  • Se você criou ou atualizou somente uma página, envie o URL individual para o Google. Para informar o Google de muitas páginas novas ou atualizadas de uma só vez, use um sitemap.
  • Se você pedir ao Google para rastrear somente uma página, escolha sua página inicial. A página inicial é a página mais importante do site, no que diz respeito ao Google. Para incentivar um rastreamento completo do site, verifique se a página inicial (e todas as outras) tem um bom sistema de navegação, vinculado a todas as seções e páginas importantes. Isso ajudará os usuários e o Google a encontrar o que procuram no site. Para sites menores (menos de mil páginas), basta informar ao Google a página inicial, desde que seja possível acessar todas as outras páginas seguindo caminhos de links com início nela. 
  • Vincule sua página a outra que o Google já conhece. No entanto, os links em anúncios e comentários não serão seguidos, assim como aqueles que forem inseridos em outros sites mediante pagamento ou não estiverem em conformidade com as Diretrizes para webmasters do Google.

 

O Google não aceita pagamento para rastrear um site com mais frequência nem para atribuir a ele uma classificação mais alta. Se alguém disser a você algo diferente, essa informação estará errada.

Indexação

Depois que uma página é descoberta, o Google tenta identificar o conteúdo dela. Esse processo é chamado de indexação. O Google analisa o conteúdo da página, cataloga arquivos de imagens e vídeos incorporados e tenta identificar sobre o que ela trata. Essa informação fica registrada no índice do Google, um grande banco de dados armazenado em uma quantidade enorme de computadores.

Para melhorar a indexação da sua página:

  • crie títulos de páginas curtos e significativos;
  • use cabeçalhos que expressem o assunto da página;
  • use texto em vez de imagens para expressar o conteúdo publicado. O Google pode entender algumas imagens e vídeos, mas identifica melhor textos. No mínimo, inclua anotações com texto alternativo e outros atributos em vídeos e imagens conforme apropriado.

Veiculação (e classificação)

Quando o usuário faz uma consulta, o Google tenta encontrar a resposta mais relevante no próprio índice com base em vários fatores. O Google tenta determinar as respostas mais adequadas e de qualidade mais alta, bem como avaliar outras considerações que fornecerão a melhor experiência do usuário. Para isso, leva em conta aspectos, como localização, idioma e dispositivo (computador ou smartphone). Por exemplo, em uma pesquisa por "oficinas de conserto de bicicletas", os resultados seriam diferentes para um usuário de Paris e outro de Hong Kong. O Google não aceita pagamento para atribuir aos sites uma classificação mais alta. A classificação é feita de maneira programática.

Para melhorar sua veiculação e classificação:

A resposta longa

Quer mais informações? Veja o tópico a seguir.

A resposta longa

Rastreamento

O rastreamento é o processo em que o Googlebot visita páginas novas e atualizadas para serem incluídas no índice do Google.

Nós usamos um grande conjunto de computadores para buscar (ou “rastrear”) bilhões de páginas na Web. O programa que faz a busca é chamado de Googlebot (também conhecido como robô, bot ou indexador). O Googlebot usa um processo de algoritmos para determinar quais sites devem ser rastreados, com que frequência e quantas páginas devem ser buscadas em cada site.

O processo de rastreamento do Google começa com uma lista de URLs de páginas da Web gerada a partir de processos anteriores de rastreamento, aumentada por dados do sitemap fornecidos pelos webmasters. Quando o Googlebot visita uma página, ele encontra links nela e os inclui na lista de páginas a serem rastreadas. Novos sites, alterações em sites existentes e links inativos são detectados e usados para atualizar o índice do Google.

Durante o rastreamento, o Google renderiza a página usando uma versão recente do Chrome. Como parte do processo de renderização, ele executa todos os scripts de página que encontra. Caso seu site use conteúdo gerado dinamicamente, siga as noções básicas de SEO em JavaScript.

Rastreamento principal / secundário

O Google usa dois rastreadores diferentes para rastrear sites: um para dispositivos móveis e um para computadores. Cada tipo de rastreador simula um usuário que visita a página com um tipo de dispositivo.

O Google usa um tipo de rastreador (para dispositivos móveis ou computador) como o rastreador principal do site. Todas as páginas do site são acessadas pelo Google usando o rastreador principal. O rastreador principal de todos sites novos é a versão para dispositivos móveis.

Além disso, o Google rastreia novamente algumas páginas do site com o outro tipo de rastreador (para dispositivos móveis ou computador). Isso é chamado de rastreamento secundário e é feito para ver se o site funciona bem com o outro tipo de dispositivo.

Como o Google identifica quais páginas não devem ser rastreadas?

  • As páginas bloqueadas no robots.txt não serão rastreadas. No entanto, elas ainda poderão ser indexadas caso estejam vinculadas a outra página. O Google pode inferir o conteúdo da página usando um link que leva até ela e indexar a página sem analisar o que está publicado.
  • O Google não pode rastrear páginas indisponíveis a um usuário anônimo. Por isso, qualquer exigência de login ou outra proteção por autorização impedirá o rastreamento da página.
  • As páginas que já foram rastreadas e são consideradas cópias de outras são rastreadas com menos frequência.

Como melhorar seu rastreamento

Use estas técnicas para ajudar o Google a descobrir as páginas certas do site:

Indexação

O Googlebot processa cada página que rastreia para entender o conteúdo da página. Isso inclui processar o conteúdo textual, as principais tags de conteúdo e atributos, como tags <title> e atributos alternativos, imagens, vídeos e muito mais. O Googlebot pode processar muitos tipos de conteúdo, mas não todos. Por exemplo, não processamos o conteúdo de alguns arquivos rich media.

Em algum momento entre o rastreamento e a indexação, o Google determina se uma página é uma cópia ou versão canônica de outra. Se a página for considerada uma cópia, ela será rastreada com muito menos frequência. Páginas semelhantes são agrupadas em um documento, que é um grupo de uma ou mais páginas que inclui a página canônica (a mais representativa do grupo) e as cópias encontradas (que podem ser simplesmente URLs alternativos para chegar à mesma página ou podem ser versões alternativas para computadores ou dispositivos móveis da mesma página).

O Google não indexa páginas com uma diretiva noindex (cabeçalho ou tag). No entanto, a diretiva precisa ficar visível. Caso a página esteja bloqueada por um arquivo robots.txt, uma página de login ou outro dispositivo, talvez ela seja indexada, mesmo não tendo sido acessada pelo Google.

Como melhorar sua indexação

Existem muitas técnicas para melhorar a capacidade do Google de entender o conteúdo da sua página:

O que é um "documento"?

Internamente, o Google representa a Web como um (enorme) conjunto de documentos. Cada documento representa uma ou mais páginas da Web. Essas páginas são idênticas ou muito semelhantes, mas são basicamente o mesmo conteúdo, acessíveis por URLs diferentes. Os diferentes URLs de um documento podem levar à mesma página (por exemplo, example.com/vestidos/verao/1234 e example.com?product=1234 podem mostrar a mesma página) ou a mesma página com pequenas variações usuários em dispositivos diferentes (por exemplo, example.com/minhapagina para usuários de computador e m.example.com/minhapagina para usuários de dispositivos móveis).

O Google escolhe um dos URLs em um documento e o define como o URL canônico do documento. O URL canônico do documento é aquele que o Google rastreia e indexa com mais frequência. Os outros URLs são considerados cópias ou alternativas e podem eventualmente ser rastreados ou exibidos de acordo com a solicitação do usuário. Por exemplo, mesmo que o URL canônico de um documento seja para dispositivos móveis, o Google provavelmente exibirá o URL para computador (alternativo) aos usuários que pesquisarem nesses aparelhos.

A maioria dos relatórios no Search Console atribui os dados ao URL canônico do documento. Algumas ferramentas (como "Inspecionar URL") permitem testar URLs alternativos, mas a inspeção do URL canônico também dá informações sobre os URLs alternativos.

É possível informar ao Google qual URL você considera canônico, mas podemos escolher outro por vários motivos.

Veja um resumo dos termos e como eles são usados no Search Console:

  • Documento: é um conjunto de páginas semelhantes. Tem um URL canônico e pode ter URLs alternativos, caso seu site tenha páginas duplicadas. Os URLs no documento podem ser da mesma ou de diferentes organizações (o domínio raiz, como "google" em www.google.com). O Google escolhe o melhor URL para exibir nos resultados da pesquisa de acordo com a plataforma (dispositivo móvel/computador), o idioma ou local do usuário e muitas outras variáveis. O Google descobre páginas relacionadas no site por meio do rastreamento orgânico ou por recursos implementados no site, como redirecionamentos ou tags <link rel=alternate/canonical>. As páginas relacionadas de outras organizações só podem ser marcadas como alternativas quando isso é explicitamente programado no site (por meio de redirecionamentos ou tags de link).
  • URL: o URL usado para acessar determinado conteúdo em um site. O site pode resolver URLs diferentes para a mesma página.
  • Página: determinada página da Web, alcançada por um ou mais URLs. Pode haver diferentes versões de uma página, dependendo da plataforma do usuário (smartphone, computador, tablet, etc).
  • Versão: uma variação da página, normalmente categorizada como "dispositivos móveis", "computador" e "AMP" (embora as AMP possam ter versões para dispositivos móveis e computadores). Cada versão pode ter um URL diferente (example.com e m.example.com) ou usar o mesmo. Se o site conta com exibição dinâmica ou Web design responsivo, o mesmo URL pode mostrar versões diferentes da mesma página, dependendo da configuração do site. As variações de idioma não são consideradas versões diferentes, e sim documentos diferentes.
  • Página ou URL canônico: o URL que o Google considera mais representativo do documento. O Google sempre rastreia esse URL. Ocasionalmente, URLs duplicados no documento também são rastreados.
  • URL ou página alternativa/duplicada: o URL do documento que o Google pode rastrear ocasionalmente. O Google também exibe esses URLs se eles forem adequados ao usuário e à solicitação. Por exemplo, no caso das solicitações de computador, será exibido um URL alternativo específico a esses usuários, e não um URL canônico para dispositivos móveis.
  • Site: é um conjunto conceitualmente relacionado de páginas da Web. Às vezes, é usado como sinônimo de propriedade do Search Console, ainda que esta última possa ser definida como apenas parte de um site. Um site pode conter subdomínios e até mesmo organizações, se houver páginas AMP vinculadas corretamente.

Páginas com o mesmo conteúdo em diferentes idiomas são armazenadas em documentos diferentes com referências entre si, usando tags hreflang. Por isso, é importante usar tags hreflang para conteúdo traduzido.

Exibição de resultados

Quando um usuário faz uma consulta, nossas máquinas pesquisam o índice de páginas correspondentes e retornam os resultados mais relevantes para ele. A relevância é determinada por centenas de fatores, e trabalhamos de maneira contínua para melhorar nosso algoritmo. O Google considera a experiência do usuário na escolha e classificação dos resultados. Por isso, é importante que sua página tenha carregamento rápido e seja otimizada para dispositivos móveis.

Como melhorar sua veiculação

Uma resposta ainda mais longa

Você pode encontrar uma resposta ainda mais longa sobre como a Pesquisa Google funciona aqui, com fotos e vídeos.

Isso foi útil?
Como podemos melhorá-lo?