Hoe Google Zoeken werkt

Informatie over hoe Google webpagina's vindt, crawlt en weergeeft

Hoe werkt Google Zoeken eigenlijk? We leggen dat uit in een korte versie en een lange versie.

Google krijgt informatie van veel verschillende locaties, waaronder: 

  • webpagina's,
  • door gebruikers ingediende content, zoals inzendingen van Google Mijn Bedrijf- en Maps-gebruikers,
  • gescande boeken,
  • openbare databases op internet,
  • en vele andere bronnen.

Op deze pagina richten we ons echter op webpagina's.

De korte versie

Google volgt drie basisstappen om resultaten te vinden op webpagina's:

Crawlen

De eerste stap is om erachter te komen welke pagina's op internet bestaan. Er is geen centraal register van alle webpagina's, dus Google moet voortdurend zoeken naar nieuwe pagina's en deze toevoegen aan de lijst met bekende pagina's. Dit ontdekkingsproces wordt crawlen genoemd.

Sommige pagina's zijn al bekend, omdat Google ze al eerder heeft gecrawld. Andere pagina's worden ontdekt wanneer Google een link van een bekende pagina naar een nieuwe pagina volgt. Nog weer andere pagina's worden ontdekt wanneer een website-eigenaar een lijst met pagina's (een sitemap) indient die Google kan crawlen. Als je een beheerde webhost gebruikt, zoals Wix of Blogger, kan deze aan Google laten weten welke geüpdatete of nieuwe pagina's moeten worden gecrawld.

Ga als volgt te werk om je site beter te laten crawlen:

 

Google accepteert geen betalingen om een site vaker te crawlen of een hogere positie te geven. Laat je niets anders wijsmaken.

Indexeren

Nadat een pagina is ontdekt, probeert Google te begrijpen waar de pagina over gaat. Dit proces heet indexeren. Google analyseert de content van de pagina, zet afbeeldingen en videobestanden op de pagina in een catalogus en probeert op andere manieren de pagina te begrijpen. Deze informatie wordt opgeslagen in de Google-index, een enorme database die wordt bewaard op heel, heel, héél veel computers.

Ga als volgt te werk om je pagina beter te laten indexeren:

  • Geef pagina's korte, betekenisvolle titels.
  • Geef pagina's koppen die het onderwerp van de pagina duidelijk maken.
  • Gebruik tekst in plaats van afbeeldingen om de content over te brengen. Google begrijpt wel een beetje van afbeeldingen en video's, maar niet zo veel als van tekst. Voorzie je video's en afbeeldingen daarom op zijn minst van alt-tekst en eventuele andere kenmerken.

Weergave en positie

Wanneer een gebruiker een zoekopdracht uitvoert, probeert Google op basis van allerlei factoren het meest relevante resultaat te vinden in de index. Google probeert vast te stellen welke resultaten de beste kwaliteit hebben. Daarbij hanteert Google diverse overwegingen, die niet alleen leiden tot het meest geschikte resultaat, maar ook de beste gebruikerservaring opleveren. Zo wordt bijvoorbeeld rekening gehouden met de locatie, de taal en het apparaat (desktop of telefoon) van de gebruiker. De zoekopdracht 'fietsenmaker' bijvoorbeeld levert voor iemand in Amsterdam andere resultaten op dan voor iemand in Suriname. Google accepteert geen betalingen om een pagina een hogere positie te geven. De positie wordt programmatisch bepaald.

Ga als volgt te werk om je weergave en positie te verbeteren:

De lange versie

Wil je meer informatie? Voilà:

De lange versie

 

Crawlen

Crawlen of doorzoeken is het proces waarmee Googlebot nieuwe en bijgewerkte pagina's opspoort die moeten worden toegevoegd aan de index van Google.

We gebruiken een enorm aantal computers om miljarden pagina's op internet te doorzoeken (of 'crawlen'). Het programma waarmee de gegevens worden gecrawld, wordt Googlebot genoemd (of ook wel robot, bot of spider). Googlebot maakt gebruik van een algoritmisch crawlproces. Computerprogramma's bepalen welke sites worden gecrawld, hoe vaak dat gebeurt en hoeveel pagina's van elke site worden opgehaald.

Het crawlproces van Google begint met een lijst van URL's van webpagina's, die wordt gegenereerd aan de hand van vorige crawlprocessen en die wordt uitgebreid met sitemapgegevens die worden geleverd door webmasters. Googlebot bezoekt al deze websites. Links die op elke pagina worden aangetroffen, worden toegevoegd aan de lijst van pagina's die moeten worden gecrawld. Nieuwe sites, wijzigingen in bestaande sites en verbroken links worden allemaal geregistreerd en worden gebruikt om de index van Google te updaten.

Hoe vindt Google een pagina?

Google gebruikt veel technieken om een pagina te vinden, waaronder:

  • Links volgen vanaf andere sites of pagina's
  • Sitemaps lezen

Hoe weet Google welke pagina's niet moeten worden gecrawld?

  • Pagina's die zijn geblokkeerd in robots.txt worden niet gecrawld, maar kunnen wel worden geïndexeerd als hiernaar wordt gelinkt door een andere pagina. (Google kan de content van de pagina afleiden uit de link die ernaar verwijst en de pagina indexeren zonder de content te parseren.)
  • Google kan geen pagina's crawlen die niet toegankelijk zijn voor een anonieme gebruiker. Elke vorm van inloggen of andere beveiliging op basis van machtigingen voorkomt dus dat een pagina wordt gecrawld.

Je site beter laten crawlen

Gebruik de volgende technieken om Google te helpen de juiste pagina's op je site te vinden:

Indexeren

Alle pagina's die door Googlebot worden gecrawld, worden verwerkt in een zeer uitgebreide index, die alle woorden bevat die door het programma worden aangetroffen en de locatie ervan op elke pagina. Daarnaast verwerken we gegevens die zijn opgenomen in de belangrijkste tags en kenmerken van de content, zoals <title>-tags en alt-attributen. Googlebot kan veel soorten content verwerken, maar niet alle. De content van bepaalde bestanden met rich media kunnen we bijvoorbeeld niet verwerken.

Pagina's met een noindex-instructie (kop of tag) worden niet gecrawld. Dit geldt alleen als de instructie zichtbaar is voor de crawler. Als de toegang tot de pagina wordt geblokkeerd door het bestand robots.txt, door een inlogpagina of door een andere oorzaak, is het mogelijk dat de pagina wordt geïndexeerd zonder dat Google deze heeft bezocht.

Je site beter laten indexeren

Er zijn veel manieren om ervoor te zorgen dat Google de content van je pagina beter begrijpt. Doe bijvoorbeeld het volgende:

Resultaten presenteren

Wanneer een gebruiker een zoekopdracht invoert, doorzoeken onze computers de index naar overeenkomende pagina's. De resultaten die volgens ons het meest relevant zijn voor de gebruiker, worden vervolgens geretourneerd. De relevantie wordt bepaald door meer dan tweehonderd factoren en we blijven eraan werken ons algoritme te verbeteren. Bij de keuze en posities van zoekresultaten houdt Google rekening met de gebruikerservaring, dus zorg ervoor dat je pagina snel wordt geladen en geschikt is voor mobiele apparaten.

De weergave van je site verbeteren

Een nog langere versie

Je vindt hier een nog langere versie van hoe Google Zoeken werkt (met afbeeldingen en video).

Was dit artikel nuttig?
Hoe kunnen we dit verbeteren?