Jak działa wyszukiwarka Google

Jak Google znajduje, indeksuje i wyświetla strony internetowe

Chcesz dowiedzieć się, jak działa Google? Poniżej znajdziesz krótkie wyjaśnienie, a dalej dłuższy opis.

Google pozyskuje informacje z wielu różnych źródeł. Są to:

  • strony internetowe,
  • treści przesłane przez użytkowników do Google Moja Firma i Map,
  • skany książek,
  • publiczne bazy danych w internecie
  • i wiele innych.

Tu omawiamy strony internetowe.

Krótka wersja

Tworzenie wyników wyszukiwania ze stron internetowych składa się z trzech etapów:

Skanowanie

Pierwszy krok to zdobycie informacji o tym, jakie strony występują w internecie. Nie ma centralnego rejestru wszystkich stron internetowych, dlatego Google musi nieustannie szukać nowych stron i dodawać je do listy tych, które są już znane. Niektóre strony są znane, bo Google udało się już je odwiedzić. O istnieniu nowych stron Google dowiaduje się, śledząc linki ze znanych stron. Inne strony udaje się znaleźć dzięki listom stron (mapom witryn) przesyłanym przez ich właścicieli. Jeśli korzystasz z zarządzanych usług dostawcy hostingu witryn, takiego jak Wix czy Blogger, może on przekazywać Google informacje o potrzebie przeskanowania zaktualizowanych lub nowych utworzonych przez Ciebie stron.

Gdy Google wykryje adres URL strony, odwiedzi ją, czyli przeskanuje, by dowiedzieć się, co ona zawiera. Google renderuje stronę i analizuje zarówno tekst, jak i pozostałe treści oraz ogólny układ wizualny, by ustalić, gdzie powinna się ona pojawiać w wynikach wyszukiwania. Im trafniej zinterpretujemy zawartość Twojej witryny, tym łatwiej będziemy mogli dopasować ją do osób poszukujących treści, które w niej udostępniasz.

Aby skanowanie Twoich stron działało możliwie najlepiej:

  • Sprawdź, czy Google ma dostęp do stron Twojej witryny i czy wyglądają one prawidłowo. Google uzyskuje dostęp do sieci jako anonimowy użytkownik (bez hasła ani innych danych). Google musi też mieć możliwość wyświetlania wszystkich obrazów i innych elementów strony, by móc je prawidłowo zinterpretować. Adres URL swojej strony możesz szybko sprawdzić, wpisując go w narzędziach do testowania optymalizacji mobilnej.
  • Gdy utworzysz lub zaktualizujesz jedną stronę, możesz przesłać do Google pojedynczy adres URL.Aby za jednym razem poinformować Google o wielu nowych lub zaktualizowanych stronach, użyj mapy witryny.
  • Jeśli chcesz poprosić Google o przeskanowanie tylko jednej strony, powinna to być strona główna. Dla Google strona główna to najważniejsza strona w witrynie. Aby umożliwić pełne skanowanie, dopilnuj, by Twoja strona główna (i pozostałe strony) zawierała sprawny system nawigacji łączący wszystkie ważne sekcje witryny – ułatwi to użytkownikom (i nam) poruszanie się po niej. W przypadku mniejszych witryn (poniżej 1000 stron) wystarczy poinformować Google tylko o stronie głównej, pod warunkiem że Google może dotrzeć do pozostałych stron, skanując ścieżkę linków, które mają początek na stronie głównej.
  • Połącz linkiem swoją stronę z inną, o której istnieniu Google już wie. Pamiętaj jednak, że linki w reklamach, opłacane w innych witrynach, znalezione w komentarzach, a także linki niezgodne ze wskazówkami Google dla webmasterów, nie są skanowane przez Google.

 

Google nie przyjmuje opłat za częstsze skanowanie stron ani za poprawę ich pozycji w rankingu. Jeśli ktoś twierdzi inaczej, po prostu się myli.

Indeksowanie

Po znalezieniu strony Google stara się rozpoznać jej tematykę. Taki proces nazywa się indeksowaniem. Google analizuje treści na stronie, kataloguje jej obrazy i filmy i próbuje zrozumieć, o czym ona jest. Takie informacje są przechowywane w indeksie Google, czyli w olbrzymiej bazie danych zapisanej na bardzo wielu komputerach.

Aby usprawnić indeksowanie swojej witryny:

  • Twórz krótkie, zrozumiałe tytuły stron.
  • Używaj nagłówków stron, które wskazują ich temat.
  • Staraj się przekazywać treść za pomocą tekstu, a nie obrazów. Co prawda Google potrafi rozpoznawać niektóre obrazy i filmy, ale nie tak dobrze jak tekst. Staraj się, by filmyobrazy miały co najmniej tekst alternatywny, a w razie potrzeby także inne atrybuty.

Wyświetlanie wyników (i pozycja w rankingu)

Gdy użytkownik wpisze zapytanie, Google stara się znaleźć najbardziej trafną odpowiedź, sprawdzając swój indeks i biorąc przy tym pod uwagę wiele czynników. Google stara się wybrać odpowiedzi o najwyższej jakości, czyli uwzględnia wiele czynników, które pomagają zapewnić jak największą przydatność danej odpowiedzi dla użytkownika – np. lokalizację, język czy typ urządzenia (komputer lub telefon). Dzięki temu zapytanie „naprawa rowerów” powoduje wyświetlenie innych wyników użytkownikowi w Warszawie niż w Hongkongu. Google nie przyjmuje opłat za umieszczanie stron wyżej w rankingu. Określanie pozycji w rankingu odbywa się automatycznie.

Aby strona częściej pojawiała się w wynikach wyszukiwania i miała lepszą pozycję w rankingu:

Długa wersja

Chcesz dowiedzieć się więcej? Czytaj dalej:

Długa wersja

Skanowanie

Skanowanie to proces, podczas którego Googlebot odwiedza nowe i zaktualizowane strony, by dodać je do indeksu Google.

Do skanowania („pobierania”) miliardów stron internetowych używamy ogromnej liczby komputerów. Aplikacją odpowiedzialną za te czynności jest Googlebot (zwany też robotem, botem lub pająkiem). Googlebot działa według określonych algorytmów, by wybierać witryny, które należy przeskanować, i ustalać, jak często mają być sprawdzane oraz ile stron danej witryny zostanie przeskanowanych.

Proces skanowania rozpoczyna się od listy adresów URL stron internetowych wygenerowanej na podstawie wcześniejszych wyników i zmodyfikowanej z wykorzystaniem danych pochodzących z map witryn dostarczanych przez webmasterów. Gdy Googlebot odwiedza daną stronę, znajduje na niej linki, które dodaje do listy stron do przeskanowania. Nowe witryny, zmiany w dotychczasowych witrynach i nieaktualne linki są rejestrowane, a informacje te służą do aktualizacji indeksu Google.

Podczas skanowania strony robot Google renderuje ją w najnowszej wersji Chrome. W ramach procesu renderowania uruchamia wszystkie znalezione skrypty strony. Jeśli Twoja witryna korzysta z treści generowanych dynamicznie, upewnij się, że przestrzegasz podstawowych wskazówek dotyczących wykonywania SEO za pomocą JavaScriptu.

Skanowanie główne i dodatkowe

Do skanowania witryn Google używa dwóch różnych robotów: komórkowego i komputerowego. Każdy z nich symuluje użytkownika odwiedzającego stronę na urządzeniu danego rodzaju.

Google używa w Twojej witrynie jednego typu robota (komórkowego lub komputerowego) jako robota głównego. Skanuje on wszystkie strony Twojej witryny, które są skanowane przez Google. Robotem głównym w przypadku wszystkich nowych witryn jest robot komórkowy.

Oprócz tego Google ponownie skanuje kilka stron w witrynie za pomocą robota drugiego typu (komórkowego lub komputerowego). To skanowanie dodatkowe pozwala sprawdzić, jak dobrze witryna współpracuje z drugim rodzajem urządzeń.

Skąd Google wie, jakich stron nie skanować?

  • Strony zablokowane w plikach robots.txt nie są skanowane, ale mogą zostać zindeksowane, jeśli prowadzą do nich linki z innych stron. Google może wywnioskować zawartość strony na podstawie prowadzącego do niej linku i zindeksować ją bez analizowania jej treści.
  • Google nie skanuje stron, których nie może otworzyć anonimowy użytkownik. Sprawia to, że strony zabezpieczone procesem uwierzytelniania lub logowania nie są skanowane.
  • Strony, które zostały już przeskanowane i uznane za duplikaty innej strony, są rzadziej skanowane.

Usprawnianie skanowania stron

Aby pomóc Google w znajdowaniu odpowiednich stron w Twojej witrynie, stosuj te metody:

Indeksowanie

Googlebot przetwarza każdą skanowaną stronę, by poznać jej zawartość. Obejmuje to przetwarzanie treści tekstowych, kluczowych tagów treści i atrybutów, np. tagów <title> i atrybutów alt, obrazów, filmów itd. Googlebot może przetwarzać wiele rodzajów treści, choć nie wszystkie. Nie może np. przetwarzać niektórych plików multimedialnych.

Podczas skanowania i indeksowania Google określa, czy strona jest duplikatem czy wersją kanoniczną innej strony.Jeśli strona zostanie uznana za duplikat, będzie skanowana z mniejszą częstotliwością. Podobne strony są grupowane w dokument, czyli grupę składającą się z co najmniej jednej strony. Grupa zawiera stronę kanoniczną (najbardziej reprezentatywną z całej grupy) i wszystkie znalezione duplikaty (które mogą być po prostu alternatywnymi adresami URL albo alternatywnymi wersjami tej samej strony na urządzenia mobilne lub komputery).

Pamiętaj, że Google nie indeksuje stron z dyrektywą noindex (w nagłówku lub tagu). Dyrektywa ta musi być jednak dla niego widoczna – jeśli strona jest blokowana za pomocą pliku robots.txt, strony logowania lub jakiegoś urządzenia, może zostać zindeksowana nawet wtedy, gdy bot jej nie odwiedzi.

Usprawnianie indeksowania stron

Jest wiele metod, które pomagają Google rozpoznawać treści na stronie:

Co to jest „dokument”?

Wewnętrznie Google postrzega internet jako (olbrzymi) zbiór dokumentów.Każdy dokument reprezentuje co najmniej jedną stronę internetową. Wchodzące w jego skład strony są identyczne lub bardzo podobne do siebie, ale w zasadzie mają tę samą treść, dostępną pod różnymi adresami URL. Osobne adresy URL w dokumencie mogą prowadzić do tej samej strony (np. example.com/sukienki/lato/1234 i example.com?product=1234 mogą wyświetlać tę samą stronę) lub do tej samej strony z niewielkimi zmianami treści dostosowanymi do użytkowników korzystających z różnych urządzeń (np. example.com/mojastrona dla użytkowników komputerów i m.example.com/mojastrona dla użytkowników urządzeń mobilnych).

Google wybiera jeden z adresów URL w dokumencie i określa go jako kanoniczny adres URL dokumentu. Jest to adres, który Google najczęściej skanuje i indeksuje. Pozostałe adresy URL są uznawane za duplikaty lub adresy alternatywne i mogą być okresowo skanowane lub wyświetlane zgodnie z żądaniami wysyłanymi przez użytkowników. Jeśli np. kanoniczny adres URL to adres URL na urządzenia mobilne, Google i tak będzie pewnie wyświetlać (alternatywny) adres URL na komputery użytkownikom korzystającym z wyszukiwarki właśnie na komputerach.

Większość raportów w Search Console przypisuje dane do kanonicznego adresu URL dokumentu. Niektóre narzędzia (np. narzędzie do sprawdzania adresów URL) obsługują testowanie alternatywnych adresów URL, ale sprawdzanie kanonicznego adresu URL także powinno dostarczać o nich informacje.

Możesz wskazać Google adres URL, który Twoim zdaniem jest kanoniczny, ale z różnych powodów Google może wybrać inny.

Oto zestawienie specjalistycznych terminów używanych w Search Console:

  • Dokument: zbiór podobnych stron. Zawiera kanoniczny adres URL i ewentualnie alternatywne adresy URL, jeśli w Twojej witrynie występują zduplikowane strony. Adresy URL w dokumencie mogą pochodzić z tej samej lub innej organizacji (czyli domeny głównej, np. „google” w www.google.com). Google wybiera najlepszy adres URL do wyświetlania w wynikach wyszukiwania na podstawie platformy (urządzenia mobilne lub komputery), języka lub lokalizacji użytkownika i wielu innych czynników. Google wykrywa pokrewne strony w Twojej witrynie, korzystając z bezpłatnych wyników wyszukiwania lub funkcji zaimplementowanych w witrynie, np. przekierowań lub tagów <link rel=alternate/canonical>. Pokrewne strony w innych organizacjach mogą być oznaczone jako alternatywne tylko wtedy, gdy są wyraźnie wskazane w kodzie Twojej witryny (za pomocą przekierowań lub tagów link).
  • Adres URL: adres URL służący do docierania do określonej treści w witrynie. Różne adresy URL mogą prowadzić do tej samej strony w witrynie.
  • Strona: dana strona internetowa, do której prowadzi co najmniej 1 adres URL. Strona może mieć różne wersje w zależności od platformy użytkownika (komórka, komputer, tablet itp.).
  • Wersja: pojedyncza odmiana strony, zaliczana zwykle do kategorii „urządzenia mobilne”, „komputery” lub „AMP” (chociaż strony AMP mogą mieć wersje na urządzenia mobilne i komputery). Każda wersja może mieć inny adres URL (example.com lub m.example.com) albo ten sam (jeśli zastosowano w witrynie dynamiczne wyświetlanie treści lub elastyczne projektowanie witryn, ten sam adres URL może prowadzić do wyświetlania różnych wersji tej samej strony) w zależności od konfiguracji witryny. Odmiany językowe nie są uznawane za różne wersje tylko za różne dokumenty.
  • Strona kanoniczna lub kanoniczny adres URL: adres URL, który Google uznaje za najbardziej reprezentatywny dla dokumentu. Google zawsze skanuje właśnie ten adres URL, ale od czasu do czasu skanuje też zduplikowane adresy URL.
  • Alternatywna/zduplikowana strona lub alternatywny/zduplikowany adres URL: adres URL dokumentu, który Google może czasami skanować. Google wyświetla takie adresy URL także wtedy, gdy pasują do użytkownika i żądania (np. w przypadku żądań wysyłanych z komputerów zamiast kanonicznego adresu URL dla urządzeń mobilnych wyświetlany będzie alternatywny adres URL dla użytkowników komputerów).
  • Witryna: termin używany zwykle jako synonim witryny internetowej (czyli zbioru stron internetowych), ale czasami może też oznaczać usługę w Search Console (chociaż usługa może niekiedy obejmować tylko część witryny). Witryna może zawierać subdomeny (a nawet organizacje, jeśli mają prawidłowo połączone strony AMP).

 Strony o tej samej treści w różnych językach są przechowywane w osobnych dokumentach, które odwołują się do siebie za pomocą tagów hreflang. Dlatego tak ważne jest stosowanie tagów hreflang do przetłumaczonych treści.

Wyświetlanie wyników

Gdy użytkownik wpisuje zapytanie, nasze komputery wyszukują w indeksie pasujące strony, a potem zwracają wyniki uznane za najtrafniejsze. Trafność jest określana na podstawie setek czynników – nieustannie pracujemy nad ulepszaniem naszych algorytmów. Wybierając wyniki i ustalając ich pozycję w rankingu, Google bierze pod uwagę przede wszystkim ich przydatność dla użytkownika, dlatego postaraj się, by Twoja strona szybko się ładowała i była dostosowana do urządzeń mobilnych.

Usprawnianie wyświetlania stron

  • Jeśli Twoja strona jest przeznaczona dla użytkowników w określonych lokalizacjach lub posługujących się konkretnymi językami, powiadom Google o swoich ustawieniach.
  • Upewnij się, że Twoja strona szybko się ładuje i jest dostosowana do urządzeń mobilnych.
  • Przestrzegaj wskazówek dla webmasterów, by uniknąć typowych błędów i poprawić pozycję witryny w rankingu.
  • Rozważ dodanie funkcji wyników wyszukiwania, np. kart przepisów kulinarnych lub kart artykułów.
  • Stosuj standard AMP, by strony ładowały się szybciej na urządzeniach mobilnych. Niektóre strony AMP mogą też być używane w dodatkowych funkcjach wyszukiwania, np. w karuzeli najważniejszych artykułów.
  • Algorytm Google podlega ciągłym usprawnieniom, dlatego nie zalecamy prób rozszyfrowywania go ani dostosowywania do niego stron. Po prostu skup się na tworzeniu treści, które będą miały wysoką jakość i będą przydatne dla użytkowników. Przestrzegaj też wskazówek dla webmasterów.

Jeszcze dłuższa wersja

Wersja zawierająca jeszcze więcej informacji o działaniu wyszukiwarki Google jest tutaj (znajdziesz tam też obrazy i filmy).

Czy to było pomocne?
Jak możemy ją poprawić?