Wyszukiwarka
Wyczyść wyszukiwanie
Zamknij wyszukiwanie
Aplikacje Google
Menu główne
true

Googlebot

Googlebot to robot Google, który indeksuje sieć (czasami jest również nazywany „pająkiem”). Indeksowanie to proces, podczas którego Googlebot wykrywa nowe i zaktualizowane strony, by dodać je do indeksu Google.

Do pobierania („indeksowania”) miliardów stron internetowych używamy ogromnej liczby komputerów. Googlebot stosuje proces algorytmiczny: programy komputerowe decydują o tym, które witryny są indeksowane, jak często ma się to odbywać oraz ile stron ma być pobieranych z każdej witryny.

Wykonywany przez Googlebota proces indeksowania rozpoczyna się od listy adresów URL stron internetowych wygenerowanej na podstawie wyników wcześniejszego indeksowania i uzupełnionej o dane z map witryn dostarczone przez webmasterów. Gdy Googlebot odwiedza witryny, na każdej ze stron wykrywa linki (atrybuty SRC oraz HREF) i dodaje je do listy stron, które należy zindeksować. Nowe witryny, zmiany w istniejących witrynach oraz nieaktualne linki są odnotowywane i używane do aktualizacji indeksu Google.

Dla webmasterów: Googlebot a Twoja witryna

Jak Googlebot uzyskuje dostęp do Twojej witryny?

W większości przypadków Googlebot nie powinien odwiedzać witryny częściej niż średnio co kilka sekund. Jednak wskutek opóźnień sieciowych odstępy te mogą się chwilowo nieco zwiększać.

Googlebot został zaprojektowany do rozmieszczania treści na kilku komputerach, by zwiększyć jego wydajność i umożliwić skalowalność w miarę rozwoju sieci. Aby zmniejszyć wykorzystanie przepustowości, wiele z naszych robotów uruchamiamy na komputerach znajdujących się w pobliżu miejsc, które są indeksowane w sieci. Z tego względu w dziennikach udokumentowane mogą zostać wizyty z różnych komputerów zlokalizowanych pod adresem google.com, z których każdy zawiera informację o kliencie użytkownika Googlebot. Naszym celem jest zindeksowanie możliwie największej liczby stron w witrynie podczas każdych odwiedzin bez nadmiernego obciążania łączy serwera. Poproś o zmianę szybkości indeksowania.

Blokowanie Googlebotowi dostępu do treści witryny

Utrzymanie serwera internetowego w tajemnicy przez niepublikowanie do niego żadnych linków jest niemal niemożliwe. Gdy na Twoim „tajnym” serwerze ktoś skorzysta z linku prowadzącego do innego serwera internetowego, Twój „tajny” URL może pojawić się w tagu z informacją o stronie przekierowującej i zostać zapisany i opublikowany przez ten drugi serwer internetowy w jego dzienniku przekierowań. Sieć zawiera również wiele nieaktualnych i uszkodzonych linków. Gdy ktoś opublikuje nieprawidłowy link do Twojej witryny lub nie zaktualizuje linków, by odzwierciedlić zmiany na Twoim serwerze, Googlebot będzie próbował pobrać taki nieprawidłowy link z Twojej witryny.

Jeśli chcesz uniemożliwić Googlebotowi indeksowanie treści w Twojej witrynie, masz na to wiele sposobów, w tym również skorzystanie z pliku robots.txt, aby zablokować dostęp do plików i katalogów na swoim serwerze.

Między utworzeniem pliku robots.txt a odnotowaniem tej zmiany przez Googlebota może wystąpić drobne opóźnienie. Jeśli Googlebot wciąż indeksuje treść zablokowaną w pliku robots.txt, sprawdź, czy plik ten znajduje się we właściwej lokalizacji. Musi się on znajdować w katalogu głównym serwera, np. www.example.com/robots.txt. Plik umieszczony w podkatalogu nie będzie działać.

Jeśli chcesz po prostu uniknąć komunikatów o błędzie typu „nie znaleziono pliku” w dzienniku serwera internetowego, możesz utworzyć pusty plik o nazwie robots.txt. Jeśli chcesz uniemożliwić Googlebotowi odwiedzanie linków dostępnych na stronie Twojej witryny, możesz skorzystać z metatagu nofollow. Aby uniemożliwić Googlebotowi odwiedzenie linku, dodaj do niego atrybut rel="nofollow".

Oto kilka dodatkowych wskazówek:

  • Sprawdź, czy Twój plik robots.txt działa zgodnie z oczekiwaniami. Narzędzie Tester pliku robots.txt na stronie Zablokowane adresy URL pozwala dokładnie sprawdzić, jak Googlebot interpretuje zawartość pliku robots.txt. Klient użytkownika Google to po prostu Googlebot.
  • Narzędzie Pobierz jako Google w Search Console pomaga dokładnie zrozumieć, jak Googlebot widzi Twoją witrynę. Może to być bardzo przydatne przy rozwiązywaniu problemów z treścią witryny lub jej widocznością w wynikach wyszukiwania.

Zapewnianie możliwości zindeksowania witryny

Googlebot odkrywa witryny dzięki linkom prowadzącym od strony do strony. Strona Błędy indeksowania w Search Console zawiera listę problemów znalezionych przez Googlebota podczas indeksowania witryny. Zalecamy regularne przeglądanie tych błędów indeksowania, co pozwoli ujawniać ewentualne problemy z witryną.

Jeśli plik robots.txt działa w oczekiwany sposób, ale w witrynie nie ma ruchu, tutaj znajdziesz kilka możliwych powodów, dla których Twoje treści mają słabą pozycję w wynikach wyszukiwania.

Problemy ze spamerami i inne nagłówki klienta użytkownika

Adres IP używany przez Googlebota od czasu do czasu ulega zmianie. Wizyty Googlebota najlepiej jest identyfikować przy użyciu nagłówka klienta użytkownika (Googlebot). To, czy robot uzyskujący dostęp do Twojego serwera jest w rzeczywistości Googlebotem, możesz zweryfikować, korzystając ze zwrotnego wyszukiwania DNS.

Googlebot i inne uznane roboty wyszukiwarek przestrzegają instrukcji zawartych w pliku robots.txt, ale nie robią tego osoby o wątpliwej reputacji i spamerzy. Zgłoś spam do Google.

Google obejmuje również kilka innych nagłówków klienta użytkownika, w tym moduł pobierania kanałów (nagłówek: Feedfetcher-Google). Ponieważ żądania modułu pobierania kanałów są wynikiem wyraźnego działania użytkowników, którzy dodali kanały do swojej strony głównej Google, i nie pochodzą od zautomatyzowanych robotów, moduł pobierania kanałów nie przestrzega instrukcji w pliku robots.txt. Aby zapobiec indeksowaniu swojej witryny przez moduł pobierania kanałów, skonfiguruj serwer tak, aby zwracał błąd 404, 410 lub podobny dla nagłówków klienta użytkownika Feedfetcher-Google. Dowiedz się więcej o module pobierania kanałów.

Czy ten artykuł był pomocny?
Jak możemy ją poprawić?