Googlebot

Googlebot to ogólna nazwa robota indeksującego Google, określająca dwa różne typy robotów: robota komputerowego, który symuluje użytkownika na komputerze, oraz robota komórkowego, który symuluje użytkownika na urządzeniu mobilnym.

Twoja witryna zostanie prawdopodobnie zindeksowana przez oba Googleboty. Możesz zidentyfikować podtyp Googlebota, patrząc na ciąg znaków klienta użytkownika w żądaniu, jednak oba typy robotów podlegają temu samemu tokenowi produktu (tokenowi klienta użytkownika) w pliku robots.txt, dlatego plik ten nie może przekazywać informacji tylko komórkowemu lub tylko komputerowemu Googlebotowi.

Jeśli Twoja witryna została przekonwertowana do indeksowania zoptymalizowanego pod kątem urządzeń mobilnych w Google, większość żądań indeksowania Googlebota zostanie utworzonych przez robota komórkowego, a mniejszość – przez komputerowego. Jeśli Twoja witryna nie została jeszcze przekonwertowana, większość indeksowań zostanie utworzonych przez robota komputerowego. W obu przypadkach robot pomocniczy indeksuje tylko adresy URL, które zostały już zindeksowane przez robota głównego.

 

Jak Googlebot uzyskuje dostęp do Twojej witryny?

W większości przypadków Googlebot nie powinien odwiedzać witryny częściej niż średnio co kilka sekund. Jednak wskutek opóźnień odstępy te mogą się chwilowo nieco zwiększać.

Googlebot został zaprojektowany do działania jednocześnie na tysiącach komputerów, by zwiększyć wydajność i umożliwić skalowalność w miarę rozwoju sieci. Aby zmniejszyć wykorzystanie przepustowości, wiele z naszych robotów uruchamiamy na komputerach znajdujących się w pobliżu witryn, które mogą być przez nie indeksowane. Z tego względu w dziennikach udokumentowane mogą zostać wizyty z różnych komputerów zlokalizowanych pod adresem google.com, z których każdy zawiera informację o kliencie użytkownika Googlebot. Naszym celem jest zindeksowanie możliwie największej liczby stron w witrynie podczas każdych odwiedzin bez nadmiernego obciążania łączy serwera. Jeśli wysyłamy do Twojej witryny zbyt dużo żądań na sekundę, poproś o zmianę szybkości indeksowania.

Blokowanie Googlebotowi dostępu do treści witryny

Utrzymanie serwera internetowego w tajemnicy przez niepublikowanie do niego żadnych linków jest niemal niemożliwe. Na przykład, gdy na Twoim „tajnym” serwerze ktoś skorzysta z linku prowadzącego do innego serwera internetowego, Twój „tajny” URL może pojawić się w tagu z informacją o stronie odsyłającej i zostać zapisany i opublikowany przez ten drugi serwer internetowy w jego dzienniku strony odsyłającej. Sieć zawiera również wiele nieaktualnych i uszkodzonych linków. Gdy ktoś opublikuje nieprawidłowy link do Twojej witryny lub nie zaktualizuje linków, by odzwierciedlić zmiany na Twoim serwerze, Googlebot będzie próbował zindeksować taki nieprawidłowy link z Twojej witryny.

Jeśli chcesz uniemożliwić Googlebotowi skanowanie treści w Twojej witrynie, możesz to zrobić na kilka sposobów. Pamiętaj, że uniemożliwienie Googlebotowi skanowania strony, zablokowanie indeksowania strony oraz uniemożliwienie robotom i użytkownikom dostępu do strony to różne działania.

Weryfikowanie Googlebota

Wykorzystywany przez Googlebota ciąg znaków klienta użytkownika jest często fałszowany przez inne roboty – weź to pod uwagę, zanim go zablokujesz. Warto najpierw sprawdzić, czy to rzeczywiście Googlebot wysyła podejrzane żądanie. Aby się o tym przekonać, najlepiej jest przeprowadzić odwrotne wyszukiwanie DNS źródłowego adresu IP żądania.

Googlebot i inne uznane roboty wyszukiwarek przestrzegają instrukcji zawartych w pliku robots.txt, ale nie robią tego osoby o wątpliwej reputacji ani spamerzy. Google aktywnie walczy ze spamem. Jeśli w wynikach wyszukiwania Google zauważysz strony lub witryny zawierające spam, możesz je do nas zgłosić.

 

Czy to było pomocne?
Jak możemy ją poprawić?