Googlebot

A Googlebot a Google internetet feltérképező robotja. A feltérképezés az a folyamat, amelynek során a Googlebot megkeresi a Google indexébe felvehető új és frissített oldalakat.

Számítógépek egész hadát vetjük be az interneten található oldalak milliárdjainak beolvasásához (feltérképezéséhez). A Googlebot algoritmusok használatával működik, ami azt jelenti, hogy számítógépes programok határozzák meg, hogy mely webhelyeket milyen gyakran térképezzen fel a keresőrobot, illetve hogy az adott webhelyről hány oldalt olvasson be.

Hogyan éri el a Googlebot a webhelyet?

A legtöbb webhely esetében a Googlebot általában néhány másodperces gyakoriságnál többször nem kezdeményez hozzáférést a webhelyhez. Azonban rövid időszakokra a feltérképezési gyakoriság egy kicsit magasabbnak tűnhet a hálózati késedelmek miatt.

A Googlebotot úgy terveztük, hogy több gépre is ellátogathasson, és így az internet növekedésével javuljon a teljesítménye is. A sávszélesség kímélése érdekében sok robotot olyan számítógépeken futtatunk, amelyek közel vannak az éppen feltérképezett webhelyekhez. Ennélfogva a naplókban a google.com több számítógépéről érkező látogatások jelenhetnek meg, amelyek mindegyikénél a Googlebot a felhasználói ügynök. Célunk, hogy minden látogatás során a lehető legtöbb oldalt feltérképezzük a webhelyén, ugyanakkor ne vegyük túlságosan igénybe a sávszélességét. Módosítás kérése a feltérképezés gyakorisága tekintetében.

A webhelyen lévő tartalom letiltása a Googlebot elől

Majdhogynem lehetetlen úgy titokban tartani egy szervert, hogy nem tesz közzé rá mutató linkeket. Amint valaki követ egy linket az Ön „titkos” szerveréről egy másik szerverre, akkor a „titkos” URL megjelenhet a „referrer” címkében, és a másik szerver tárolhatja és közzéteheti azt „referrer” naplójában. Ugyanígy, az interneten számos elavult és nem működő link található. Amikor valaki közzétesz egy, az Ön webhelyére mutató hibás linket, vagy nem frissíti a linkeket, igazodva a szerveren történt változtatásokhoz, akkor a Googlebot egy helytelen linket akar majd letölteni az Ön webhelyéről.

Számos lehetőség áll rendelkezésére, ha szeretné megakadályozni, hogy a Googlebot feltérképezze a webhelyén található tartalmat. Felhívjuk figyelmét, hogy a következők eltérő tevékenységek: a Googlebot megakadályozása az oldal feltérképezésében, a Googlebot megakadályozása az oldal indexelésében, valamint annak megakadályozása, hogy az oldal mind a feltérképező robotok, mind a felhasználók számára hozzáférhetetlen legyen.

Probléma a spamelőkkel és más felhasználói ügynökökkel

A Googlebot által használt IP-címek időről időre változnak. A Googlebot felhasználóiügynök-karakterlánccal azonosítja magát, amely azonban hamisítható. A Googlebot általi hozzáférések meghatározásához ezért legmegfelelőbb fordított DNS-keresést alkalmazni.

A Googlebot és minden más megbízható keresőmotor tiszteletben tartja a robots.txt-ben megadott direktívákat, ám a spamelők és más rosszindulatú emberek nem. Spam jelentése a Google-nak.

A Google több más felhasználói ügynökkel is rendelkezik, ilyen például a Feedfetcher (user-agent Feedfetcher-Google). Mivel a Feedfetcher-kérések kifejezetten olyan, emberek által kezdeményezett műveletek, akik a hírcsatornát hozzáadták Google-kezdőlapjukhoz, nem pedig automatizált robotoktól származók, ezért a Feedfetcher nem veszi figyelembe a robots.txt utasításait. A Feedfetchert úgy tudja megakadályozni a webhely feltérképezésében, hogy a Feedfetcher-Google felhasználói ügynök számára 404, 410 vagy más hibát jelző állapotüzenetet ad meg a szerver beállításaiban. További információ a Feedfetcherről.

Hasznos volt ez a cikk?
Hogyan fejleszthetnénk?