Googlebot

A Googlebot a Google internetet feltérképező robotja. A feltérképezés az a folyamat, amelynek során a Googlebot megkeresi a Google indexébe felvehető új és frissített oldalakat.

Számítógépek egész hadát vetjük be az interneten található oldalak milliárdjainak beolvasásához (feltérképezéséhez). A Googlebot algoritmusok használatával működik, ami azt jelenti, hogy számítógépes programok határozzák meg, hogy mely webhelyeket milyen gyakran térképezzen fel a keresőrobot, illetve hogy az adott webhelyről hány oldalt olvasson be.

A Googlebot a feltérképezési folyamatot a korábbi feltérképezések során talált weboldalak URL-címeivel, valamint a webmesterektől kapott webhelytérképekkel kezdi. A Googlebot végiglátogatja ezeket a webhelyeket, és az oldalakon talált linkeket (SRC és HREF) felveszi a feltérképezésre váró oldalak listájára. Ezután megkeresi az új és a megváltozott webhelyeket, valamint az inaktív linkeket, majd ezek alapján frissíti a Google indexét.

Webmestereknek: A Googlebot és a webhelyek

Hogyan éri el a Googlebot a webhelyet?

A legtöbb webhely esetében a Googlebot általában néhány másodperces gyakoriságnál többször nem kezdeményez hozzáférést a webhelyhez. Azonban rövid időszakokra a feltérképezési gyakoriság egy kicsit magasabbnak tűnhet a hálózati késedelmek miatt.

A Googlebotot úgy terveztük, hogy több gépre is ellátogathasson, és így az internet növekedésével javuljon a teljesítménye is. A sávszélesség kímélése érdekében sok robotot olyan számítógépeken futtatunk, amelyek közel vannak az éppen feltérképezett webhelyekhez. Ennélfogva a naplókban google.com több számítógépéről érkező látogatások jelenhetnek meg, amelyek mindegyikénél a Googlebot a felhasználói ügynök. Célunk, hogy minden látogatás során a lehető legtöbb oldalt feltérképezzük a webhelyén, ugyanakkor ne vegyük túlságosan igénybe a sávszélességét. Módosítás kérése a feltérképezés gyakorisága tekintetében.

A webhelyen lévő tartalom letiltása a Googlebot elől

Majdhogynem lehetetlen úgy titokban tartani egy szervert, hogy nem tesz közzé rá mutató linkeket. Amint valaki követ egy linket az Ön „titkos” szerveréről egy másik szerverre, akkor a „titkos” URL megjelenhet a „referrer” címkében, és a másik szerver tárolhatja és közzéteheti azt „referrer” naplójában. Ugyanígy, az interneten számos elavult és nem működő link található. Amikor valaki közzétesz egy, az Ön webhelyére mutató hibás linket, vagy nem frissíti a linkeket, igazodva a szerveren történt változtatásokhoz, akkor a Googlebot egy helytelen linket akar majd letölteni az Ön webhelyéről.

Amennyiben szeretné megakadályozni a webhelyén lévő tartalom feltérképezését, több lehetősége is van, például a robots.txt használata, amellyel letilthatja a szerveren levő fájlok és könyvtárak elérését.

Miután létrehozta a robots.txt fájlt, elképzelhető egy kis késés, mielőtt a Googlebot észreveszi a változtatást. Ha a Googlebot továbbra is feltérképezi a robots.txt-ben letiltott tartalmat, ellenőrizze, hogy jó helyre tette-e a fájlt. A robots.txt-nek a szerver legfelső szintű könyvtárában kell lennie (pl. www.example.com/robots.txt), alkönyvtárba téve nem befolyásol semmit.

Ha csak a „fájl nem található” hibaüzeneteket szeretné elkerülni a szervernaplóban, létrehozhat egy üres fájlt is robots.txt néven. Ha meg szeretné akadályozni, hogy a Googlebot kövessen bármilyen linket webhelyének oldalain, használhatja a nofollow metataget. Ha meg szeretné akadályozni, hogy a Googlebot egy egyedi linket kövessen, adja hozzá a rel="nofollow" attribútumot magához a linkhez.

Íme néhány további tanács:

  • A robots.txt megfelelő működésének tesztelése. A Letiltott URL-ek oldalon található robots.txt fájlokat elemző eszköz segítségével megtekintheti, hogy a Googlebot pontosan miként értelmezi a robots.txt fájl tartalmát. A Google felhasználói ügynöke (nem túl meglepő módon) a Googlebot.
  • A Search Console-ban található Megtekintés Google-ként eszköz segítségével pontosan láthatja, hogyan jelenik meg a webhely a Googlebot számára. Ez rendkívül hasznos lehet a webhely tartalmával kapcsolatos hibák, illetve a webhely keresési eredményekben való felfedezhetőségével kapcsolatos problémák elhárítása során.

A webhely feltérképezhetősége

A Googlebot a webhelyeket a linkek oldalról oldalra történő követésével térképezi fel. A Search Console-ban lévő Feltérképezési hibák oldal felsorolja a Googlebot által a webhely feltérképezése során talált problémákat. A webhellyel kapcsolatos problémák felderítése érdekében javasoljuk ezeknek a hibáknak a rendszeres ellenőrzését.

Arra az esetre, ha a robots.txt megfelelően működik, ám a webhelyen nincs forgalom, leírtunk néhány lehetséges okot, amiért a webhely rosszul teljesíthet a keresések során.

Probléma a spamelőkkel és más felhasználói ügynökökkel

A Googlebot által használt IP-címek időről időre változnak. A Googlebot általi hozzáférések meghatározásához a legjobb, ha a keresőrobotot, vagyis a felhasználói ügynököt (Googlebot) használja. Ellenőrizheti, hogy a szerveréhez hozzáférő robot valóban a Googlebot-e – a fordított DNS-lekérés módszerével.

A Googlebot és minden más megbízható keresőmotor tiszteletben tartja a robots.txt-ben megadott direktívákat, ám a spamelők és más rosszindulatú emberek nem. Spam jelentése a Google-nak.

A Google több más felhasználói ügynökkel is rendelkezik, ilyen például a Feedfetcher (user-agent Feedfetcher-Google). Mivel a Feedfetcher-kérések kifejezetten olyan, emberek által kezdeményezett műveletek, akik a hírcsatornát hozzáadták Google-kezdőlapjukhoz, nem pedig automatizált robotoktól származók, ezért a Feedfetcher nem veszi figyelembe a robots.txt utasításait. A Feedfetchert úgy tudja megakadályozni a webhely feltérképezésében, hogy a Feedfetcher-Google felhasználói ügynök számára 404, 410 vagy más hibát jelző állapotüzenetet ad meg a szerver beállításaiban. További információk a Feedfetcherről.

Hasznos volt ez a cikk?
Hogyan fejleszthetnénk?