Google क्रॉलर (उपयोगकर्ता एजेंट) की खास जानकारी
एक वेबपेज से दूसरे वेबपेज के लिंक पर जाकर, अपने-आप वेबसाइटें खोजने और स्कैन करने वाले किसी प्रोग्राम को "क्रॉलर" कहा जाता है. जैसे, रोबोट या स्पाइडर. Google के मुख्य क्रॉलर को Googlebot कहा जाता है. इस टेबल में, Google के उन आम क्रॉलर की जानकारी दी गई है जिन्हें आप अपने रेफ़रलकर्ता लॉग में देख सकते हैं. साथ ही, यह जानकारी भी दी गई है कि उन्हें robots.txt, robots मेटा टैग, और X-Robots-Tag के एचटीटीपी निर्देशों में कैसे दिखाया जाना चाहिए.
नीचे दिए गए टेबल में, उन क्रॉलर को दिखाया गया है जिनका इस्तेमाल अलग-अलग उत्पाद और सेवाएं Google पर करते हैं:
- उपयोगकर्ता एजेंट टोकन का इस्तेमाल
उपयोगकर्ता-एजेंट में किया जाता है:
अपनी साइट के लिए क्रॉल के नियम तय करते समय robots.txt को सही क्रॉलर के साथ रखें. जैसा कि टेबल में दिखाया गया है, कुछ क्रॉलर के पास एक से ज़्यादा टोकन हैं. आपको यह नियम लागू करने के लिए, एक ही क्रॉलर टोकन का मिलान करना होगा. हालांकि, यह सूची पूरी नहीं है, लेकिन इसमें आपकी वेबसाइट पर दिखाई देने वाले ज़्यादातर क्रॉलर के नाम मौजूद हैं. - उपयोगकर्ता एजेंट की पूरी स्ट्रिंग में क्रॉलर का पूरा ब्यौरा होता है. यह स्ट्रिंग, अनुरोध और आपके वेब लॉग में दिखाई देती है.
क्रॉलर | उपयोगकर्ता एजेंट टोकन (उत्पाद टोकन) | उपयोगकर्ता एजेंट की पूरी स्ट्रिंग |
---|---|---|
APIs-Google |
|
APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html) |
AdSense |
|
Mediapartners-Google |
(Android वेब पेज की विज्ञापन गुणवत्ता की जांच करता है) |
|
Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, जैसे कि Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) |
(iPhone वेब पेज की विज्ञापन गुणवत्ता की जांच करता है) |
|
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, जैसे कि Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) |
(डेस्कटॉप वेब पेज की विज्ञापन गुणवत्ता की जांच करता है) |
|
AdsBot-Google (+http://www.google.com/adsbot.html ) |
Googlebot इमेज |
|
Googlebot-इमेज/1.0 |
Googlebot समाचार |
|
Googlebot-समाचार |
Googlebot वीडियो |
|
Googlebot-वीडियो/1.0 |
Googlebot (डेस्कटॉप) |
|
|
Googlebot (स्मार्टफ़ोन) |
|
|
मोबाइल AdSense |
|
(अलग-अलग तरह के मोबाइल डिवाइस) (इनके साथ काम करता है; Mediapartners-Google/2.1 ; +http://www.google.com/bot.html ) |
(Android ऐप्लिकेशन पेज की विज्ञापन गुणवत्ता की जांच करता है. AdsBot-Google robots नियमों का पालन करता है.) |
|
AdsBot-Google-मोबाइल-ऐप्लिकेशन |
robots.txt के नियमों का पालन नहीं करता - इसकी वजह यहां जानें |
|
|
robots.txt के नियमों का पालन नहीं करता - इसकी वजह यहां जानें |
|
|
वेब पर डूप्लेक्स |
* उपयोगकर्ता-एजेंट वाइल्डकार्ड को नज़रअंदाज़ कर सकता है - इसकी वजह यहां जानें |
Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, जैसे कि Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36 |
Google फ़ेविकोन (कई तरह की सेवा के लिए फ़ेविकोन को डाउनलोड करता है) |
उपयोगकर्ताओं के किए गए अनुरोधों के लिए, robots.txt नियमों को नज़रअंदाज़ करता है
|
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, जैसे कि Gecko) Chrome/49.0.2623.75 Safari/537.36 Google फ़ेविकोन |
आपको टेबल की उपयोगकर्ता एजेंट स्ट्रिंग में जहां भी Chrome/W.X.Y.Z स्ट्रिंग दिखाई देती है वहां W.X.Y.Z असल में प्लेसहोल्डर होता है. इससे, उस उपयोगकर्ता एजेंट के इस्तेमाल किए जाने वाले Chrome ब्राउज़र के वर्शन का पता चलता है: उदाहरण के लिए, 41.0.2272.96. वर्शन का नंबर, Googlebot के इस्तेमाल किए गए, क्रोमियम के रिलीज़ हुए नए वर्शन से मिलान करने के लिए, समय के साथ बढ़ेगा.
इस पैटर्न वाले उपयोगकर्ता एजेंट के लिए, अपने लॉग खोजते या सर्वर को फ़िल्टर करते समय, आपको अपना सटीक वर्शन नंबर देने के बजाय वाइल्डकार्ड का इस्तेमाल करना चाहिए.
robots.txt में उपयोगकर्ता एजेंट
robots.txt फ़ाइल में कई उपयोगकर्ता-एजेंट की पहचान की जाती है, लेकिन Google खास तौर पर दिखाए गए एजेंट को फ़ॉलो करता है. अगर आप चाहते हैं कि Google आपके पूरे पेजों को क्रॉल कर पाए, तो आपको किसी भी robots.txt की बिल्कुल भी ज़रूरत नहीं है. अगर आप Google के सभी क्रॉलर को अपनी कुछ सामग्री एक्सेस करने की मंज़ूरी देना चाहते हैं या उन्हें ऐसा करने से रोकना चाहते हैं, तो आप Googlebot को उपयोगकर्ता-एजेंट के तौर पर दिखाकर ऐसा कर सकते हैं. उदाहरण के लिए, अगर आप चाहते हैं कि आपके सभी पेज Google खोज में दिखाई दें और अगर आप AdSense विज्ञापनों को अपने पेजों पर दिखाना चाहते हैं, तो आपको किसी robots.txt फ़ाइल की ज़रूरत नहीं है. इसी तरह, अगर आप कुछ पेजों को Google से पूरी तरह रोकना चाहते हैं, तो उपयोगकर्ता-एजेंट Googlebot पर रोक लगाने से Google के अन्य सभी उपयोगकर्ता-एजेंट पर भी रोक लग जाएगी.
अगर आप ज़्यादा नियंत्रण चाहते हैं, तो आप अपनी ज़रूरत के हिसाब से खास कार्रवाई कर सकते हैं. उदाहरण के लिए, हो सकता है आप चाहें कि आपके सभी पेज 'Google सर्च' में दिखाई दें, लेकिन यह नहीं चाहते कि आपकी निजी डायरेक्ट्री के चित्रों को क्रॉल किया जाए. इस मामले में, उपयोगकर्ता-एजेंट Googlebot-इमेज को अपनी /personal directory की फ़ाइलें क्रॉल करने की मंज़ूरी नहीं देने के लिए (Googlebot को सभी फ़ाइलों को क्रॉल करने की मंज़ूरी देते हुए) robots.txt का इस्तेमाल इस तरह करें:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personalएक और उदाहरण लेते हैं, मान लीजिए कि आप अपने सभी पेजों पर विज्ञापन चाहते हैं, लेकिन आप नहीं चाहते कि वे पेज Google खोज में दिखाई दें. यहां, आप Googlebot पर रोक लगाएंगे, लेकिन Mediapartners-Google को मंज़ूरी देंगे, इस तरह से:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
रोबोट मेटा टैग में उपयोगकर्ता एजेंट
कुछ पेज अलग-अलग क्रॉलर से जुड़े डायरेक्टिव बताने के लिए एक से ज़्यादा रोबोट meta
टैग का इस्तेमाल करते हैं, इस तरह से:
<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">
इस मामले में Google, नामंज़ूरी वाले सभी निर्देशों का इस्तेमाल करेगा और Googlebot, noindex
और nofollow दोनों निर्देशों का पालन करेगा. उन तरीकों को नियंत्रित करने के बारे में ज़्यादा जानकारी जिनकी मदद से Google, आपकी साइट को क्रॉल और इंडेक्स करता है.