Googlebot

Google के दो तरह के वेब क्रॉलर को आम शब्दों में Googlebot कहा जाता है:

  • Googlebot स्मार्टफ़ोन: यह एक मोबाइल क्रॉलर है, जो किसी मोबाइल डिवाइस के उपयोगकर्ता की तरह काम करता है.
  • Googlebot डेस्कटॉप: यह एक डेस्कटॉप क्रॉलर है, जो डेस्कटॉप पर किसी उपयोगकर्ता की तरह काम करता है.

इसे देखकर Googlebot के सब-टाइप की पहचान की जा सकती है. इसके लिए एचटीटीपीuser-agent के अनुरोध देने वाले हेडर देखें. हालांकि, दोनों तरह के क्रॉलर, robots.txt में एक ही प्रॉडक्ट के टोकन (उपयोगकर्ता एजेंट टोकन) के नियम का पालन करते हैं. इसलिए, robots.txt के इस्तेमाल से यह तय नहीं किया जा सकता कि Googlebot स्मार्टफ़ोन या Googlebot डेस्कटॉप में से कोई एक आपकी साइट को क्रॉल करे.

ज़्यादातर साइटों के लिए Google, मुख्य तौर पर कॉन्टेंट का मोबाइल वर्शन इंडेक्स करता है. Googlebot से क्रॉल करने के ज़्यादातर अनुरोध, मोबाइल क्रॉलर से किए जाएंगे. डेस्कटॉप क्रॉलर से कम ही अनुरोध किए जाएंगे.

Googlebot आपकी साइट को कैसे ऐक्सेस करता है

ज़्यादातर साइटों के लिए, Googlebot को औसतन हर कुछ सेकंड में आपकी साइट को एक से ज़्यादा बार ऐक्सेस नहीं करना चाहिए. हालांकि, नेटवर्क की धीमी रफ़्तार की वजह से कुछ समय के लिए, ऐक्सेस की दर थोड़ी बढ़ सकती है.

Googlebot को एक साथ हज़ारों मशीनों पर चलने के लिए बनाया गया है, ताकि वेब की पहुंच बढ़ने के साथ-साथ इसकी परफ़ॉर्मेंस बेहतर हो सके. इसके अलावा, बैंडविड्थ का इस्तेमाल कम करने के लिए, हम उन साइटों के आस-पास मौजूद मशीनों पर कई बार क्रॉलर चलाते हैं जिन्हें क्रॉल किया जा सकता है. इसलिए, आपके लॉग में कई आईपी पताें से साइटों पर विज़िट करने की जानकारी दिख सकती है. इन सभी का उपयोगकर्ता एजेंट Googlebot है. हमारा मकसद, आपके सर्वर पर ज़्यादा दबाव डाले बिना, हर विज़िट में आपकी साइट के ज़्यादा से ज़्यादा पेज क्रॉल करना है. अगर आपकी साइट को Google के क्रॉल वाले अनुरोध से तालमेल रखने में समस्या आ रही है, तो क्रॉल दर को कम करने का अनुरोध किया जा सकता है.

Googlebot मुख्य तौर पर अमेरिका में आईपी पतों से क्रॉल करता है. अगर Googlebot को पता चलता है कि कोई साइट अमेरिका के अनुरोधों को ब्लॉक कर रही है, तो वह अन्य देशों में मौजूद आईपी पताें से क्रॉल करने की कोशिश कर सकता है. Googlebot, आईपी पतों की जिन सूची का इस्तेमाल करते हैं वे JSON फ़ॉर्मैट में उपलब्ध हैं.

Googlebot, साइट को एचटीटीपी/1.1 पर क्रॉल करता है. साथ ही, अगर साइट पर एचटीटीपी/2 काम करता है, तो वह इसे भी क्रॉल करता है. आपकी साइट के किस प्रोटोकॉल वर्शन का इस्तेमाल करके क्रॉल किया गया है, इससे साइट की रैंकिंग पर कोई असर नहीं पड़ता. हालांकि, एचटीटीपी/2 का इस्तेमाल करके, क्रॉल करने से आपकी साइट और Googlebot के लिए कंप्यूटिंग रिसॉर्स (जैसे, सीपीयू, रैम) को बचाया जा सकता है.
एचटीटीपी/2 पर क्रॉल करने से ऑप्ट आउट करने के लिए, आप अपनी साइट को होस्ट करने वाले सर्वर को निर्देश दें कि जब Googlebot आपकी साइट को एचटीटीपी/2 पर क्रॉल करने की कोशिश करे, तब वह 421 एचटीटीपी स्टेटस कोड दिखाए. अगर यह करना मुमकिन नहीं है, तो आपके पास Googlebot टीम को मैसेज भेजने का विकल्प भी है (हालांकि, यह स्थायी समाधान नहीं है).

Googlebot, एचटीएमएल फ़ाइल के पहले 15 एमबी के कॉन्टेंट या काम करने वाली टेक्स्ट फ़ाइल को क्रॉल कर सकता है. एचटीएमएल में बताए गए हर संसाधन, जैसे कि सीएसएस और JavaScript को अलग-अलग फ़ेच किया जाता है. साथ ही, किसी भी फ़ेच के लिए, फ़ाइल का साइज़ एक जैसा होता है. फ़ाइल के पहले 15 एमबी के कॉन्टेंट के बाद, Googlebot क्रॉल करना बंद कर देता है और इंडेक्स करने के लिए, सिर्फ़ पहले 15 एमबी के कॉन्टेंट पर ध्यान देता है. फ़ाइल के साइज़ की सीमा, कंप्रेस नहीं किए गए डेटा पर लागू होती है. अन्य Google क्रॉलर, जैसे कि Googlebot वीडियो और Googlebot इमेज, दोनों की अलग-अलग सीमाएं हो सकती हैं.

अमेरिका में आईपी पतों से क्रॉल करते समय, Googlebot का टाइमज़ोन पैसिफ़िक टाइम होता है.

Googlebot को आपकी साइट पर आने से रोकना

किसी साइट के लिंक को बिना लिंक बताए उसे गुप्त रखना करीब-करीब नामुमकिन है. उदाहरण के लिए, जैसे ही कोई व्यक्ति आपकी "सीक्रेट" साइट पर उपलब्ध लिंक का इस्तेमाल करते हुए दूसरी साइट पर जाता है, तो उसे आपका "सीक्रेट" यूआरएल, सुझाए गए टैग में दिखाई दे सकता है. साथ ही, दूसरी साइट, इसे स्टोर कर सकती है और इसे अपने सुझाए गए लॉग में दिखा भी सकती है.

अगर आपको Googlebot को, अपनी साइट के कॉन्टेंट को क्रॉल करने से रोकना है, तो इसके लिए आपके पास कई विकल्प हैं. Googlebot को किसी पेज को क्रॉल करने से रोकना, इंडेक्स करने से रोकना, और क्रॉलर या लोगों के लिए, किसी पेज का ऐक्सेस रोकना, इन तीनों के बीच का फ़र्क़ जानें.

Googlebot की पुष्टि करना

Googlebot को ब्लॉक करने से पहले, ध्यान रखें कि Googlebot, एचटीटीपी user-agent अनुरोध के जिस हेडर का इस्तेमाल करता है उसका इस्तेमाल अक्सर दूसरे क्रॉलर धोखा देने के लिए करते हैं. यह पता लगाना ज़रूरी है कि क्या संदिग्ध अनुरोध वाकई Google से ही मिला है. कोई अनुरोध Googlebot से ही मिला है, इसकी पुष्टि करने का सबसे अच्छा तरीका यह है कि आप अनुरोध के सोर्स आईपी पते पर रिवर्स डीएनएस लुकअप का इस्तेमाल करें. इसके अलावा, सोर्स आईपी पते को Googlebot के आईपी पते की रेंज से मैच करके भी, इसकी पुष्टि की जा सकती है.