Googlebot

Google के वेब क्रॉलर को आम शब्दों में Googlebot कहते हैं. आम तौर पर, Googlebot दो अलग-अलग तरह के क्रॉलर के लिए इस्तेमाल किया जाने वाला नाम है. इनमें एक डेस्कटॉप क्रॉलर है जो साइट के डेस्कटॉप वर्शन को क्रॉल करता है. वहीं, दूसरा मोबाइल क्रॉलर है जो साइट के डेस्कटॉप वर्शन को क्रॉल करता है.

Googlebot डेस्कटॉप और Googlebot मोबाइल, दोनों ही आपकी वेबसाइट को क्रॉल कर सकते हैं. क्रॉल करने के अनुरोध में दिए गए उपयोगकर्ता एजेंट स्ट्रिंग में देखकर आप Googlebot के प्रकार की पहचान कर सकते हैं. हालांकि, दोनों तरह के क्रॉलर, robots.txt में एक ही उत्पाद टोकन (उपयोगकर्ता एजेंट टोकन) के नियम का पालन करते हैं. इसलिए, robots.txt के इस्तेमाल से आप यह तय नहीं कर सकते कि Googlebot मोबाइल या Googlebot डेस्कटॉप में से कोई एक आपकी साइट को क्रॉल करे.

अगर Google पर आपकी साइट को मोबाइल-फ़र्स्ट में बदल दिया गया है, तो Googlebot से क्रॉल करने के ज़्यादातर अनुरोध मोबाइल क्रॉलर से किए जाएंगे. डेस्कटॉप क्रॉलर से कम ही अनुरोध किए जाएंगे. जो साइटें अभी तक मोबाइल-फ़र्स्ट में नहीं बदली गई हैं उन्हें ज़्यादातर डेस्कटॉप क्रॉलर से क्रॉल किया जाएगा. दोनों ही मामलों में, कम बार क्रॉल करने वाले क्रॉलर सिर्फ़ उन यूआरएल को क्रॉल करते हैं जिन्हें ज़्यादातर क्रॉलर पहले ही क्रॉल कर चुके हैं.

 

Googlebot आपकी साइट को कैसे एक्सेस करता है

ज़्यादातर साइटों के लिए, Googlebot को औसतन हर कुछ सेकंड में आपकी साइट को एक से ज़्यादा बार एक्सेस नहीं करना चाहिए. हालांकि, नेटवर्क की धीमी गति की वजह से कुछ समय के लिए, एक्सेस की दर थोड़ी बढ़ सकती है.

Googlebot को एक साथ हज़ारों मशीनों पर चलने के लिए बनाया गया ताकि वेब की पहुंच बढ़ने के साथ-साथ इसका प्रदर्शन बेहतर हो सके. इसके अलावा, बैंडविड्थ का इस्तेमाल कम करने के लिए, हम उन साइटों के आस-पास मौजूद मशीनों पर कई बार क्रॉलर चलाते हैं जिन्हें क्रॉल किया जा सकता है. इसलिए, आपके लॉग में google.com पर कई मशीनों के एक्सेस दिख सकते हैं जो सभी उपयोगकर्ता-एजेंट Googlebot के हों. हमारा मकसद आपके सर्वर के बैंडविड्थ पर ज़्यादा दबाव डाले बिना, हर विज़िट में आपकी साइट के ज़्यादा से ज़्यादा पेज क्रॉल करना है. अगर आपकी साइट को Google के क्रॉल वाले अनुरोध से तालमेल रखने में समस्या आ रही है, तो आप क्रॉलर रेट में बदलाव करने का अनुरोध कर सकते हैं.

Googlebot को आपकी साइट पर आने से रोकना

किसी वेब सर्वर को बिना लिंक बताए उसे गुप्त रखना करीब-करीब नामुमकिन है. उदाहरण के लिए, जैसे ही कोई आपके "गुप्त" सर्वर पर उपलब्ध लिंक का इस्तेमाल करते हुए दूसरे वेब सर्वर पर जाता है, तो उसे आपका "गुप्त" यूआरएल, सुझाए गए टैग में दिखाई दे सकता है. दूसरा वेब सर्वर इसे स्टोर कर सकता है और इसे अपने सुझाए गए लॉग में दिखा भी सकता है. इसी तरह, वेब में कई पुराने और आधे-अधूरे लिंक होते हैं. जब कोई व्यक्ति आपकी साइट पर किसी गलत लिंक को दिखाता है, या आपके सर्वर में हुए बदलाव दिखाने वाले लिंक को अपडेट नहीं कर पाता, तो Googlebot आपकी साइट के गलत लिंक को क्रॉल करने की कोशिश करेगा.

अगर आप Googlebot को अपनी साइट क्रॉल करने से रोकना चाहते हैं, तो इसके लिए आपके पास कई विकल्प हैं. Googlebot को किसी पेज को क्रॉल करने से रोकने, Googlebot को किसी पेज को इंडेक्स करने से रोकने और क्रॉलर या उपयोगकर्ता दोनों को किसी पेज का एक्सेस देने से रोकने के बीच का फ़र्क जानें.

Googlebot की पुष्टि करें

Googlebot को ब्लॉक करने से पहले, ध्यान दें कि Googlebot जिस उपयोगकर्ता-एजेंट स्ट्रिंग का इस्तेमाल करता है उसका अक्सर दूसरे क्रॉलर भी इस्तेमाल करते हैं. ये पता लगाना ज़रूरी है कि क्या ये अनुरोध Google से ही मिल रहे हैं. अनुरोध Google से ही मिला है, ये पता लगाने का सबसे अच्छा तरीका है कि अनुरोध के स्रोत IP पर रिवर्स डीएनएस लुकअप का इस्तेमाल करें.

Googlebot और सभी जाने-माने खोज इंजन बॉट robots.txt के दिशा-निर्देशों को मानते हैं लेकिन कुछ nogoodniks और स्पैम भेजने वाले इसे नहीं मानते. Google स्पैम करने वालों के खिलाफ़ कार्रवाई करता है; अगर आपको Google सर्च के परिणामों में स्पैम वाले पेज या साइटें दिखाई दें,तो आप Google से इन स्पैम की शिकायत कर सकते हैं.

 

क्या यह उपयोगी था?
हम उसे किस तरह बेहतर बना सकते हैं?