robots.txt के बारे में जानकारी

robots.txt के बारे में

robots.txt फ़ाइलों की बुनियादी बातें: वे क्या हैं और उन्हें इस्तेमाल करने का तरीका

robots.txt फ़ाइल क्या हाेती है?

robots.txt फ़ाइल के ज़रिए सर्च इंजन के क्रॉलर काे यह जानकारी मिलती है कि क्रॉलर आपकी साइट के किन पेजाें या फ़ाइलाें काे क्रॉल करने का अनुरोध कर सकता है अाैर किन पेजों काे क्रॉल करने का अनुरोध नहीं कर सकता. मुख्य रूप से इसका इस्तेमाल इसलिए किया जाता है, ताकि आपकी साइट को क्रॉल करने के अनुराेधाें काे कम किया जा सके. इसका इस्तेमाल इसलिए नहीं किया जाता कि किसी वेब पेज को क्रॉल करने से Google को रोका जाए. अगर आप चाहते हैं कि Google किसी वेबपेज काे क्रॉल न करे, ताे आपको noindex डायरेक्टिव का इस्तेमाल करना चाहिए, या अपने पेज को पासवर्ड से सुरक्षित रखना चाहिए.

robots.txt फ़ाइल किसलिए इस्तेमाल की जाती है?

robots.txt का इस्तेमाल मुख्य रूप से आपकी साइट पर क्रॉलर के ट्रैफ़िक को प्रबंधित करने के लिए किया जाता है. आम तौर पर, फ़ाइल के प्रकार के आधार पर Google से पेज काे क्रॉल या इंडेक्स न कराने के लिए भी ऐसा किया जाता है:

पेज का प्रकार ट्रैफ़िक काे प्रबंधित किया है Google से छिपाता है जानकारी
वेब पेज

वेब पेजाें (एटीएमल, पीडीएफ़ या दूसरे बिना किसी मीडिया वाले पेज के ऐसे फ़ॉर्मैट, जिन्हें Google क्रॉल कर सकता है) उनके लिए robots.txt का इस्तेमाल किया जा सकता है. ऐसा करके क्रॉलर के ट्रैफ़िक को नियंत्रित किया जा सकता है. ऐसा तब किया जा सकता है, जब अापकाे लगे कि Google के क्रॉल करने के अनुराेधाें से आपके सर्वर पर लोड बढ़ जाएगा. साथ ही, अापकी साइट के एक जैसे या गैर-ज़रूरी पेजाें काे क्रॉल करने में लगने वाले समय काे बचाने के लिए भी अाप ऐसा कर सकते हैं.

अपने वेब पेजों को 'Google सर्च' के नतीजों से छिपाने के लिए आपको robots.txt का इस्तेमाल नहीं करना चाहिए. ऐसा इसलिए है, क्योंकि अगर किसी दूसरे पेज में ज़्यादा जानकारी के साथ अापके पेज का लिंक दिया जाता है, ताे अापके पेज पर जाए बिना भी उसे इंडेक्स किया जा सकता है. अगर आप अपना पेज खोज नतीजों में दिखाना नहीं चाहते हैं, तो पासवर्ड सुरक्षा या noindex के डायरेक्टिव जैसे तरीकों का इस्तेमाल करें.

अगर आपके वेब पेज पर robots.txt फ़ाइल के ज़रिए राेक लगाई गई है, तो भी वह खोज नतीजाें में दिखाई दे सकता है. लेकिन, खोज नतीजाें में पेज की काेई जानकारी नहीं हाेगी और यह कुछ इस तरह दिखाई देगा. वेब पेज में मोजूद इमेज फ़ाइलें, वीडियो फ़ाइलें, पीडीएफ़ और बिना एचटीएमएल वाली दूसरी फ़ाइलें दिखाई नहीं जाएंगी. अगर आपको अपने पेज के लिए ऐसा खोज नतीजा दिखाई देता है और आप इसे ठीक करना चाहते हैं, तो पेज पर राेक लगाने वाली robots.txt फ़ाइल को हटा दें. अगर आप अपने पेज को खोज नतीजाें से पूरी तरह छिपाना चाहते हैं, तो दूसरे तरीके का इस्तेमाल करें.

मीडिया फ़ाइल

क्रॉल करने के ट्रैफ़िक को प्रबंधित करने अाैर इमेज, वीडियो और ऑडियो फ़ाइलों को Google के खोज नतीजाें में दिखाने से रोकने के लिए robots.txt का इस्तेमाल करें. (ध्यान दें, इससे दूसरे पेजाें या उपयोगकर्ताओं काे आपकी इमेज/वीडियो/ऑडियो फ़ाइल का लिंक इस्तेमाल करने से नहीं रोका जाएगा.)

संसाधन फ़ाइल

अगर आपको लगता है कि गैर-ज़रूरी इमेज, स्क्रिप्ट या स्टाइल फ़ाइलों जैसे संसाधनाें के बिना पेज को लोड करने से पेज पर कोई खास असर नहीं पड़ेगा, तो आप इन संसाधनों पर रोक लगाने के लिए robots.txt इस्तेमाल कर सकते हैं. हालांकि, अगर इन संसाधनों के बिना Google के क्रॉलर को यह पेज समझने में मुश्किल होती है, तो आपको उन पर रोक नहीं लगानी चाहिए. इस तरह की रोक लगाने से Google को उन पेजों की सही तरह से जाँच करने में परेशानी होगी, जो ऐसे संसाधनों से डेटा लेते हैं.

मैं साइट होस्ट करने वाली कंपनी की सेवा का इस्तेमाल करता/करती हूं

अगर आप साइट होस्ट करने वाली WIX, Drupal या Blogger जैसी किसी कंपनी की सेवा इस्तेमाल करते हैं, तो शायद आपको अपनी robots.txt फ़ाइल में सीधे तौर पर बदलाव करने की ज़रूरत न हो (या आप शायद बदलाव न कर सकते हाें). इसके बजाय, साइट को होस्ट करने वाली सेवा पेज की सेटिंग या दूसरे तरीकाें का इस्तेमाल करके सर्च इंजन काे यह बता सकती है कि आपका पेज क्रॉल करना है या नहीं.

यह देखने के लिए कि क्या Google ने आपका पेज क्रॉल किया है, Google में पेज का यूआरएल खोजें.

अगर आप अपने पेज को खाेज नतीजाें से छिपाना चाहते हैं, तो पेज में लॉग इन करने के लिए ज़रूरी शर्तें जोड़ें. वहीं, अगर आप पेज को खोज नतीजों में दिखाना चाहते हैं, तो पेज में लॉग इन करने के लिए ज़रूरी शर्तें हटाएं. साथ ही, सर्च इंजन में अपने पेज के दिखाई देने की स्थिति काे बदलने का तरीका जानने के लिए, Google पर इस बारे में खोजें. उदाहरण के लिए: wix पर सर्च इंजन से पेज छिपाना

robots.txt की खामियां

robots.txt फ़ाइल बनाने या उसमें बदलाव करने से पहले, यूआरएल पर रोक लगाने वाले इस तरीके की खामियों के बारे में आपको जान लेना चाहिए. आप चाहें तो दूसरे तरीकों का इस्तेमाल भी कर सकते हैं, ताकि आपके यूआरएल वेब पर न मिल सकें.

  • Robots.txt डायरेक्टिव शायद हर सर्च इंजन के लिए काम न करें
    robots.txt फ़ाइलों में दिए गए निर्देशों का इस बात पर कोई नियंत्रण नहीं होता कि क्रॉलर आपके पेज पर कैसे काम करता है. बल्कि यह क्रॉलर पर निर्भर होता है कि वे इन निर्देशों का पालन करता है या नहीं. जहां Googlebot और दूसरे जाने-माने वेब क्रॉलर robots.txt में दिए गए निर्देशों का पालन करते हैं, वहीं हो सकता है कि दूसरे वेब क्रॉलर ऐसा न करें. इसलिए वेब क्रॉलर से जानकारी सुरक्षित रखने के लिए, अपने सर्वर की निजी फ़ाइलें पासवर्ड से सुरक्षित करने जैसे रोक लगाने के दूसरे तरीके इस्तेमाल करें.
  • अलग-अलग क्रॉलर, सिंटैक्स का अलग मतलब निकालते हैं
    हालांकि जाने-माने वेब क्रॉलर robots.txt फ़ाइल में दिए गए नियमों का पालन करते हैं, लेकिन हो सकता है कि हर क्रॉलर नियमों का अलग-अलग मतलब निकालें. आपको अलग-अलग वेब क्रॉलर से जुड़े सही सिंटैक्स पता होने चाहिए, क्योंकि हो सकता है कि कुछ वेब क्रॉलर कुछ खास तरह के निर्देश न समझ पाएं.
  • रोबोट के ज़रिए नियंत्रित किया जा रहा कोई पेज तब भी इंडेक्स किया जा सकता है अगर यह दूसरी साइटों से लिंक हो
    हालांकि Google robots.txt के ज़रिए रोक लगाई गई सामग्री क्रॉल नहीं करेगा. इसके बावजूद हमें पाबंदी वाले यूआरएल भी मिल सकते हैं, अगर यह वेब पर दूसरी जगहों पर लिंक हैं. इसकी वजह से यूआरएल पते और सार्वजनिक तौर पर मिल सकने वाली जानकारी अब भी Google खोज नतीजों में दिखाई दे सकती है. इनमें लिंक में पेज के एंकर लेख जैसी जानकारी शामिल है. अपने यूआरएल को 'Google सर्च' के नतीजों में दिखाने से रोकने के लिए, अपने सर्वर पर मौजूद फ़ाइलें पासवर्ड से सुरक्षित करें या noindex मेटा टैग या जवाबी हेडर इस्तेमाल करें (या पेज पूरी तरह हटाएं).
ध्यान दें: अगर आप क्रॉल करने और इंडेक्स करने के कई दिशा-निर्देश मिलाकर इस्तेमाल करते हैं, तो हो सकता है कि कुछ दिशा-निर्देश, दूसरे दिशा-निर्देशों को बेअसर कर दें. आप इन डायरेक्टिव को अच्छी तरह से कॉन्फ़िगर करने के तरीके जान सकते हैं. इसके लिए Google Developers के दस्तावेज़ में एक साथ क्रॉल करने और इंडेक्स करने / नतीजे दिखाने के बारे में डायरेक्टिव सेक्शन पढ़ें.

जाँचना कि robots.txt के ज़रिए पेज पर राेक लगी है या नहीं

आप यह जाँच कर सकते हैं कि किसी पेज या संसाधन पर robots.txt के ज़रिए राेक लगी है या नहीं.

noindex के डायरेक्टिव के बारे में जाँच करने के लिए यूआरएल की जाँच करने वाले टूल का इस्तेमाल करें.

क्या यह उपयोगी था?
हम उसे किस तरह बेहतर बना सकते हैं?