robots.txt रिपोर्ट से यह पता चलता है कि Google को आपकी साइट के शीर्ष 20 होस्ट के लिए कौनसी robots.txt फ़ाइलें मिलीं, उन्हें पिछली बार कब क्रॉल किया गया था, और उन्हें कौनसी चेतावनियां या गड़बड़ियां मिलीं. इस रिपोर्ट की मदद से, आपातकालीन स्थितियों में robots.txt फ़ाइल को फिर से क्रॉल करने का अनुरोध भी किया जा सकता है.
यह रिपोर्ट सिर्फ़ डोमेन लेवल प्रॉपर्टी के लिए उपलब्ध है. इसका मतलब है:
- डोमेन प्रॉपर्टी (जैसे, example.com या m.example.com) या
- बिना पाथ वाली यूआरएल-प्रीफ़िक्स प्रॉपर्टी, जैसे कि https://example.com/, लेकिन https://example.com/path/ नहीं.
अपनी robots.txt फ़ाइलें और क्रॉल करने की स्थिति देखें
किसी डोमेन प्रॉपर्टी की रिपोर्ट में, उस प्रॉपर्टी के शीर्ष 20 होस्ट की robots.txt फ़ाइलें शामिल होती हैं.
Search Console की ओर से जांची जाने वाली हर robots.txt फ़ाइल के लिए, नीचे दी गई जानकारी देखी जा सकती है:
- फ़ाइल पाथ - वह पूरा यूआरएल जहां Google ने robots.txt फ़ाइल के मौजूद होने या न होने का पता लगाया. कोई यूआरएल रिपोर्ट में सिर्फ़ तब दिखेगा, जब पिछले 30 दिनों में किसी भी समय उसकी स्थिति, 'फ़ेच किया गया' या 'फ़ेच नहीं किया गया' वाली रही हो. robots.txt फ़ाइलों की जगह देखें.
- स्थिति फ़ेच करें - इस फ़ाइल के लिए, हाल ही में किए गए फ़ेच करने के अनुरोध की स्थिति. इस जांच के ये नतीजे हो सकते हैं:
- फ़ेच नहीं की गई - नहीं मिली (404): इस फ़ाइल का अनुरोध करने पर, 404 कोड वाली गड़बड़ी (फ़ाइल मौजूद नहीं है) हुई. अगर आपने सूची में दिए गए यूआरएल पर robots.txt फ़ाइल पोस्ट की है, लेकिन आपको यह गड़बड़ी दिख रही है, तो यूआरएल की जांच करें और देखें कि उसमें उपलब्धता से जुड़ी कोई समस्या है या नहीं. कोई फ़ाइल जिसकी स्थिति 30 दिनों तक नहीं मिली (404) रहती है, वह अब रिपोर्ट में नहीं दिखेगी (हालांकि, Google बैकग्राउंड में इसकी जांच करता रहेगा). robots.txt की गड़बड़ी न होना आम बात है. इसका मतलब है कि Google आपकी साइट के सभी यूआरएल को क्रॉल कर सकता है. हालांकि, पूरी जानकारी के लिए पढ़ें कि robots.txt की गड़बड़ी होने पर Google कैसे काम करता है.
- फ़ेच नहीं की गई - कोई और वजह: इस फ़ाइल का अनुरोध करते समय कोई दूसरी समस्या आई. इंडेक्स करने से जुड़ी समस्याओं की सूची देखें.
- फ़ेच की गई: क्रॉल करने की पिछली कोशिश में robots.txt फ़ाइल मिली. फ़ाइल को पार्स करते समय मिलने वाली सभी समस्याएं, समस्याएं कॉलम में दिखेंगी. Google, समस्याओं वाली लाइनों को अनदेखा कर देता है और उन लाइनों का इस्तेमाल करता है जिन्हें पार्स किया जा सकता है.
- जांच की गई - जब Google ने पिछली बार इस यूआरएल को क्रॉल करने की कोशिश की थी, तब उसे स्थानीय समय के हिसाब से जांचा गया था.
- साइज़ - फ़ेच की गई फ़ाइल का साइज़, बाइट में. अगर फ़ेच करने की आखिरी कोशिश सफल नहीं हुई, तो यह फ़ील्ड खाली रहेगा.
- समस्याएं - टेबल में फ़ाइल के कॉन्टेंट को पार्स करने से जुड़ी सभी समस्याओं की वह संख्या दिखती है जो पिछली बार फ़ेच किए जाने पर थी. गड़बड़ियां होने पर, कोई नियम इस्तेमाल नहीं किया जा सकता. चेतावनियां, किसी नियम के इस्तेमाल को नहीं रोकतीं. पढ़ें कि robots.txt की गड़बड़ी होने पर Google क्या करता है. पार्स करने से जुड़ी समस्याओं को ठीक करने के लिए, robots.txt की पुष्टि करने वाले टूल का इस्तेमाल करें.
आखिरी बार फ़ेच किया गया वर्शन देखें
robots.txt फ़ाइल के आखिरी बार फ़ेच किए गए वर्शन को देखा जा सकता है. इसके लिए, आपको रिपोर्ट में मौजूद फ़ाइलों की सूची में, उस फ़ाइल पर क्लिक करना होगा. अगर robots.txt फ़ाइल में कोई गड़बड़ी या चेतावनी है, तो उसे फ़ाइल के दिखाए गए कॉन्टेंट में हाइलाइट कर दिया जाएगा. ऐरो बटन का इस्तेमाल करके, गड़बड़ियों और चेतावनियों को क्रम से देखा जा सकता है.
पहले से फ़ेच किए गए वर्शन देखना
पिछले 30 दिनों के, किसी robots.txt फ़ाइल को फ़ेच करने के अनुरोध देखने के लिए, रिपोर्ट में मौजूद फ़ाइलों की सूची में, उस फ़ाइल पर क्लिक करें. इसके बाद, वर्शन पर क्लिक करें. उस वर्शन की फ़ाइल का कॉन्टेंट देखने के लिए, वर्शन पर क्लिक करें. किसी अनुरोध को इतिहास में सिर्फ़ तब शामिल किया जाता है, जब वापस लाई गई फ़ाइल या फ़ेच किया गया नतीजा, फ़ाइल को फ़ेच करने के पिछले अनुरोध से अलग हो.
अगर Google को, फ़ेच करने की पिछली कोशिश में कोई गड़बड़ी मिली है, तो Google 30 दिनों तक, बिना किसी गड़बड़ी वाले आखिरी बार फ़ेच किए गए वर्शन का इस्तेमाल करेगा.
फिर से क्रॉल करने का अनुरोध करें
कोई गड़बड़ी ठीक करने या कोई अहम बदलाव करने के बाद, robots.txt फ़ाइल को फिर से क्रॉल करने का अनुरोध किया जा सकता है.
फिर से क्रॉल करने का अनुरोध कब करें
आम तौर पर, robots.txt फ़ाइल को फिर से क्रॉल करने का अनुरोध करने की ज़रूरत नहीं होती है. ऐसा इसलिए होता है, क्योंकि Google अक्सर आपकी robots.txt फ़ाइलों को फिर से क्रॉल करता है. हालांकि, इन स्थितियों में हो सकता है कि आपको अपनी robots.txt फ़ाइल को फिर से क्रॉल करने का अनुरोध करना पड़े:
- आपने कुछ अहम यूआरएल को अनब्लॉक करने के लिए, अपने robots.txt नियमों में बदलाव किया है और आपको, Google को इसकी जानकारी तुरंत देनी है, तो ध्यान दें कि इस बात की कोई गारंटी नहीं है कि अनब्लॉक किए गए यूआरएल को तुरंत फिर से क्रॉल किया जा सकेगा.
- आपने फ़ेच करने से जुड़ी गड़बड़ी या दूसरी कोई गंभीर गड़बड़ी ठीक की है.
फिर से क्रॉल करने का अनुरोध करने का तरीका
फिर से क्रॉल करने का अनुरोध करने के लिए, रोबोट फ़ाइल सूची में किसी फ़ाइल के आगे मौजूद 'ज़्यादा सेटिंग' आइकॉन को चुनें. इसके बाद, फिर से क्रॉल करने का अनुरोध करें पर क्लिक करें.
वेबसाइट होस्टिंग सेवाओं पर वेबसाइटें
अगर आपकी वेबसाइट को, किसी वेबसाइट होस्टिंग सेवा पर होस्ट किया जाता है, तो हो सकता है कि आपकी robots.txt फ़ाइल में बदलाव करना आसान न हो. ऐसी स्थिति में, Google की ओर से किसी पेज को क्रॉल या इंडेक्स किए जाने से ब्लॉक करने के तरीके जानने के लिए, अपनी साइट को होस्ट करने वाली कंपनी का दस्तावेज़ देखें. (ध्यान दें कि ज़्यादातर उपयोगकर्ता फ़ाइलों को Google Search में क्रॉल करने के बजाय, उन्हें Google Search में दिखाए जाने से रोकने को लेकर चिंतित हैं. अगर आप इसी को लेकर चिंतित है, तो सर्च इंजन से पेजों को ब्लॉक करने के बारे में जानकारी पाने के लिए, अपनी होस्टिंग सेवा की मदद लें.)
जब Google आपकी robots.txt फ़ाइल को फ़ेच नहीं कर पाता या पढ़ नहीं पाता, तो क्या होता है
किसी डोमेन या सबडोमेन के लिए robots.txt फ़ाइल न मिलने पर, Google यह मानता है कि वह उस होस्ट में मौजूद किसी भी यूआरएल को क्रॉल कर सकता है.
अगर Google को कोई robots.txt फ़ाइल मिलती है, लेकिन वह उसे फ़ेच नहीं कर पा रहा है, तो Google यह तरीका इस्तेमाल करता है:
- शुरुआती 12 घंटों के लिए, Google आपकी साइट को क्रॉल करना बंद कर देता है. हालांकि, वह आपकी robots.txt फ़ाइल को फ़ेच करने की कोशिश करता रहता है.
- अगर Google कोई नया वर्शन फ़ेच नहीं कर पाता है, तो अगले 30 दिनों तक Google पिछले अच्छे वर्शन का इस्तेमाल करेगा और नए वर्शन को फ़ेच करने की कोशिश करता रहेगा. वर्शन इतिहास में जाकर, पिछले अच्छे वर्शन को देखा जा सकता है.
- अगर 30 दिनों के बाद भी गड़बड़ियां ठीक नहीं होती हैं, तो:
- अगर साइट Google के लिए सामान्य रूप से उपलब्ध है, तो Google इस तरह से काम करेगा जैसे कोई robots.txt फ़ाइल मौजूद ही नहीं है. हालांकि, वह नए वर्शन की जांच करता रहेगा.
- अगर साइट Google के लिए सामान्य रूप से उपलब्ध नहीं है, तो Google साइट को क्रॉल करना बंद कर देगा. इसके बाद, वह समय-समय पर robots.txt फ़ाइल के लिए अनुरोध करता रहेगा.
अगर Google को robots.txt फ़ाइल मिलती है और वह उसे फ़ेच कर सकता है, तो: Google उस फ़ाइल की हर लाइन को ध्यान से पढ़ता है. अगर किसी लाइन में कोई गड़बड़ी है या उसे robots.txt नियम में पार्स नहीं किया जा सकता, तो उसे छोड़ दिया जाएगा. अगर फ़ाइल में कोई मान्य लाइन नहीं है, तो Google इसे एक खाली robots.txt फ़ाइल मानता है. इसका मतलब है कि साइट के लिए कोई नियम तय नहीं किया गया है.
robots.txt फ़ाइलों की जगह
शब्दावली:
- एक प्रोटोकॉल, एचटीटीपी या एचटीटीपीएस होता है. इसे स्कीम भी कहा जाता है.
- यूआरएल में शामिल सभी चीज़ों को होस्ट कहते हैं. प्रोटोकॉल (http:// या https://) से लेकर, पाथ तक. इसलिए, m.de.example.com होस्ट में तीन संभावित होस्ट शामिल हैं: m.de.example.com, de.example.com, और example.com. इनमें से हर होस्ट की अपनी robots.txt फ़ाइल हो सकती है.
- ऑरिजिन, प्रोटोकॉल और होस्ट होता है. इसलिए: https://example.com/ या https://m.example.co.es/
आरएफ़सी 9309 के मुताबिक, robots.txt फ़ाइल आपकी साइट के हर प्रोटोकॉल और होस्ट कॉम्बिनेशन के रूट में होनी चाहिए.
- Search Console, क्रॉल दर के हिसाब से, शीर्ष 20 होस्ट को चुनता है. हर डोमेन के लिए, रिपोर्ट ज़्यादा से ज़्यादा दो ऑरिजिन दिखा सकती है. इसका मतलब है कि टेबल में ज़्यादा से ज़्यादा 40 लाइनें दिख सकती हैं. अगर आपको अपने किसी होस्ट का robots.txt यूआरएल नहीं मिलता है, तो जो सबडोमेन मौजूद नहीं है उसके लिए कोई डोमेन प्रॉपर्टी बनाएं.
- हर होस्ट के लिए, Search Console दो यूआरएल की जांच करता है:
- http://<host>/robots.txt
- https://<host>/robots.txt
- अगर अनुरोध किए गए यूआरएल पर robots.txt फ़ाइल को 30 दिनों तक नहीं मिली के तौर पर रिपोर्ट किया जाता है, तो Search Console इस रिपोर्ट में यूआरएल नहीं दिखाता. हालांकि, Google बैकग्राउंड में यूआरएल की जांच करता रहेगा. किसी भी दूसरे नतीजे के लिए, रिपोर्ट में जांचा गया यूआरएल दिखाया जाता है.
होस्ट लेवल पर मौजूद, यूआरएल-प्रीफ़िक्स प्रॉपर्टी, जैसे कि https://example.com/ के लिए, Search Console उस प्रॉपर्टी के सिर्फ़ एक ऑरिजिन की जांच करता है. इसका मतलब है कि: https://example.com प्रॉपर्टी के लिए, Search Console सिर्फ़ https://example.com/robots.txt की जांच करता है, http://example.com/robots.txt या https://m.example.com/robots.txt की नहीं.
सामान्य काम
robots.txt फ़ाइल देखना
इस रिपोर्ट में दी गई robots.txt फ़ाइल को खोलने के लिए, robots.txt फ़ाइलों की सूची में मौजूद उस फ़ाइल पर क्लिक करें. फ़ाइल को अपने ब्राउज़र में खोलने के लिए, लाइव robots.txt खोलें पर क्लिक करें.
वेब पर किसी भी robots.txt फ़ाइल को, अपने ब्राउज़र में खोला जा सकता है. किस यूआरएल पर जाना चाहिए, यह जानने के लिए नीचे देखें.
robots.txt फ़ाइलें कहां-कहां मौजूद हो सकती हैं
robots.txt फ़ाइल, प्रोटोकॉल और डोमेन के रूट में मौजूद होती है. यूआरएल तय करने के लिए, फ़ाइल के यूआरएल में होस्ट (और वैकल्पिक पोर्ट) के बाद का पूरा हिस्सा हटा दें और उसमें "/robots.txt" जोड़ दें. अगर आपके ब्राउज़र में robots.txt फ़ाइल मौजूद है, तो उस पर जाएं. Robots.txt फ़ाइलें, सबडोमेन या पैरंट डोमेन से इनहेरिट नहीं की जाती हैं. साथ ही, किसी पेज पर सिर्फ़ एक robots.txt फ़ाइल का इस्तेमाल किया जा सकता है. कुछ उदाहरण:
फ़ाइल का यूआरएल | robots.txt फ़ाइल का यूआरएल जो उस फ़ाइल पर असर डाल सकता है |
---|---|
http://example.com/home | http://example.com/robots.txt |
https://m.de.example.com/some/page/here/mypage | https://m.de.example.com/robots.txt |
https://example.com?pageid=234#myanchor | https://example.com/robots.txt |
https://images.example.com/flowers/daffodil.png | https://images.example.com/robots.txt |
देखें कि कौनसी robots.txt फ़ाइल किसी पेज या इमेज पर असर डालती है
किसी पेज या इमेज पर असर डालने वाली robots.txt फ़ाइल का यूआरएल ढूंढने के लिए:
- पेज या इमेज का सही यूआरएल ढूंढें. Google Chrome ब्राउज़र में किसी इमेज के लिए, राइट क्लिक करें. इसके बाद, इमेज का यूआरएल कॉपी करें को चुनें.
- टॉप लेवल डोमेन (जैसे, .com, .org, .co.il) के बाद, यूआरएल के आखिरी हिस्से को हटाएं और आखिर में /robots.txt जोड़ें. इसलिए, https://images.example.com/flowers/daffodil.png के लिए robots.txt फ़ाइल, https://images.example.com/robots.txt है
- यूआरएल के मौजूद होने की पुष्टि करने के लिए, उसे अपने ब्राउज़र में खोलें. अगर आपके ब्राउज़र से फ़ाइल नहीं खुल पा रही है, तो इसका मतलब है कि फ़ाइल मौजूद नहीं है.
जांच करें कि Google पर इस पेज को robots.txt से ब्लॉक किया गया है या नहीं
- अगर आपको यह जांच करनी है कि किसी खास यूआरएल को robots.txt फ़ाइल सेब्लॉक किया गया है या नहीं, तो यूआरएल जांचने वाले टूल की मदद से यूआरएल की उपलब्धता की जांच की जा सकती है.
- अगर आपको किसी ऐसी फ़ाइल के लिए किसी खास robots.txt नियम की जांच करनी है जो अभी तक वेब पर मौजूद नहीं है या एक नए नियम की जांच करनी है, तो तीसरे पक्ष के robots.txt फ़ाइल की जांच करने वाले टूल का इस्तेमाल करें.
ज़्यादा जानकारी
- robots.txt फ़ाइल क्या होती है और इसका इस्तेमाल कैसे किया जाता है?
- robots.txt फ़ाइल को लागू करने का तरीका