डुप्लीकेट कॉन्टेंट

डुप्लीकेट कॉन्टेंट का मतलब आम तौर पर सभी डोमेन के अंदर या उन पर मिलने वाली सामग्री के ऐसे बड़े हिस्सों से है, जो या तो दूसरी सामग्री से पूरी तरह मेल खाते हैं या काफ़ी हद तक उससे मिलते-जुलते हैं. ज़्यादातर मामलों में, यह असल में भ्रामक नहीं होता. नुकसान नहीं पहुंचाने वाले डुप्लीकेट कॉन्टेंट के उदाहरणों में ये शामिल हो सकते हैं:

  • चर्चा फ़ोरम जो मोबाइल डिवाइस पर टारगेट किए गए नियमित और स्ट्रिप-डाउन पेज, दोनों जनरेट कर सकते हैं
  • एक से ज़्यादा अलग-अलग यूआरएल के ज़रिए दिखाए या लिंक किए गए स्टोर आइटम
  • वेब पेजों के सिर्फ़ प्रिंटर वाले वर्शन

अगर आपकी साइट में बहुत हद तक समान सामग्री वाले कई पेज हैं, तो आप Google को कई तरीकों से अपना पसंदीदा यूआरएल बता सकते हैं. (इसे "यूआरएल के कैननिकल होने की जाँच करना" कहते हैं.) यूआरएल के कैननिकल होने की जाँच करने के बारे में ज़्यादा जानकारी.

हालांकि, कुछ मामलों में, सभी डोमेन पर सर्च इंजन रैंकिंग में हेर-फेर करने या ज़्यादा ट्रैफ़िक हासिल करने की कोशिश में सामग्री को जान-बूझकर डुप्लीकेट किया जाता है. इसके जैसी भ्रामक प्रक्रियाओं का नतीजा उस समय खराब उपयोगकर्ता अनुभव हो सकता है, जब साइट पर आने वाले किसी व्यक्ति को खोज नतीजों के सेट में बार-बार एक ही तरह की सामग्री दिखाई देती है.

Google अलग जानकारी वाले पेज इंडेक्स करने और दिखाने की पूरी कोशिश करता है. उदाहरण के लिए, इस फ़िल्टर करने का मतलब यह है कि अगर आपकी साइट के पास हर लेख का एक "नियमित" और "प्रिंटर" वर्शन है और इनमें से किसी को भी noindex मेटा टैग से ब्लॉक नहीं किया गया है, तो हम लिस्ट करने के लिए उनमें से किसी एक को चुनेंगे. ऐसे बहुत ही कम मामलों में, जिनमें Google मानता है कि डुप्लीकेट की गई सामग्री को हमारी रैंकिंग में हेर-फेर करने और हमारे उपयोगकर्ताओं को धोखा देने के मकसद से दिखाया जा सकता है, हम इसमें शामिल साइटों की इंडेक्सिंग और रैंकिंग में ज़रूरी बदलाव भी करते हैं. नतीजतन, साइट की रैंकिंग को नुकसान हो सकता है या साइट को Google इंडेक्स से पूरी तरह हटाया जा सकता है, जिसके चलते वह फिर खोज नतीजों में दिखाई नहीं देगी.

डुप्लीकेट कॉन्टेंट की समस्या का आगे बढ़कर समाधान करने के लिए आप कुछ चरण अमल में ला सकते हैं और पक्का कर सकते हैं कि साइट पर आने वालों को वही सामग्री दिखाई दे जो आप उन्हें दिखाना चाहते हैं.

  • 301 का इस्तेमाल करें: अगर आपने अपनी साइट का स्ट्रक्चर बदला है, तो उपयोगकर्ताओं, Googlebot और दूसरे स्पाइडर को समझदारी से रीडायरेक्ट करने के लिए अपनी .htaccess फ़ाइल में 301 रीडायरेक्ट ("RedirectPermanent") का इस्तेमाल करें. (Apache में, आप .htaccess फ़ाइल से ऐसा कर सकते हैं; IIS में, आप व्यवस्थापक कंसोल से ऐसा कर सकते हैं.)
  • एक ही तरह से लिंक करें: अपनी अंदरूनी लिंकिंग को एक ही तरह का बनाए रखने की कोशिश करें. उदाहरण के लिए, http://www.example.com/page/ और http://www.example.com/page और http://www.example.com/page/index.htm से लिंक न करें.
  • डोमेन के आखिरी हिस्सों का इस्तेमाल करें: किसी दस्तावेज़ का सबसे सही वर्शन देने में हमारी मदद करने के लिए, जब भी संभव हो देश के मुताबिक खास सामग्री प्रबंधित करने के लिए डोमेन के आखिरी हिस्सों का इस्तेमाल करें. बहुत संभव है कि हम http://www.example.com/de या http://de.example.com के बजाय http://www.example.de को देखकर यह जान लें उसमें जर्मनी के लिए सामग्री है.
  • सावधानी से सिंडिकेट करें: अगर आप अपनी सामग्री को दूसरी साइटों पर सिंडिकेट करते हैं, तो Google हमेशा वही वर्शन दिखाएगा जो हमारे मुताबिक हर एक दी गई खोज में उपयोगकर्ताओं के लिए सबसे सही है. यह आपका पसंदीदा वर्शन हो भी सकता है या नहीं भी हो सकता. हालांकि, यह देख लेने से मदद मिलती है कि हर वह साइट जिस पर आपकी सामग्री सिंडिकेट की जाती है, उसमें आपके मूल लेख में वापस जाने के लिए एक लिंक शामिल हो. आप अपनी सिंडिकेट की गई सामग्री का इस्तेमाल करने वालों से यह भी कह सकते हैं कि वे सामग्री के अपने वर्शन को खोज इंजनों से इंडेक्स किए जाने से रोकने के लिए noindex मेटा टैग का इस्तेमाल करें.
  • बॉइलरप्लेट दोहराव को कम से कम करें: उदाहरण के लिए, हर पेज के नीचे लंबे कॉपीराइट लेख को शामिल करने के बजाय, एक छोटा सा सारांश शामिल करें; फिर उसे ज़्यादा जानकारी वाले किसी पेज से लिंक करें. इसके अलावा, आप यह बताने के लिए पैरामीटर हैंडलिंग टूल का इस्तेमाल कर सकते हैं कि आप Google से यूआरएल पैरामीटर को किस तरह प्रबंधित करना पसंद करते हैं.
  • स्टब प्रकाशित करने से बचें: उपयोगकर्ता "खाली" पेज देखना पसंद नहीं करते, इसलिए जहां तक हो सके प्लेसहोल्डर से बचें. उदाहरण के लिए, ऐसे पेज प्रकाशित न करें जिनके लिए आपके पास अभी तक असली सामग्री नहीं है. अगर आप प्लेसहोल्डर वाले पेज बनाते हैं, तो इन पेजों को इंडेक्स होने से ब्लॉक करने के लिए noindex मेटा टैग का इस्तेमाल करें.
  • अपने सामग्री प्रबंधन सिस्टम को समझें: पक्का करें कि आप अपनी वेब साइट पर सामग्री दिखाए जाने का तरीका जानते हैं. ब्लॉग, फ़ोरम और संबंधित सिस्टम अक्सर कई फ़ॉर्मैट में समान सामग्री दिखाते हैं. उदाहरण के लिए, ब्लॉग एंट्री किसी ब्लॉग के होम पेज, किसी संग्रह पेज और समान लेबल वाली दूसरी एंट्री के किसी पेज में दिखाई दे सकती है.
  • समान सामग्री कम से कम करें: अगर आपके पास एक जैसे कई पेज हैं, तो कृपया हर एक पेज का विस्तार करने या पेजों को एक ही पेज में मिलाने पर विचार करें. उदाहरण के लिए, अगर आपके पास दो शहरों के लिए अलग-अलग पेजों वाली कोई यात्रा साइट है, लेकिन दोनों पेजों पर समान जानकारी है, तो या तो आप पेजों को एक करके दोनों शहरों के बारे में एक पेज बना सकते हैं या आप हर एक पेज में हर एक शहर के बारे में अलग सामग्री शामिल करके उन्हें बड़ा कर सकते हैं.

Google आपकी वेबसाइट पर डुप्लीकेट कॉन्टेंट के लिए क्रॉलर एक्सेस को robots.txt फ़ाइल के साथ या किसी दूसरे तरीके से ब्लॉक करने का सुझाव नहीं देता. अगर सर्च इंजन डुप्लीकेट कॉन्टेंट वाले पेजों को क्रॉल नहीं कर सकते, तो वे अपने आप यह पता नहीं लगा सकते कि इन यूआरएल पर एक ही सामग्री है और इसलिए उन्हें अलग-अलग खास पेज माना जाएगा. एक बेहतर समाधान सर्च इंजनों को इन यूआरएल को क्रॉल करने की अनुमति देना है, लेकिन rel="canonical" लिंक ऐलीमेंट, यूआरएल पैरामीटर प्रबंधन टूल या 301 रीडायरेक्ट का इस्तेमाल करके उन्हें डुप्लीकेट के रूप में चिह्नित करना है. ऐसे मामलों में जहां डुप्लीकेट कॉन्टेंट की वजह से हम आपकी वेबसाइट को बहुत ज़्यादा क्रॉल करते हैं, आप Search Console में क्रॉल दर सेटिंग कम-ज़्यादा भी कर सकते हैं.

किसी साइट पर डुप्लीकेट कॉन्टेंट का होना उस साइट पर कार्रवाई करने का आधार तब तक नहीं होता जब तक यह न लगे कि डुप्लीकेट कॉन्टेंट का मकसद भ्रामक और सर्च इंजन के नतीजों में हेर-फेर करना है. अगर आपकी साइट में डुप्लीकेट कॉन्टेंट संबंधी समस्याएं हैं और आप ऊपर सूची में दी गई सलाह को नहीं मानते, तो हम अपने खोज नतीजों में दिखाने के लिए सामग्री का वर्शन चुनने का अच्छा काम करते हैं.

हालांकि, अगर हमारी समीक्षा यह दर्शाती है कि आप धोखाधड़ी वाले काम करते हैं और आपकी साइट को हमारे खोज नतीजों से हटा दिया गया है, तो अपनी साइट की सावधानी से समीक्षा करें. अगर आपकी साइट को हमारे खोज नतीजों से हटा दिया गया है, तो ज़्यादा जानकारी के लिए हमारे वेबमास्टर दिशा-निर्देश देखें. जब आप अपने बदलाव कर लें और आपको भरोसा हो जाएं कि आपकी साइट अब हमारे दिशा-निर्देशों का उल्लंघन नहीं करती है, तो फिर से विचार करने के लिए अपनी साइट सबमिट करें.

बहुत कम हालातों में, हमारा एल्गोरिद्म आपकी अनुमति के किसी बिना बाहरी साइट से, जो आपकी सामग्री को होस्ट कर रही है, एक यूआरएल चुन सकता है. अगर आपको लगता है कि कोई और साइट कॉपीराइट कानून के उल्लंघन में आपकी सामग्री डुप्लीकेट कर रही है, तो आप अनुरोध को हटाने के लिए साइट के होस्ट से संपर्क कर सकते हैं. इसके अलावा, आप डिजिटल मिलेनियम कॉपीराइट एक्ट के तहत एक अनुरोध भरकर Google से हमारे खोज नतीजों से उल्लंघन करने वाले पेजों को हटाने का अनुरोध कर सकते हैं.

क्या यह उपयोगी था?
हम उसे किस तरह बेहतर बना सकते हैं?