Google में बोली पहचानने के मॉडल को बेहतर बनाने से जुड़ी जानकारी

Google के कई प्रॉडक्ट में बोली पहचानने की सुविधा का इस्तेमाल किया जाता है। उदाहरण के लिए, Google Assistant में आपको बोलकर मदद माँगने की सुविधा मिलती है। Gboard की मदद से, आप उन मैसेज को बोलकर लिख सकते हैं जिन्हें आप अपने दोस्तों को भेजने वाले हैं। साथ ही, Google Meet में आपको मीटिंग के लिए ख़ुद बनने वाले सबटाइटल की सुविधा मिलती है।

बोली पहचानने से जुड़ी टेक्नोलॉजी में ज़्यादातर डीप न्यूरल नेटवर्क की मदद ली जाती है। ये नेटवर्क, एक तरह के मशीन लर्निंग सिस्टम होते हैं। इन नेटवर्क से, हमें बोली पहचानने के ऐसे मॉडल बनाने में मदद मिलती है जो आवाज़ को ज़्यादा सटीक तरीक़े से और ज़्यादा तेज़ी से पहचान सकें। आम तौर पर डीप न्यूरल नेटवर्क को बहुत ज़्यादा डेटा की ज़रूरत होती है, ताकि वे सही तरीक़े से काम कर सकें और समय के साथ बेहतर बन सकें। सिस्टम को बेहतर बनाने की इस प्रोसेस को मॉडल ट्रेनिंग कहा जाता है।

बोली पहचानने के मॉडल को ट्रेनिंग देने के लिए किन टेक्नोलॉजी का इस्तेमाल किया जाता है

बोली पहचानने से जुड़ी सुविधाओं पर काम करने वाली Google की टीम, बोली पहचानने के इन मॉडल को ट्रेनिंग देने के लिए, 3 बड़ी टेक्नोलॉजी का इस्तेमाल करती है: कंवेंशनल लर्निंग, फ़ेडरेटेड लर्निंग, और इफ़ेमरल लर्निंग। काम और स्थिति के हिसाब से, इनमें से कुछ तरीक़े दूसरों के मुक़ाबले ज़्यादा असरदार होते हैं। साथ ही, कुछ मामलों में हम इनके कॉम्बिनेशन इस्तेमाल करते हैं। ऐसा करके, हम पूरी प्रोसेस के दौरान निजता की सुरक्षा को ध्यान में रखते हुए, बेहतरीन क्वालिटी हासिल कर पाते हैं।

कंवेंशनल लर्निंग

बोली पहचानने के हमारे ज़्यादातर मॉडल को ट्रेनिंग देने के लिए, कंवेंशनल लर्निंग का ही इस्तेमाल किया जाता है।

बोली पहचानने के मॉडल को कंवेंशनल लर्निंग के ज़रिए कैसे ट्रेनिंग दी जाती है

  1. आपसे साफ़ तौर पर सहमति लेने के बाद, ऑडियो सैंपल इकट्ठे किए जाते हैं। इसके बाद, उन्हें Google के सर्वर पर सेव किया जाता है।
  2. इन ऑडियो सैंपल के एक हिस्से के एनोटेशन, मानव समीक्षक करते हैं।
  3. ट्रेनिंग एल्गोरिदम, एनोटेशन किए गए ऑडियो डेटा के सैंपल से सीखता है।
    • निगरानी वाली ट्रेनिंग में: मॉडल को उन एनोटेशन की नक़ल करने के लिए ट्रेनिंग दी जाती है जिन्हें मानव समीक्षक ने उसी ऑडियो के लिए किया है।
    • बिना निगरानी वाली ट्रेनिंग में: इसमें मानवीय समीक्षक के किए एनोटेशन के बजाय, मशीन एनोटेशन इस्तेमाल किए जाते हैं।

जब बोली पहचानने की सुविधा के मॉडल को ट्रेनिंग देने के लिए, इन दोनों ट्रेनिंग में बराबर मात्रा में डेटा का इस्तेमाल किया जाता है, तो बिना निगरानी वाली ट्रेनिंग के मुक़ाबले निगरानी वाली ट्रेनिंग से बेहतर नतीजे मिलते हैं। इसकी वजह यह है कि निगरानी वाली ट्रेनिंग में अच्छी क्वालिटी के एनोटेशन मौजूद होते हैं। वहीं दूसरी ओर, बिना निगरानी वाली ट्रेनिंग को बेहतर बनाने के लिए ज़्यादा ऑडियो सैंपल की ज़रूरत पड़ती है। इसकी वजह यह है कि इसमें सीखने के लिए, आसानी से बनाए जा सकने वाले मशीन एनोटेशन इस्तेमाल किए जाते हैं।

आपके डेटा को सुरक्षित रखने का तरीक़ा

इस बारे में ज़्यादा जानें कि Google आपके डेटा को कैसे सुरक्षित रखता है

फ़ेडरेटेड लर्निंग

फ़ेडरेटेड लर्निंग, एक ऐसी तकनीक है जिसे Google में डेवलप किया गया है। यह तकनीक आपके निजी डेटा को सुरक्षित रखने में मदद करती है। इसकी मदद से, एआई (AI) मॉडल को सीधे आपके फ़ोन या दूसरे डिवाइस पर ट्रेनिंग दी जाती है। फ़ेडरेटेड लर्निंग का इस्तेमाल, बोली पहचानने के उन मॉडल को ट्रेनिंग देने के लिए किया जाता है जिनके लिए डेटा डिवाइस पर ही मौजूद होता है और जो ख़ुद भी डिवाइस पर ही काम करते हैं।

बोली पहचानने के मॉडल को फ़ेडरेटेड लर्निंग के ज़रिए ट्रेनिंग देने का तरीक़ा

फ़ेडरेटेड लर्निंग में आपके ऑडियो डेटा को Google के सर्वर पर भेजे बिना ही, बोली पहचानने के मॉडल को ट्रेनिंग दी जाती है।

  1. फ़ेडरेटेड लर्निंग को चालू करने के लिए, हम आपके ऑडियो डेटा को आपके डिवाइस पर सेव करते हैं।
  2. ट्रेनिंग एल्गोरिदम, आपके डिवाइस पर मौजूद इस डेटा से सीखता है।
  3. आपके डिवाइस और ट्रेनिंग की प्रोसेस में हिस्सा लेने वाले दूसरे डिवाइसों से मिली जानकारी को एक साथ जोड़कर, बोली पहचानने वाला एक नया मॉडल बनाया जाता है।

आपके डेटा को सुरक्षित रखने का तरीक़ा

जानें कि Google Assistant को बेहतर बनाने के दौरान, आपकी आवाज़ और ऑडियो का डेटा कैसे सुरक्षित रखा जाता है
इफ़ेमरल लर्निंग
इफ़ेमरल लर्निंग, एक ऐसी तकनीक है जो आपके निजी डेटा को सुरक्षित रखने में मदद करती है। इसका इस्तेमाल हम तब करते हैं, जब बोली पहचानने के मॉडल, Google के सर्वर पर काम करते हैं।

बोली पहचानने के मॉडल को इफ़ेमरल लर्निंग के ज़रिए ट्रेनिंग देने का तरीक़ा

  1. जब हमारे सिस्टम आने वाले ऑडियो सैंपल को टेक्स्ट में बदलते हैं, तो उन सैंपल को, थोड़े समय के लिए डेटा सेव करके रखने वाली मेमोरी (रैम) में भेजा जाता है।
  2. जब डेटा रैम में मौजूद होता है, तब ट्रेनिंग एल्गोरिदम उन ऑडियो डेटा के सैंपल से रीयल टाइम में सीखता है।
  3. इन ऑडियो डेटा के सैंपल को, थोड़े समय के लिए डेटा सेव करके रखने वाली इन मेमोरी से कुछ ही मिनट में मिटा दिया जाता है।

आपके डेटा को सुरक्षित रखने का तरीक़ा

इफ़ेमरल लर्निंग में, आपके ऑडियो डेटा के सैंपल:

  • सिर्फ़ थोड़े समय के लिए डेटा सेव करके रखने वाली मेमोरी (रैम) में रखे जाते हैं। इन्हें कुछ मिनट से ज़्यादा सेव करके नहीं रखा जाता।
  • कोई व्यक्ति कभी ऐक्सेस नहीं कर सकता।
  • सर्वर पर कभी सेव नहीं किए जाते।
  • मॉडल को ट्रेनिंग देने के लिए इस्तेमाल किए जाते हैं। इसमें ऐसे किसी भी अन्य डेटा को सेव नहीं किया जाता है जिससे आपकी पहचान ज़ाहिर होती हो।

Google इन टेक्नोलॉजी का इस्तेमाल और इनमें निवेश कैसे करेगा

हम इन सभी 3 टेक्नोलॉजी का इस्तेमाल करते रहेंगे। अच्छी क्वालिटी के लिए, ज़्यादातर मामलों में हम इनके कॉम्बिनेशन का इस्तेमाल करेंगे। हम बोली पहचानने के मॉडल के लिए, फ़ेडरेटेड लर्निंग और इफ़ेमरल लर्निंग, दोनों टेक्नोलॉजी को बेहतर बनाने की पूरी कोशिश कर रहे हैं। हमारा मक़सद इन टेक्नोलॉजी को ऐसे तरीक़ों से ज़्यादा असरदार और उपयोगी बनाना है जिनमें डिफ़ॉल्ट रूप से निजता की सुरक्षा का ध्यान रखा गया हो।

और मदद चाहिए?

आगे दिए गए कदमों को आज़माएं:

true
खोजें
खोज हटाएं
खोज बंद करें
Google ऐप
मुख्य मेन्यू