Google के कई प्रॉडक्ट में बोली की पहचान करने की सुविधा का इस्तेमाल किया जाता है। उदाहरण के लिए, Google Assistant में आपको बोलकर मदद माँगने की सुविधा मिलती है। Gboard की मदद से, उन मैसेज को बोलकर लिखा जा सकता है जिन्हें अपने दोस्तों को भेजना हो। साथ ही, Google Meet में आपको मीटिंग के लिए अपने-आप बनने वाले सबटाइटल की सुविधा मिलती है।
बोली की पहचान करने से जुड़ी टेक्नोलॉजी में ज़्यादातर डीप न्यूरल नेटवर्क की मदद ली जाती है। ये नेटवर्क, एक तरह के मशीन लर्निंग सिस्टम होते हैं। इनसे, हमें बोली की पहचान करने के ऐसे मॉडल बनाने में मदद मिलती है जो आवाज़ को ज़्यादा सटीक तरीक़े से और ज़्यादा तेज़ी से पहचान सकें। आम तौर पर, डीप न्यूरल नेटवर्क को बहुत ज़्यादा डेटा की ज़रूरत होती है, ताकि वे सही तरीक़े से काम कर सकें और समय के साथ बेहतर बन सकें। सिस्टम को बेहतर बनाने की इस प्रोसेस को मॉडल ट्रेनिंग कहा जाता है।
बोली पहचानने के मॉडल को ट्रेनिंग देने के लिए किन टेक्नोलॉजी का इस्तेमाल किया जाता है
बोली पहचानने से जुड़ी सुविधाओं पर काम करने वाली Google की टीम, बोली पहचानने के इन मॉडल को ट्रेनिंग देने के लिए, 3 बड़ी टेक्नोलॉजी का इस्तेमाल करती है: कंवेंशनल लर्निंग, फ़ेडरेटेड लर्निंग, और इफ़ेमरल लर्निंग। काम और स्थिति के हिसाब से, इनमें से कुछ तरीक़े दूसरों के मुक़ाबले ज़्यादा असरदार होते हैं। साथ ही, कुछ मामलों में हम इनके कॉम्बिनेशन इस्तेमाल करते हैं। ऐसा करके, हम पूरी प्रोसेस के दौरान निजता की सुरक्षा को ध्यान में रखते हुए, बेहतरीन क्वालिटी हासिल कर पाते हैं।
कंवेंशनल लर्निंगबोली पहचानने के हमारे ज़्यादातर मॉडल को ट्रेनिंग देने के लिए, कंवेंशनल लर्निंग का ही इस्तेमाल किया जाता है।
बोली पहचानने के मॉडल को कंवेंशनल लर्निंग के ज़रिए ट्रेनिंग देने का तरीक़ा
- आपसे साफ़ तौर पर सहमति लेने के बाद, ऑडियो सैंपल इकट्ठे किए जाते हैं। इसके बाद, उन्हें Google के सर्वर पर सेव किया जाता है।
- इन ऑडियो सैंपल के एक हिस्से में एनोटेशन का काम, समीक्षा करने वाले लोगों ने की है।
- ट्रेनिंग एल्गोरिदम, एनोटेट किए गए ऑडियो डेटा के सैंपल से सीखता है।
- निगरानी वाली ट्रेनिंग में: मॉडल को उन ऑडियो के एनोटेशन की नक़ल करने की ट्रेनिंग दी जाती है जिनकी समीक्षा, समीक्षा करने वाले लोगों ने की हो।
- बिना निगरानी वाली ट्रेनिंग में: इसमें एनोटेशन का काम समीक्षा करने वाले लोग नहीं करते हैं. इसके बजाय, मशीन एनोटेशन का इस्तेमाल किया जाता है।
जब बोली की पहचान करने से जुड़े मॉडल को ट्रेनिंग देने के लिए, इन दोनों ट्रेनिंग में बराबर मात्रा में डेटा का इस्तेमाल किया जाता है, तो बिना निगरानी वाली ट्रेनिंग के मुक़ाबले निगरानी वाली ट्रेनिंग से बेहतर नतीजे मिलते हैं। इसकी वजह यह है कि निगरानी वाली ट्रेनिंग में अच्छी क्वालिटी के एनोटेशन मौजूद होते हैं। वहीं दूसरी ओर, बिना निगरानी वाली ट्रेनिंग को बेहतर बनाने के लिए ज़्यादा ऑडियो सैंपल की ज़रूरत पड़ती है। इसकी वजह यह है कि इसमें सीखने के लिए, आसानी से बनाए जा सकने वाले मशीन एनोटेशन इस्तेमाल किए जाते हैं।
आपके डेटा को सुरक्षित रखने का तरीक़ा
इस बारे में ज़्यादा जानें कि Google आपके डेटा को कैसे सुरक्षित रखता है।
फ़ेडरेटेड लर्निंग, एक ऐसी तकनीक है जिसे Google में डेवलप किया गया है। यह तकनीक आपके निजी डेटा को सुरक्षित रखने में मदद करती है। इसकी मदद से, एआई (AI) मॉडल को सीधे आपके फ़ोन या दूसरे डिवाइस पर ट्रेनिंग दी जाती है। फ़ेडरेटेड लर्निंग का इस्तेमाल, बोली पहचानने के उन मॉडल को ट्रेनिंग देने के लिए किया जाता है जो आपके डिवाइस पर काम कर सकते हैं और जिनको ट्रेनिंग देने के लिए डेटा भी आपके डिवाइस पर मौजूद होता है।
बोली पहचानने के मॉडल को फ़ेडरेटेड लर्निंग के ज़रिए ट्रेनिंग देने का तरीक़ा
फ़ेडरेटेड लर्निंग में आपके ऑडियो डेटा को Google के सर्वर पर भेजे बिना ही, बोली पहचानने के मॉडल को ट्रेनिंग दी जाती है।
- फ़ेडरेटेड लर्निंग को चालू करने के लिए, हम आपके ऑडियो डेटा को आपके डिवाइस पर सेव करते हैं।
- ट्रेनिंग एल्गोरिदम, आपके डिवाइस पर मौजूद इस डेटा से सीखता है।
- आपके डिवाइस और ट्रेनिंग की प्रोसेस में हिस्सा लेने वाले दूसरे डिवाइसों से मिली जानकारी को एक साथ जोड़कर, बोली पहचानने वाला एक नया मॉडल बनाया जाता है।
आपके डेटा को सुरक्षित रखने का तरीक़ा
अपनी वेब और ऐप्लिकेशन गतिविधि में ऑडियो रिकॉर्डिंग मैनेज करना।बोली पहचानने के मॉडल को इफ़ेमरल लर्निंग के ज़रिए ट्रेनिंग देने का तरीक़ा
- जब हमारे सिस्टम आने वाले ऑडियो सैंपल को टेक्स्ट में बदलते हैं, तो उन सैंपल को, थोड़े समय के लिए डेटा सेव करके रखने वाली मेमोरी (रैम) में भेजा जाता है।
- जब डेटा रैम में मौजूद होता है, तब ट्रेनिंग एल्गोरिदम उन ऑडियो डेटा के सैंपल से रीयल टाइम में सीखता है।
- ऑडियो डेटा के ये सैंपल, थोड़े समय के लिए डेटा सेव करके रखने वाली इन मेमोरी से कुछ ही मिनट में मिट जाते हैं।
आपके डेटा को सुरक्षित रखने का तरीक़ा
इफ़ेमरल लर्निंग में, आपके ऑडियो डेटा के सैंपल:
- सिर्फ़ थोड़े समय के लिए डेटा सेव करके रखने वाली मेमोरी (रैम) में रखे जाते हैं। इन्हें कुछ मिनट से ज़्यादा सेव करके नहीं रखा जाता।
- कोई व्यक्ति कभी ऐक्सेस नहीं कर सकता।
- सर्वर पर कभी सेव नहीं किए जाते।
- मॉडल को ट्रेनिंग देने के लिए इस्तेमाल किए जाते हैं। इसमें ऐसे किसी भी अन्य डेटा को सेव नहीं किया जाता है जिससे आपकी पहचान ज़ाहिर होती हो।
Google इन टेक्नोलॉजी का इस्तेमाल और इनमें निवेश कैसे करेगा
हम इन सभी 3 टेक्नोलॉजी का इस्तेमाल करते रहेंगे। अच्छी क्वालिटी के लिए, ज़्यादातर मामलों में हम इनके कॉम्बिनेशन का इस्तेमाल करेंगे। हम बोली पहचानने के मॉडल के लिए, फ़ेडरेटेड लर्निंग और इफ़ेमरल लर्निंग, दोनों टेक्नोलॉजी को बेहतर बनाने की पूरी कोशिश कर रहे हैं। हमारा मक़सद इन टेक्नोलॉजी को ऐसे तरीक़ों से ज़्यादा असरदार और उपयोगी बनाना है जिनमें डिफ़ॉल्ट रूप से निजता की सुरक्षा का ध्यान रखा गया हो।