ผลิตภัณฑ์จํานวนมากของ Google เกี่ยวข้องกับการจดจําคําพูด ตัวอย่างเช่น Google Assistant ช่วยให้คุณขอความช่วยเหลือด้วยเสียงได้ Gboard ช่วยคุณพิมพ์ข้อความตามคำบอกถึงเพื่อน และ Google Meet ก็มีคําบรรยายวิดีโออัตโนมัติสําหรับการประชุม
เทคโนโลยีเสียงพูดพึ่งพาโครงข่ายประสาทแบบลึกมากขึ้น โครงข่ายดังกล่าวเป็นแมชชีนเลิร์นนิงประเภทหนึ่งที่ช่วยให้เราสร้างโมเดลการจดจําคําพูดที่แม่นยําและรวดเร็วยิ่งขึ้นได้ โดยทั่วไปแล้ว โครงข่ายประสาทแบบลึกต้องการข้อมูลปริมาณมากขึ้นเพื่อให้ทํางานได้ดีและมีการปรับปรุงเมื่อเวลาผ่านไป กระบวนการปรับปรุงนี้เรียกว่าการฝึกโมเดล
เทคโนโลยีที่เราใช้เพื่อฝึกโมเดลเสียงพูด
ทีมพัฒนาเสียงพูดของ Google ใช้เทคโนโลยีที่แบ่งกว้างๆ เป็น 3 คลาสเพื่อฝึกโมเดลเสียงพูด ได้แก่ การเรียนรู้ตามแบบแผน การเรียนรู้แบบสมาพันธ์ และการเรียนรู้ชั่วคราว ในบางกรณี ทั้งนี้ขึ้นอยู่กับงานและสถานการณ์ เทคโนโลยีหนึ่งอาจมีประสิทธิภาพมากกว่าเทคโนโลยีอื่น และในบางกรณีเราจะใช้เทคโนโลยีหลายคลาสผสมกัน วิธีนี้ช่วยให้เราสร้างผลิตภัณฑ์ที่มีคุณภาพดีที่สุดเท่าที่จะเป็นไปได้ พร้อมทั้งมีการออกแบบโดยคำนึงถึงความเป็นส่วนตัว
การเรียนรู้ตามแบบแผนการเรียนรู้ตามแบบแผนเป็นวิธีการฝึกโมเดลเสียงพูดส่วนใหญ่ของเรา
วิธีการทํางานของการเรียนรู้ตามแบบแผนเพื่อฝึกโมเดลเสียงพูด
- ระบบจะรวบรวมและจัดเก็บตัวอย่างเสียงในเซิร์ฟเวอร์ของ Google หากได้รับความยินยอมอย่างชัดแจ้งจากคุณ
- ตัวอย่างเสียงส่วนหนึ่งจะได้รับการจัดจำแนกจากเจ้าหน้าที่ตรวจสอบ
- อัลกอริทึมการฝึกจะเรียนรู้จากตัวอย่างข้อมูลเสียงที่ได้รับการจัดจำแนก
- ในการฝึกภายใต้การควบคุม: โมเดลจะได้รับการฝึกให้เลียนแบบการจัดจำแนกจากเจ้าหน้าที่ตรวจสอบสำหรับเสียงแบบเดียวกัน
- ในการฝึกที่ไม่มีการควบคุม: ระบบจะใช้การจัดจำแนกของแมชชีนแทนการจัดจำแนกของเจ้าหน้าที่
เมื่อมีการฝึกกับข้อมูลในปริมาณเท่ากัน โดยทั่วไปแล้วการฝึกภายใต้การควบคุมจะให้ผลลัพธ์โมเดลการจดจำคำพูดที่ดีกว่าการฝึกที่ไม่มีการควบคุม เนื่องจากการจัดจำแนกมีคุณภาพสูงกว่า ในทางตรงกันข้าม การฝึกที่ไม่มีการควบคุมจะสามารถเรียนรู้จากตัวอย่างเสียงได้มากกว่า เนื่องจากเป็นการเรียนรู้จากการจัดจำแนกของแมชชีน ซึ่งสร้างได้ง่ายกว่า
ข้อมูลของคุณจะยังคงเป็นส่วนตัวได้อย่างไร
ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีที่ Google รักษาความเป็นส่วนตัวให้ข้อมูลของคุณ
การเรียนรู้แบบสมาพันธ์คือเทคนิคการรักษาความเป็นส่วนตัวซึ่งพัฒนาที่ Google เพื่อฝึกโมเดล AI โดยตรงในโทรศัพท์หรืออุปกรณ์อื่นๆ ของคุณ เราใช้การเรียนรู้แบบสมาพันธ์เพื่อฝึกโมเดลเสียงพูดเมื่อโมเดลทํางานบนอุปกรณ์และข้อมูลของคุณพร้อมให้โมเดลเรียนรู้
วิธีการทํางานของการเรียนรู้แบบสมาพันธ์เพื่อฝึกโมเดลเสียงพูด
ในการเรียนรู้แบบสมาพันธ์ เราฝึกโมเดลเสียงพูดโดยไม่ส่งข้อมูลเสียงของคุณไปยังเซิร์ฟเวอร์ของ Google
- เราบันทึกข้อมูลเสียงไว้ในอุปกรณ์ของคุณเพื่อเปิดใช้การเรียนรู้แบบสมาพันธ์
- อัลกอริทึมการฝึกจะเรียนรู้จากข้อมูลนี้ในอุปกรณ์
- โมเดลเสียงพูดใหม่จะสร้างขึ้นโดยนําการเรียนรู้ที่รวบรวมจากอุปกรณ์ของคุณมาผสานกับการเรียนรู้จากอุปกรณ์อื่นๆ ที่เข้าร่วมทั้งหมด
ข้อมูลของคุณจะยังคงเป็นส่วนตัวได้อย่างไร
ดูวิธีที่เรารักษาความเป็นส่วนตัวให้ข้อมูลเสียงพูดและเสียงของคุณไปพร้อมๆ กับการปรับปรุง Google Assistant ให้ดียิ่งขึ้นวิธีการทํางานของการเรียนรู้ชั่วคราวเพื่อฝึกโมเดลเสียงพูด
- ระบบของเราจะแปลงตัวอย่างเสียงที่ป้อนเข้ามาให้เป็นข้อความ และส่งไปยังหน่วยความจําระยะสั้น (RAM)
- ขณะข้อมูลอยู่ใน RAM อัลกอริทึมการฝึกจะเรียนรู้จากตัวอย่างข้อมูลเสียงเหล่านั้นแบบเรียลไทม์
- ระบบจะลบตัวอย่างข้อมูลเสียงเหล่านี้ออกจากหน่วยความจําระยะสั้นภายในไม่กี่นาที
ข้อมูลของคุณจะยังคงเป็นส่วนตัวได้อย่างไร
ในการเรียนรู้ชั่วคราว ตัวอย่างข้อมูลเสียงของคุณจะมีลักษณะดังนี้
- เก็บอยู่ในหน่วยความจําระยะสั้น (RAM) เท่านั้น และเก็บไว้เพียงไม่กี่นาที
- มนุษย์ไม่สามารถเข้าถึงได้
- ไม่เก็บข้อมูลไว้ในเซิร์ฟเวอร์
- ใช้เพื่อฝึกโมเดลโดยไม่มีข้อมูลเพิ่มเติมที่ระบุตัวตนของคุณได้
วิธีที่ Google จะใช้และลงทุนในเทคโนโลยีเหล่านี้
เราจะใช้เทคโนโลยีทั้ง 3 รูปแบบต่อไป ซึ่งมักจะผสมผสานกันเพื่อคุณภาพที่ดียิ่งขึ้น นอกจากนี้ เรายังทุ่มเททํางานเพื่อปรับปรุงการเรียนรู้แบบสมาพันธ์และการเรียนรู้ชั่วคราวสําหรับเทคโนโลยีเสียงพูดด้วย เป้าหมายของเราคือการทําให้เทคโนโลยีเหล่านี้มีประสิทธิภาพและเป็นประโยชน์มากขึ้น รวมถึงรักษาความเป็นส่วนตัวไว้โดยค่าเริ่มต้น