تستخدم العديد من منتجات Google تقنية "التعرّف على الكلام". على سبيل المثال، يتيح لك "مساعد Google" طلب المساعدة باستخدام الصوت، ويتيح لك تطبيق Gboard إملاء الرسائل التي تريد إرسالها إلى أصدقائك، بينما توفّر خدمة Google Meet ميزة إضافة شرح تلقائي إلى اجتماعاتك.
تعتمد تقنيات الكلام بشكل متزايد على الشبكات العصبية العميقة، وهي نوع من تعلُّم الآلة يساعدنا في إنشاء نماذج للتعرّف على الكلام بشكل أدقّ وأسرع. وتحتاج الشبكات العصبية العميقة بشكل عام إلى كميات أكبر من البيانات لتعمل بفعالية وتتحسّن بمرور الوقت. وتُسمّى عملية التحسين هذه "تدريب النماذج".
التقنيات التي نستخدمها لتدريب نماذج الكلام
يستخدم فريق الكلام في Google ثلاث فئات رئيسية من التكنولوجيات لتدريب نماذج الكلام، وهي: التعلّم التقليدي والتعلّم الموحّد والتعلّم العابر. واستنادًا إلى المهمّة والموقف، تكون بعض هذه التقنيات أكثر فعالية من غيرها، وفي بعض الحالات، قد نستخدم مزيجًا منها. ويتيح لنا ذلك تحقيق أفضل جودة ممكنة، مع توفير تصميم يراعي الخصوصية.
التعلّم التقليدييتم تدريب معظم نماذج الكلام لدينا من خلال التعلّم التقليدي.
آلية عمل التعلّم التقليدي في تدريب نماذج الكلام
- بعد الحصول على موافقة صريحة منك، يتم جمع عيّنات صوتية وحفظها في خوادم Google.
- يضيف المراجعون تعليقات توضيحية على جزء من هذه العيّنات الصوتية.
- تكتسب خوارزمية تدريب معلوماتٍ من عيّنات البيانات الصوتية التي تم تقديم تعليقات توضيحية عليها.
- في التدريب الخاضع للإشراف: يتم تدريب النماذج على محاكاة التعليقات التوضيحية التي يقدّمها المراجعون على المقطع الصوتي نفسه.
- في التدريب غير الخاضع للإشراف: يتم استخدام تعليقات توضيحية آلية بدلاً من التعليقات التوضيحية البشرية.
عند التدريب على مقدار متساوٍ من البيانات، يؤدّي عادةً التدريب الخاضع للإشراف إلى تحسين نماذج التعرّف على الكلام بشكل أكبر مقارنةً بالتدريب غير الخاضع للإشراف لأن التعليقات التوضيحية في النوع الأول أعلى جودةً. من ناحية أخرى، يمكن للتدريب غير الخاضع للإشراف اكتساب معلومات من المزيد من العيّنات الصوتية لأنه يتعلّم من تعليقات توضيحية آلية يسهل أكثر إنتاجها.
الإجراءات المتّبعة للحفاظ على خصوصية بياناتك
تعرّف على مزيد من المعلومات حول الإجراءات التي تتّبعها Google للحفاظ على خصوصية بياناتك.
التعلّم الموحّد هو تقنية تحافظ على الخصوصية تم تطويرها في Google لتدريب نماذج الذكاء الاصطناعي مباشرةً على هاتفك أو على جهاز آخر. ونستخدم التعلّم التعاوني لتدريب نموذج الكلام عندما يتم تشغيل النموذج على جهازك وعندما تتوفّر بيانات كي يتعلّم النموذج منها.
طريقة عمل التعلّم الموحّد لتدريب نماذج الكلام
من خلال التعلّم الموحّد، ندرّب نماذج الكلام بدون إرسال بياناتك الصوتية إلى خوادم Google.
- لتفعيل التعلّم الموحّد، نحفظ بياناتك الصوتية على جهازك.
- تكتسب خوارزمية تدريب معلوماتٍ من هذه البيانات المحفوظة على جهازك.
- يتم تشكيل نموذج كلام جديد من خلال دمج بيانات التعلّم المجمّعة من جهازك مع بيانات التعلّم من جميع الأجهزة الأخرى المشاركة.
الإجراءات المتّبعة للحفاظ على خصوصية بياناتك
إدارة التسجيلات الصوتية في "النشاط على الويب وفي التطبيقات"آلية عمل التعلّم العابر لتدريب نماذج الكلام
- عندما تحوّل أنظمتنا العيّنات الصوتية الواردة إلى نص، يتم إرسال هذه العيّنات إلى ذاكرة قصيرة المدى، أي ذاكرة الوصول العشوائي (RAM).
- عندما تكون البيانات في ذاكرة الوصول العشوائي، تكتسب خوارزمية تدريب معلوماتٍ من هذه العيّنات من البيانات الصوتية في الوقت الفعلي.
- يتم حذف عيّنات البيانات الصوتية هذه من الذاكرة القصيرة المدى خلال دقائق.
الإجراءات المتّبعة للحفاظ على خصوصية بياناتك
عند استخدام التعلّم العابر، تُطبَّق الإجراءات التالية في ما يخصّ عيّنات بياناتك الصوتية:
- يتم الاحتفاظ بها في الذاكرة القصيرة المدى (ذاكرة الوصول العشوائي) فقط ولمدة لا تزيد عن بضع دقائق.
- لا يمكن لأي شخص الوصول إليها مطلقًا.
- لا يتم حفظها مطلقًا على أي خادم.
- تُستخدم لتدريب النماذج بدون أي بيانات إضافية تؤدي إلى تحديد هويتك.
كيف تخطّط Google لاستخدام هذه التقنيات والاستثمار فيها
سنواصل استخدام التقنيات الثلاث، وفي معظم الأوقات معًا، بهدف تحسين الجودة. ونعمل أيضًا بجهد لتحسين فئتَي التعلّم التعاوني والتعلّم العابر ضمن تقنيات الكلام. وهدفنا هو جعل هذه التقنيات أكثر فعاليةً وفائدةً، باتّباع طُرق تحافظ على الخصوصية تلقائيًا.