许多 Google 产品都支持语音识别功能。例如,你可以通过语音向 Google 助理寻求帮助,利用 Gboard 的语音输入功能发送消息给好友,以及在 Google Meet 中自动生成会议字幕。
语音技术越来越依赖于深度神经网络,这是一种机器学习技术,可帮助我们构建更准确、更快速的语音识别模型。通常,深度神经网络需要更大量的数据才能正常运行,并随着时间的推移不断改善,这个改善过程称为模型训练。
我们使用哪些技术来训练语音模型
Google 的语音团队使用 3 大类技术来训练语音模型:传统学习、联邦学习和临时学习。对于特定的任务和情形,有些技术相较于其他技术可能更加有效;而在某些情况下,我们会结合使用这些技术。这样,我们既可以从设计上保障用户隐私,又能尽量实现最佳品质。
传统学习我们运用传统学习来训练大部分的语音模型。
如何运用传统学习训练语音模型
- 在征得你的明确同意后,系统会收集音频样本并将其存储在 Google 的服务器上。
- 其中有一些音频样本会由人工审核者加上注解。
- 训练算法会从带注解的音频数据样本中学习。
- 监督式训练:系统会训练模型,模拟人工审核者对相同的音频添加注解。
- 非监督式训练:使用机器注解,而不是人工注解。
利用等量的数据进行训练时,由于监督式训练的注解质量更高,因此产生的语音识别模型往往会比非监督式训练更好。但另一方面,非监督式训练的学习对象是比较容易生成的机器注解,因此可以从更多音频样本中学习。
如何保障数据的私密性
联邦学习是一种由 Google 开发的技术,可用于直接在手机或其他设备上训练 AI 模型,同时保障隐私安全。当模型在你的设备上运行,并且有可供模型学习的数据时,我们会使用联邦学习来训练语音模型。
如何运用联邦学习训练语音模型
如果采用联邦学习,我们无需将你的音频数据发送到 Google 服务器即可训练语音模型。
- 为了实现联邦学习,我们会将你的音频数据保存在你的设备上。
- 训练算法会从设备上的这些数据中进行学习。
- 系统会将从你的设备获得的汇总学习成果与所有其他参与设备获得的学习成果加以结合,形成一个新的语音模型。
如何保障数据的私密性
了解我们如何在改进 Google 助理的同时确保你的语音和音频数据的私密性。在 Google 服务器上运行语音模型时,我们会采用临时学习技术来保护你的隐私。
如何运用临时学习训练语音模型
- 当系统将传入的音频样本转换为文本时,会一并将这些样本发送到短期内存 (RAM) 中。
- 数据保留在 RAM 中期间,训练算法会实时地从这些音频数据样本中进行学习。
- 系统会在几分钟后将这些音频数据样本从 RAM 中删除。
如何保障数据的私密性
采用临时学习时,你的音频数据样本:
- 仅会在 RAM 中保留几分钟时间。
- 绝对无法被真实用户访问。
- 绝对不会存储在服务器上。
- 可在无需任何其他身份识别数据的情况下用于训练模型。
Google 对这些技术的运用和投资方式
我们会继续采用这 3 类技术,并且经常会结合起来使用,以实现更高品质的训练效果。此外,我们还在设法改进联邦学习和临时学习在语音技术方面的成效。我们的目标是让这些技术更有效、更实用,并且在默认情况下能保护隐私。