了解 Google 改进语音模型的方式

许多 Google 产品都支持语音识别功能。例如，你可以通过语音向 Google 助理寻求帮助，利用 Gboard 的语音输入功能发送消息给好友，以及在 Google Meet 中自动生成会议字幕。

语音技术越来越依赖于深度神经网络，这是一种机器学习技术，可帮助我们构建更准确、更快速的语音识别模型。通常，深度神经网络需要更大量的数据才能正常运行，并随着时间的推移不断改善，这个改善过程称为模型训练。

我们使用哪些技术来训练语音模型

Google 的语音团队使用 3 大类技术来训练语音模型：传统学习、联邦学习和临时学习。对于特定的任务和情形，有些技术相较于其他技术可能更加有效；而在某些情况下，我们会结合使用这些技术。这样，我们既可以从设计上保障用户隐私，又能尽量实现最佳品质。

我们运用传统学习来训练大部分的语音模型。

在征得你的明确同意后，系统会收集音频样本并将其存储在 Google 的服务器上。
其中有一些音频样本会由人工审核者加上注解。
训练算法会从带注解的音频数据样本中学习。
- 监督式训练：系统会训练模型，模拟人工审核者对相同的音频添加注解。
- 非监督式训练：使用机器注解，而不是人工注解。

利用等量的数据进行训练时，由于监督式训练的注解质量更高，因此产生的语音识别模型往往会比非监督式训练更好。但另一方面，非监督式训练的学习对象是比较容易生成的机器注解，因此可以从更多音频样本中学习。

联邦学习是一种由 Google 开发的技术，可用于直接在手机或其他设备上训练 AI 模型，同时保障隐私安全。当模型在你的设备上运行，并且有可供模型学习的数据时，我们会使用联邦学习来训练语音模型。

如果采用联邦学习，我们无需将你的音频数据发送到 Google 服务器即可训练语音模型。

在 Google 服务器上运行语音模型时，我们会采用临时学习技术来保护你的隐私。

采用临时学习时，你的音频数据样本：

我们会继续采用这 3 类技术，并且经常会结合起来使用，以实现更高品质的训练效果。此外，我们还在设法改进联邦学习和临时学习在语音技术方面的成效。我们的目标是让这些技术更有效、更实用，并且在默认情况下能保护隐私。