Как Google улучшает речевые модели

Компания Google использует технологии распознавания речи во многих своих продуктах. Например, голосовая команда нужна, чтобы обратиться к Google Ассистенту. В Gboard можно набирать сообщения друзьям, используя голосовой ввод, а в Google Meet – создавать автоматические субтитры во время встреч.

Всё больше технологий распознавания речи создается на базе глубоких нейронных сетей. Этот вид машинного обучения помогает быстрее выстраивать более точные речевые модели. Чтобы делать это эффективнее, глубоким нейронным сетям, как правило, требуется увеличивать объемы данных. Процесс улучшения работы сетей называется обучением моделей.

Технологии обучения речевых моделей

Команда Google применяет три основных метода обучения речевых моделей: традиционный, федеративный и эфемерный. Выбор метода зависит от поставленной задачи и ситуации. В некоторых случаях можно использовать несколько способов обучения. Это позволяет сделать работу максимально качественно и обеспечить проектируемую конфиденциальность.

Традиционное обучение

Это самый распространенный метод обучения речевых моделей.

Как работает технология традиционного обучения

С вашего согласия аудиофрагменты собираются и хранятся на серверах Google.
Специалисты обрабатывают некоторые из этих аудиозаписей.
Алгоритм учится на основе выборки аудиоданных.
- Обучение с учителем. Модели создаются на основе заметок специалистов к аудиозаписи.
- Обучение без учителя. Вместо заметок специалиста используются машинные записи.

При одинаковых объемах данных обучение с учителем обычно создает более точные речевые модели, чем без учителя. Это объясняется лучшим качеством заметок, составленных специалистом. С другой стороны, при обучении без учителя можно использовать больше аудиофрагментов, потому что машинные заметки создавать проще.

Как обеспечивается конфиденциальность ваших данных

Подробнее о том, как Google обеспечивает конфиденциальность ваших данных…

Федеративное обучение

Федеративное обучение – это разработанный в Google метод машинного обучения непосредственно на вашем телефоне или другом устройстве с обеспечением конфиденциальности данных. Этот метод позволяет обучать речевую модель на вашем устройстве в тот момент, когда доступны нужные ей данные.

Как работает федеративное обучение речевых моделей

При использовании этого метода ваши аудиоданные не отправляются на серверы Google.

Аудиофрагменты сохраняются на вашем устройстве.
Алгоритм обучения использует их там же.
Новая речевая модель создается в результате объединения обучающих алгоритмов с вашего устройства и с устройств других пользователей.

Как обеспечивается конфиденциальность ваших данных

Подробнее о конфиденциальности ваших аудиоданных и образцов голоса и улучшении работы Google Ассистента…

Эфемерное обучение

Эфемерное обучение – это метод машинного обучения, при котором речевая модель создается на серверах Google при сохранении конфиденциальности данных пользователей.

Как работает эфемерное обучение речевых моделей

После преобразования входящих аудиофрагментов в текст, они отправляются на оперативное запоминающее устройство (ОЗУ).
Пока данные находятся там, алгоритм обучается на них в режиме реального времени.
Через несколько минут образцы аудио удаляются.

Как обеспечивается конфиденциальность ваших данных

При эфемерном обучении ваши аудиофрагменты:

Хранятся только на оперативном запоминающем устройстве (ОЗУ) не более нескольких минут.
Недоступны для специалистов.
Никогда не хранятся на сервере.
Используются для обучения моделей без раскрытия персональной информации.

Как Google будет использовать эти технологии и инвестировать в них

Все три технологии и их сочетания будут использоваться для повышения качества наших продуктов. Также ведется активная работа по улучшению федеративного и эфемерного методов обучения для технологий распознавания речи. Наша цель – сделать их ещё эффективнее и полезнее и при этом сохранить конфиденциальность ваших данных.