Découvrir comment Google améliore les modèles de reconnaissance vocale

De nombreux produits Google font appel à la reconnaissance vocale. Par exemple, vous pouvez demander de l'aide à l'Assistant Google par commande vocale, Gboard vous permet de dicter des messages à vos amis, et Google Meet assure le sous-titrage automatique de vos réunions.

Les technologies vocales reposent de plus en plus sur les réseaux de neurones profonds, un type de machine learning (apprentissage automatique) qui nous aide à créer des modèles de reconnaissance vocale plus précis et plus rapides. Généralement, les réseaux de neurones profonds ont besoin d'un plus grand volume de données pour fonctionner et s'améliorer au fil du temps. On appelle ce processus d'amélioration l'entraînement de modèle.

Technologies utilisées pour entraîner les modèles de reconnaissance vocale

L'équipe Google chargée de la reconnaissance vocale utilise trois grandes catégories de technologies pour entraîner les modèles de reconnaissance vocale : l'apprentissage conventionnel, l'apprentissage fédéré et l'apprentissage éphémère. Selon la tâche et la situation, certaines technologies sont plus efficaces que d'autres et, dans certains cas, nous les combinons. Nous pouvons ainsi obtenir la meilleure qualité possible, tout en assurant la protection des données personnelles dès la conception.

Apprentissage conventionnel

L'apprentissage conventionnel est la méthode d'entraînement appliquée à la plupart de nos modèles de reconnaissance vocale.

Entraînement des modèles de reconnaissance vocale avec l'apprentissage conventionnel

Avec votre consentement explicite, des échantillons audio sont recueillis et stockés sur les serveurs de Google.
Une partie de ces échantillons audio est annotée manuellement.
Un algorithme d'entraînement apprend à partir des échantillons de données audio annotés.
- En cas d'entraînement supervisé, les modèles sont entraînés à imiter les annotations manuelles pour le même contenu audio.
- En cas d'entraînement non supervisé, des annotations ajoutées par des machines sont utilisées à la place des annotations ajoutées manuellement.

Sur des quantités égales de données, l'entraînement supervisé offre généralement de meilleurs modèles de reconnaissance vocale que l'entraînement non supervisé, car les annotations sont de qualité supérieure. En revanche, l'entraînement non supervisé peut apprendre à partir d'une quantité supérieure d'échantillons audio, car il s'agit d'annotations de machines, plus faciles à produire.

Comment vos données restent privées

Découvrez comment Google assure la confidentialité de vos données.

Apprentissage fédéré

L'apprentissage fédéré est une technique développée par Google qui assure la protection de la confidentialité des utilisateurs, permettant d'entraîner des modèles d'IA directement sur leur téléphone ou sur un autre appareil. Nous utilisons l'apprentissage fédéré pour entraîner un modèle de reconnaissance vocale lorsque celui-ci s'exécute sur votre appareil et que les données sont accessibles comme base d'apprentissage.

Entraînement des modèles de reconnaissance vocale avec l'apprentissage fédéré

L'apprentissage fédéré nous permet d'entraîner des modèles de reconnaissance vocale sans envoyer vos données audio aux serveurs de Google.

Pour permettre l'apprentissage fédéré, nous enregistrons vos données audio sur votre appareil.
Un algorithme d'entraînement apprend à partir des données stockées sur votre appareil.
Un nouveau modèle de reconnaissance vocale se crée en combinant les apprentissages issus de votre appareil avec ceux de tous les autres appareils participants.

Comment vos données restent privées

Découvrez comment la confidentialité de vos données vocales et audio est préservée pendant que l'Assistant Google s'améliore.

Apprentissage éphémère

L'apprentissage éphémère est une technique assurant la protection de la confidentialité que nous utilisons lorsque le modèle de reconnaissance vocale s'exécute sur les serveurs de Google.

Entraînement des modèles de reconnaissance vocale avec l'apprentissage éphémère

Lorsque nos systèmes convertissent des échantillons audio entrants en texte, ces échantillons sont envoyés dans la mémoire à court terme (RAM).
Une fois les données en mémoire RAM, un algorithme d'entraînement apprend en temps réel en se basant sur les échantillons de données audio.
Ceux-ci sont supprimés de la mémoire à court terme en quelques minutes.

Comment vos données restent privées

Avec l'apprentissage éphémère, vos échantillons de données audio :

ne sont disponibles que dans la mémoire à court terme (RAM) et pendant quelques minutes seulement ;
ne sont accessibles par personne ;
ne sont jamais stockés sur un serveur ;
sont utilisés pour entraîner des modèles sans données supplémentaires permettant de vous identifier.

Comment Google prévoit d'investir dans ces technologies et de les utiliser

Nous continuerons d'utiliser les trois technologies, souvent de manière combinée pour une meilleure qualité. Nous nous efforçons également d'améliorer les apprentissages fédéré et éphémère pour les technologies de reconnaissance vocale. Notre objectif est de les rendre plus efficaces et utiles, tout en assurant la protection de la confidentialité par défaut.