Descubre cómo Google mejora los modelos de voz

Muchos productos de Google incluyen reconocimiento de voz. Por ejemplo, puedes pedirle ayuda por voz al Asistente de Google, dictarles mensajes a tus amigos con Gboard y obtener subtítulos automáticos de tus reuniones en Google Meet.

Las tecnologías de voz se basan cada vez más en redes neuronales profundas, un tipo de aprendizaje automático que nos ayuda a crear modelos de reconocimiento de voz más precisos y rápidos. Por lo general, las redes neuronales profundas necesitan grandes cantidades de datos para funcionar correctamente y mejorar con el paso del tiempo. Este proceso de mejora se llama entrenamiento de modelos.

Tecnologías que usamos para entrenar modelos de voz

El equipo de voz de Google usa 3 grandes tipos de tecnologías para entrenar modelos de voz: aprendizaje convencional, aprendizaje federado y aprendizaje efímero. Según la tarea y la situación, algunos son más eficaces que otros y, en algunos casos, usamos una combinación de ellos. De esta manera, podemos lograr la mejor calidad posible y, al mismo tiempo, proporcionar privacidad desde el diseño.

Aprendizaje convencional

El aprendizaje convencional es la forma en que se entrenan la mayoría de nuestros modelos de voz.

Cómo funciona el aprendizaje convencional para entrenar modelos de voz

Con el consentimiento explícito del usuario, se recopilan muestras de audio y se almacenan en los servidores de Google.
Revisores manuales anotan parte de esas muestras.
Un algoritmo de entrenamiento aprende de las muestras de datos de audio anotadas.
- En entrenamiento supervisado: Los modelos se entrenan para imitar anotaciones de revisores manuales del mismo audio.
- En entrenamiento no supervisado: Se usan anotaciones artificiales en lugar de anotaciones humanas.

Cuando se realiza un entrenamiento con la misma cantidad de datos, el entrenamiento supervisado suele generar mejores modelos de reconocimiento de voz que el entrenamiento no supervisado, dado que las anotaciones son de mayor calidad. Por otro lado, el entrenamiento no supervisado puede aprender de más muestras de audio, ya que aprende de las anotaciones artificiales, que son más fáciles de producir.

Cómo se mantiene la privacidad de tus datos

Obtén más información sobre cómo Google mantiene tus datos privados.

Aprendizaje federado

El aprendizaje federado es una técnica desarrollada en Google para preservar la privacidad con el objetivo de entrenar modelos de IA directamente en tu teléfono o algún otro dispositivo. Usamos el aprendizaje federado a fin de entrenar un modelo de voz cuando el modelo se ejecuta en tu dispositivo y hay datos disponibles que pueda usar para aprender.

Cómo funciona el aprendizaje federado para entrenar modelos de voz

Con el aprendizaje federado, entrenamos modelos de voz sin enviar tus datos de audio a los servidores de Google.

Para habilitar el aprendizaje federado, guardamos los datos de audio en tu dispositivo.
Los algoritmos de entrenamiento aprenden de esos datos.
Para crear un nuevo modelo de voz, se combinan los aprendizajes agrupados de tu dispositivo junto con los de todos los demás dispositivos participantes.

Cómo se mantiene la privacidad de tus datos

Descubre cómo se mantienen privados tus datos de voz y audio al mismo tiempo que optimizamos Asistente de Google.

Aprendizaje efímero

El aprendizaje efímero es una técnica para preservar la privacidad que usamos cuando el modelo de voz se ejecuta en los servidores de Google.

Cómo funciona el aprendizaje efímero para entrenar modelos de voz

A medida que nuestros sistemas convierten muestras de audio entrantes en texto, esas muestras se envían a la memoria a corto plazo (RAM).
Mientras los datos se encuentran en la RAM, un algoritmo de entrenamiento aprende de esos datos de audio en tiempo real.
Esas muestras de datos de audio se borran de la memoria a corto plazo en cuestión de minutos.

Cómo se mantiene la privacidad de tus datos

Con el aprendizaje efímero, tus muestras de datos de audio:

Solo se preservan en la memoria a corto plazo (RAM) y durante no más de unos minutos.
No son revisadas por una persona.
No se almacenan en un servidor.
Se usan para entrenar modelos sin ningún dato adicional que pueda identificarte.

Cómo utilizará Google estas tecnologías y seguirá optimizándolas

Seguiremos usando las 3 tecnologías, a menudo combinadas para mejorar la calidad. También estamos trabajando activamente a fin de mejorar el aprendizaje federado y efímero para las tecnologías de voz. Nuestro objetivo es hacerlos más efectivos y útiles, y de maneras que preserven la privacidad de forma predeterminada.