Muchos productos de Google utilizan reconocimiento de voz. Por ejemplo, el Asistente de Google permite pedir ayuda con la voz; con Gboard, se pueden dictar mensajes para los amigos, y Google Meet ofrece subtítulos automáticos para las reuniones.
Las tecnologías de reconocimiento de voz se basan cada vez más en las redes neuronales profundas, un tipo de aprendizaje automático que nos ayuda a crear modelos más precisos y rápidos. Por lo general, las redes neuronales profundas necesitan mayores cantidades de datos para funcionar bien y mejoran con el tiempo. Este proceso de mejora se denomina "entrenamiento de modelos".
Qué tecnologías usamos para entrenar modelos de voz
El equipo de voz de Google utiliza tres grandes clases de tecnologías para entrenar modelos de voz: aprendizaje convencional, aprendizaje federado y aprendizaje efímero. Dependiendo de la tarea y la situación, algunas de ellas son más eficaces que otras y, en algunos casos, las combinamos. De esta forma, conseguimos la mejor calidad posible y, al mismo tiempo, proporcionamos privacidad desde el diseño.
Aprendizaje convencionalEl aprendizaje convencional es la forma en la que entrenamos la mayoría de nuestros modelos de voz.
Cómo funciona el aprendizaje convencional para entrenar modelos de voz
- Con tu consentimiento explícito, se recogen y almacenan fragmentos de audio en los servidores de Google.
- Una parte de estos fragmentos la anotan revisores humanos.
- Un algoritmo de entrenamiento aprende a partir de muestras de datos de audio anotadas.
- Con el entrenamiento supervisado, los modelos se entrenan para imitar las anotaciones de un revisor humano para el mismo audio.
- Con el entrenamiento no supervisado, se utilizan anotaciones automáticas en lugar de anotaciones humanas.
Si se utiliza la misma cantidad de datos, el entrenamiento supervisado suele generar mejores modelos de reconocimiento de voz que el entrenamiento no supervisado porque las anotaciones son de mayor calidad. Por otro lado, el entrenamiento no supervisado puede aprender de más fragmentos de audio, ya que se basa en anotaciones automáticas, que son más fáciles de producir.
Cómo se mantiene la privacidad de los datos
Más información sobre cómo mantiene Google la privacidad de los datos
El aprendizaje federado es una técnica de protección de la privacidad desarrollada en Google para entrenar modelos de IA directamente desde un teléfono u otro dispositivo. Utilizamos el aprendizaje federado para entrenar un modelo de voz cuando este se ejecuta en tu dispositivo y hay datos disponibles para su aprendizaje.
Cómo funciona el aprendizaje federado para entrenar modelos de voz
Con el aprendizaje federado, entrenamos modelos de voz sin enviar tus datos de audio a los servidores de Google.
- Para habilitar el aprendizaje federado, guardamos esos datos en tu dispositivo.
- Un algoritmo de entrenamiento aprende de estos datos en tu dispositivo.
- Se crea un nuevo modelo de voz combinando el aprendizaje acumulado de tu dispositivo con el aprendizaje del resto de los dispositivos participantes.
Cómo se mantiene la privacidad de los datos
Consulta cómo se mantiene la privacidad de tus datos de voz y audio mientras el Asistente de Google mejora.Cómo funciona el aprendizaje efímero para entrenar modelos de voz
- A medida que nuestros sistemas convierten las muestras de audio entrantes en texto, estas se envían a la memoria a corto plazo (RAM).
- Mientras los datos están en la RAM, un algoritmo de entrenamiento aprende de esas muestras de datos de audio en tiempo real.
- Estas muestras de datos de audio se eliminan de la memoria a corto plazo en cuestión de minutos.
Cómo se mantiene la privacidad de los datos
Con el aprendizaje efímero, las muestras de datos de audio:
- Únicamente se almacenan en la memoria a corto plazo (RAM) y durante solo unos minutos.
- Nunca están al alcance de ninguna persona.
- Nunca se almacenan en ningún servidor.
- Sirven para entrenar modelos sin datos adicionales que puedan identificarte.
Cómo usará Google estas tecnologías e invertirá en ellas
Seguiremos utilizando las tres tecnologías, normalmente combinadas para obtener una mejor calidad. También estamos trabajando activamente para mejorar tanto el aprendizaje federado como el efímero en las tecnologías de reconocimiento de voz. Nuestro objetivo es conseguir que sean más eficaces y útiles, y que protejan la privacidad de forma predeterminada.