Scopri come Google migliora i modelli vocali

Molti prodotti Google includono funzionalità di riconoscimento vocale. Ad esempio, l'Assistente Google ti consente di chiedere aiuto tramite comandi vocali, Gboard ti consente di dettare messaggi per i tuoi amici e Google Meet fornisce i sottotitoli automatici per le tue riunioni.

Le tecnologie di riconoscimento vocale si affidano sempre più a reti neurali profonde, un tipo di machine learning che ci aiuta a creare modelli di riconoscimento vocale più precisi e più veloci. In genere, le reti neurali profonde richiedono grandi quantità di dati per funzionare bene e migliorare nel tempo. Questo processo di miglioramento è chiamato addestramento di modelli.

Quali tecnologie utilizziamo per addestrare i modelli vocali

Il team linguistico di Google utilizza 3 ampie categorie di tecnologie per l'addestramento dei modelli vocali: apprendimento convenzionale, apprendimento federato e apprendimento temporaneo. A seconda dell'attività e della situazione, alcune di queste sono più efficaci di altre e, in alcuni casi, le utilizziamo in diverse combinazioni. Questo ci consente di ottenere la migliore qualità possibile, sempre rispettando l'approccio "privacy by design".

Apprendimento convenzionale

L'apprendimento convenzionale è il modo in cui viene addestrata la maggior parte dei nostri modelli vocali.

Come funziona l'apprendimento convenzionale per l'addestramento dei modelli vocali

Con il tuo consenso esplicito, i campioni audio vengono raccolti e archiviati sui server di Google.
Una parte di questi campioni audio è annotata da revisori umani.
Un algoritmo di addestramento impara da questi campioni di dati audio annotati.
- Nell'addestramento supervisionato: i modelli vengono addestrati per simulare le annotazioni di revisori umani per lo stesso audio.
- Nell'addestramento non supervisionato: vengono usate le annotazioni automatiche al posto delle annotazioni umane.

Quando si usano entrambe le modalità per la stessa quantità di dati, in genere l'addestramento supervisionato mostra migliori risultati nei modelli di riconoscimento vocale rispetto all'addestramento non supervisionato, poiché le annotazioni sono di qualità superiore. D'altro canto, l'addestramento non supervisionato può apprendere da più campioni audio, poiché impara dalle annotazioni del computer, più facili da produrre.

In che modo i tuoi dati rimangono privati

Scopri di più su come Google mantiene privati i tuoi dati.

Apprendimento federato

L'apprendimento federato è una tecnica sviluppata in Google per addestrare i modelli di AI direttamente sul tuo telefono o un altro dispositivo nel rispetto della privacy. Utilizziamo l'apprendimento federato per addestrare un modello vocale quando il modello viene eseguito sul tuo dispositivo e sono disponibili dati per l'addestramento.

Come funziona l'apprendimento federato per l'addestramento dei modelli vocali

Con l'apprendimento federato, addestriamo i modelli vocali senza inviare i tuoi dati audio ai server di Google.

Per consentire l'apprendimento federato, salviamo i dati audio sul tuo dispositivo.
Un algoritmo di addestramento impara da questi dati sul tuo dispositivo.
Viene creato un nuovo modello vocale combinando quanto appreso dal dispositivo e le informazioni di tutti gli altri dispositivi partecipanti.

In che modo i tuoi dati rimangono privati

Scopri come i tuoi dati vocali e audio restano privati mentre l'Assistente Google migliora.

Apprendimento temporaneo

L'apprendimento temporaneo è una tecnica che utilizziamo quando il modello vocale viene eseguito sui server di Google e che consente di rispettare la privacy.

Come funziona l'apprendimento temporaneo per l'addestramento dei modelli vocali

Quando i nostri sistemi convertono i campioni audio in entrata in testo, questi vengono inviati alla memoria a breve termine (RAM).
Un algoritmo di addestramento impara in tempo reale da questi dati mentre si trovano nella RAM.
Questi campioni di dati audio vengono eliminati dalla memoria a breve termine entro pochi minuti.

In che modo i tuoi dati rimangono privati

Con l'apprendimento temporaneo i tuoi campioni di dati audio:

Vengono conservati solo nella memoria a breve termine (RAM) e per non più di qualche minuto.
Non sono mai accessibili da persone fisiche.
Non vengono mai archiviati su server.
Vengono utilizzati per addestrare i modelli senza alcun dato aggiuntivo che possa identificarti.

In che modo Google utilizzerà e investirà in queste tecnologie

Continueremo a usare tutte e 3 le tecnologie, spesso in combinazione per ottenere una qualità superiore. Inoltre, stiamo lavorando per migliorare l'apprendimento federato e temporaneo per le tecnologie di riconoscimento vocale. Il nostro obiettivo è renderle più efficaci e utili, mettendo la privacy sempre al primo posto.