Meer informatie over hoe Google spraakmodellen verbetert

In veel Google-producten wordt spraakherkenning gebruikt. Met de Google Assistent kun je bijvoorbeeld met je stem om hulp vragen, met Gboard kun je berichten voor je vrienden dicteren en Google Meet biedt automatische ondertiteling voor doven en slechthorenden voor je vergaderingen.

Spraaktechnologieën zijn steeds meer afhankelijk van diepe neurale netwerken, een soort machine learning waarmee we nauwkeurigere en snellere modellen voor spraakherkenning kunnen ontwikkelen. Over het algemeen hebben diepe neurale netwerken meer gegevens nodig om goed te functioneren en na verloop van tijd ook beter te werken. Dit verbeteringsproces wordt modeltraining genoemd.

De technologieën die we gebruiken om spraakmodellen te trainen

Het spraakteam van Google gebruikt 3 brede categorieën technologieën om spraakmodellen te trainen: conventioneel leren, federated learning en kortstondig leren. Afhankelijk van de taak en de situatie zijn sommige technologieën effectiever dan andere. In sommige gevallen gebruiken we een combinatie. Zo kunnen we de best mogelijke kwaliteit bereiken en leveren we een product dat is ontworpen voor privacy.

Conventioneel leren

Conventioneel leren is de manier waarop de meeste van onze spraakmodellen worden getraind.

Hoe conventioneel leren spraakmodellen traint

Met jouw expliciete toestemming worden audiofragmenten verzameld en opgeslagen op de servers van Google.
Een deel van deze audiofragmenten wordt geannoteerd door reviewers.
Een trainingsalgoritme leert die geannoteerde audiogegevens.
- Bij training met toezicht: Modellen worden getraind om annotaties van menselijke reviewers voor dezelfde audio na te bootsen.
- In training zonder toezicht: In plaats van menselijke annotaties worden machine-annotaties gebruikt.

Bij training op basis van gelijke hoeveelheden gegevens leidt training met toezicht tot betere modellen voor spraakherkenning dan training zonder toezicht, omdat de annotaties van hogere kwaliteit zijn. Aan de andere kant kan met training zonder toezicht van meer audiofragmenten worden geleerd, omdat van machine-annotaties wordt geleerd die makkelijker te produceren zijn.

Hoe je gegevens privé blijven

Lees meer informatie over hoe Google je gegevens privé houdt.

Federated learning

Federated learning is een techniek die privacy behoudt en die is ontwikkeld door Google om AI-modellen rechtstreeks op je telefoon of een ander apparaat te trainen. We gebruiken federated learning om een spraakmodel te trainen wanneer het model op je apparaat wordt uitgevoerd en er gegevens beschikbaar zijn voor het model om van te leren.

Hoe federated learning spraakmodellen traint

Met federated learning trainen we spraakmodellen zonder je audiogegevens naar de servers van Google te sturen.

We slaan je audiogegevens op je apparaat op om federated learning toe te passen.
Een trainingsalgoritme leert van deze gegevens op je apparaat.
Er wordt een nieuw spraakmodel gemaakt door de verzamelde gegevens van je apparaat te combineren met gegevens van alle andere deelnemende apparaten.

Hoe je gegevens privé blijven

Lees meer informatie over hoe je spraak- en audiogegevens privé blijven terwijl de Google Assistent beter wordt

Kortstondig leren

Kortstondig leren is een techniek die je privacy behoudt. Deze techniek wordt gebruikt als het spraakmodel wordt uitgevoerd op de servers van Google.

Hoe kortstondig leren werkt om spraakmodellen te trainen

Onze systemen zetten inkomende audiofragmenten om in tekst, en deze fragmenten worden verstuurd naar het kortetermijngeheugen (RAM).
Terwijl de gegevens in het RAM-geheugen worden opgeslagen, leert een trainingsalgoritme in realtime van de audiogegevens.
Deze audiogegevens worden na enkele minuten uit het kortetermijngeheugen verwijderd.

Hoe je gegevens privé blijven

Bij kortstondig leren worden de audiogegevens:

Gedurende slechts enkele minuten in het kortetermijngeheugen (RAM) opgeslagen.
Nooit toegankelijk voor mensen.
Nooit opgeslagen op een server.
Gebruikt om modellen te trainen zonder aanvullende gegevens waarmee je geïdentificeerd kunt worden.

Hoe Google in deze technologieën investeert en ze gebruikt

We blijven alle 3 technologieën gebruiken, vaak gecombineerd om een hogere kwaliteit te bereiken. We werken er ook actief aan om zowel federated learning als kortstondig leren te verbeteren voor spraaktechnologieën. We streven ernaar om ze effectiever en nuttiger maken, op manieren waarbij het behoud van privacy standaard is.