Ta reda på hur Google förbättrar talmodeller

Taligenkänning finns i många av Googles produkter. Du kan till exempel be Google-assistenten om hjälp med rösten, diktera meddelanden till vänner med Gboard och få automatisk textning under möten i Google Meet.

Taltekniken bygger i allt större utsträckning på djupa neuronnät – en typ av maskininlärning som hjälper oss att skapa snabbare och mer exakta taligenkänningsmodeller. Djupa neuronnät kräver i allmänhet en större mängd data för att fungera bra och förbättras över tid. Denna förbättringsprocess kallas modellträning.

Dessa typer av teknik använder vi för att träna talmodeller

Googles team för taligenkänning använder teknik från tre breda kategorier för att träna talmodeller: konventionell inlärning, federerad inlärning och efemär inlärning. Beroende på uppgift och situation är vissa av dem mer effektiva än andra, och i vissa fall använder vi en kombination av dem. På så sätt kan vi uppnå bästa möjliga kvalitet och samtidigt tillhandahålla inbyggd integritet.

Konventionell inlärning

Konventionell inlärning används för att träna de flesta av våra talmodeller.

Så här fungerar konventionell inlärning vid träning av talmodeller

Om du aktivt samtycker till det samlas ljudprov in och lagras på Googles servrar.
En del av dessa ljudprov kommenteras av mänskliga granskare.
En träningsalgoritm lär sig av dessa kommenterade ljuddataprov.
- Vid vägledd inlärning: Modellerna tränas för att efterlikna kommentarer från mänskliga granskare för samma ljud.
- Vid icke-vägledd inlärning: Kommentarerna som används är maskingenererade i stället för att komma från mänskliga granskare.

Vid träning på lika stora mängder data resulterar vägledd inlärning oftast i bättre taligenkänningsmodeller än icke-vägledd inlärning eftersom kommentarerna är av högre kvalitet. Å andra sidan kan urvalet bestå av fler ljudprov vid icke-vägledd inlärning eftersom maskingenererade kommentarer används, och de är enklare att producera.

Så här förblir din data privat

Läs mer om hur Google ser till att din data förblir privat.

Federerad inlärning

Federerad inlärning är en integritetsbevarande teknik som har utvecklats av Google för att träna AI-modeller direkt på telefonen eller andra enheter. Vi använder federerad inlärning för att träna en talmodell när modellen körs på din enhet och det finns data som modellen kan lära sig av.

Så här fungerar federerad inlärning vid träning av talmodeller

Vid federerad inlärning tränar vi talmodeller utan att skicka ljuddata till Googles servrar.

Vi sparar din ljuddata på enheten för att möjliggöra federerad inlärning.
En träningsalgoritm lär sig av denna data på enheten.
En ny talmodell skapas genom att den sammanställda inlärningsdatan från enheten kombineras med inlärningsdata från alla andra enheter som ingår i underlaget.

Så här förblir din data privat

Läs mer om hur din röst- och ljuddata förblir privat och Google Assistent förbättras.

Efemär inlärning

Efemär inlärning är en integritetsbevarande teknik som vi använder när talmodellen körs på Googles servrar.

Så här fungerar efemär inlärning vid träning av talmodeller

Våra system konverterar inkommande ljudprov till text. Dessa stickprov skickas till arbetsminnet (RAM).
När data lagras i RAM-minnet lär sig en träningsalgoritm av ljuddataproven i realtid.
Dessa ljuddataprov raderas från arbetsminnet inom några minuter.

Så här förblir din data privat

Vid efemär inlärning

lagras ljuddataproven endast i arbetsminnet (RAM) och i högst några minuter
får ingen människa åtkomst till ljuddataproven
sparas ljuddataproven aldrig på en server
används ljuddataproven för att träna modeller utan ytterligare data som kan identifiera dig.

Så här använder och investerar Google i denna teknik

Vi fortsätter att använda alla tre typer av teknik, ofta i kombination för bästa möjliga resultat. Vi arbetar även aktivt med att förbättra både federerad och efemär inlärning för talteknik. Vårt mål är att göra dem mer effektiva och användbara samtidigt som integriteten skyddas systematiskt.