Mange Google-produkter bruker talegjenkjenning. Du kan for eksempel bruke stemmen for å be Google-assistenten om hjelp, du kan bruke Gboard til å diktere meldinger til vennene dine, og i Google Meet får du automatisk teksting av møter.
Taleteknologi bruker i økende grad nevrale nettverk, som er en type maskinlæring vi bruker for å utvikle mer nøyaktige og raskere modeller for talegjenkjenning. Generelt krever nevrale nettverk større mengder data for å fungere godt og bli bedre over tid. Denne forbedringsprosessen kalles modellopplæring.
Teknologier vi bruker for å lære opp talemodeller
Googles taleteam bruker tre teknologityper for å lære opp talemodeller: tradisjonell læring, distribuert læring og midlertidig læring. Den ene metoden kan være mer effektiv enn den andre avhengig av situasjonen eller oppgaven, og noen ganger bruker vi dem sammen. Dette gjør at vi kan oppnå best mulig kvalitet samtidig som vi ivaretar brukernes personvern.
Tradisjonell læringTradisjonell læring er metoden vi bruker for å utvikle de fleste talemodellene våre.
Slik brukes tradisjonell læring for å utvikle talemodeller
- Når du gir uttrykkelig samtykke til det, samles det inn lydklipp som lagres på Googles tjenere.
- En del av disse lydklippene annoteres av menneskelige evaluerere.
- En opplæringsalgoritme lærer fra annoterte utvalg med lyddata.
- Ved overvåket opplæring: Modellene læres opp til å etterligne annoteringer fra menneskelige evaluerere for den samme lyden.
- Ved opplæring som ikke er overvåket: Maskinannoteringer brukes i stedet for menneskelige annoteringer.
Når det brukes like mye data i disse to formene for opplæring, gir overvåket opplæring vanligvis bedre modeller for talegjenkjenning enn opplæring som ikke er overvåket. Dette er fordi annoteringene er av høyere kvalitet. På den annen side kan opplæring som ikke er overvåket, lære fra flere lydklipp siden det brukes maskinannoteringer, som er enklere å produsere.
Slik holdes dataene dine private
Distribuert læring er en teknikk som ivaretar brukernes personvern. Denne er utviklet av Google for å lære opp AI-modeller rett på telefoner eller andre enheter. Vi bruker distribuert læring til å lære opp talemodeller når modellene kjører på enheten din, og det finnes data de kan lære fra.
Slik brukes distribuert læring til å lære opp talemodeller
Når vi bruker distribuert læring, lærer vi opp talemodeller uten å sende lyddataene dine til Googles tjenere.
- For å gjøre det mulig å bruke distribuert læring lagrer vi lyddataene dine på enheten din.
- En opplæringsalgoritme lærer av disse dataene på enheten.
- En ny talemodell dannes ved å kombinere de samlede læringsresultatene fra enheten din med læringsresultater fra andre deltakende enheter.
Slik holdes dataene dine private
Finn ut hvordan tale- og lyddataene dine holdes private samtidig som Google-assistenten forbedres.Slik brukes midlertidig læring til å lære opp talemodeller
- Når systemene våre konverterer innkommende lydklipp til tekst, sendes klippene til korttidsminnet (RAM).
- Mens lyddataene er i korttidsminnet, lærer en opplæringsalgoritme av dem i sanntid.
- Lyddataene slettes fra korttidsminnet i løpet av minutter.
Slik holdes dataene dine private
Med midlertidig læring blir lyddataklippene dine
- bare oppbevart i korttidsminnet (RAM) og slettet etter noen få minutter
- aldri gjort tilgjengelige for mennesker
- aldri lagret på tjenere
- brukt til å lære opp modeller uten andre data som kan identifisere deg
Googles intensjoner om bruk og investering i disse teknologiene
Vi kommer til å fortsetter å bruke alle disse tre teknologiene – ofte sammen for å oppnå høyere kvalitet. Vi jobber også aktivt med å forbedre både distribuert og midlertidig læring. Målet vårt er å gjøre disse teknologiene mer effektive og nyttige – på måter som ivaretar brukernes personvern som standard.