Wiele usług Google obejmuje rozpoznawanie mowy. Możesz na przykład poprosić Asystenta Google o pomoc przy użyciu głosu, dyktować w Gboard wiadomości do znajomych oraz korzystać z automatycznych napisów podczas spotkań w Google Meet.
Technologie rozpoznawania mowy coraz częściej bazują na głębokich sieciach neuronowych, czyli systemach uczących się, które pomagają nam tworzyć dokładniejsze i szybsze modele rozpoznawania mowy. Głębokie sieci neuronowe wymagają zwykle większej ilości danych, aby działać prawidłowo i z czasem coraz lepiej. Ten proces ulepszania to tzw. trenowanie modelu.
Jakich technologii używamy do trenowania modeli mowy
Do trenowania modeli zespół Google zajmujący się mową korzysta z 3 ogólnych klas technologii: z tradycyjnego, sfederowanego i efemerycznego uczenia się. W zależności od zadania i sytuacji niektóre z nich są skuteczniejsze od innych. Czasem stosujemy też ich połączenie. Dzięki temu możemy osiągać najlepszą możliwą jakość, a jednocześnie zapewniać ochronę prywatności już w fazie projektowania.
Tradycyjne uczenie sięNasze modele mowy są trenowane w większości za pomocą tradycyjnego uczenia się.
Jak wygląda trenowanie modeli mowy za pomocą tradycyjnego uczenia się
- Po uzyskaniu wyraźnej zgody użytkownika nagrania dźwiękowe są gromadzone i przechowywane na serwerach Google.
- Część tych nagrań jest opatrzona adnotacjami weryfikatorów.
- Algorytm trenowania uczy się z próbek danych dźwiękowych opatrzonych adnotacjami.
- W przypadku trenowania nadzorowanego: modele są trenowane tak, aby naśladowały adnotacje weryfikatorów do tego samego nagrania.
- W przypadku trenowania nienadzorowanego: zamiast adnotacji dodawanych przez ludzi stosowane są adnotacje maszynowe.
Jeśli trenowanie uwzględnia taką samą ilość danych, w efekcie trenowania nadzorowanego powstają zwykle lepsze modele rozpoznawania mowy niż w przypadku trenowania nienadzorowanego, bo adnotacje są wyższej jakości. Z kolei trenowanie nienadzorowane może wykorzystywać większą liczbę nagrań dźwiękowych, bo uczy się z adnotacji maszynowych, które łatwiej jest przygotować.
Jak dbamy o prywatność Twoich danych
Sfederowane uczenie się to opracowana przez Google metoda, która pozwala zachować prywatność i trenować modele AI bezpośrednio na telefonie lub innym urządzeniu użytkownika. Model mowy trenujemy za pomocą sfederowanego uczenia się, gdy działa na Twoim urządzeniu i ma dostęp do danych, z których może się uczyć.
Jak wygląda trenowanie modeli mowy za pomocą sfederowanego uczenia się
Sfederowane uczenie się pozwala nam trenować modele mowy bez wysyłania Twoich danych dźwiękowych na serwery Google.
- Aby umożliwić sfederowane uczenie się, zapisujemy Twoje dane dźwiękowe na Twoim urządzeniu.
- Algorytm trenowania uczy się z danych dostępnych na Twoim urządzeniu.
- Nowy model mowy powstaje przez połączenie ogólnych wniosków z Twojego urządzenia z wnioskami ze wszystkich pozostałych uwzględnionych urządzeń.
Jak dbamy o prywatność Twoich danych
Zarządzanie nagraniami dźwiękowymi w Aktywności w internecie i aplikacjachJak wygląda trenowanie modeli mowy za pomocą efemerycznego uczenia się
- Nasze systemy konwertują przychodzące nagrania dźwiękowe na tekst i wysyłają je do pamięci krótkotrwałej (RAM).
- Dane są przechowywane w pamięci RAM, a algorytm uczy się z tych próbek danych dźwiękowych w czasie rzeczywistym.
- Próbki danych dźwiękowych są usuwane z pamięci krótkotrwałej w ciągu kilku minut.
Jak dbamy o prywatność Twoich danych
W przypadku efemerycznego uczenia się próbki danych dźwiękowych:
- są przechowywane tylko w pamięci krótkotrwałej (RAM) i nie dłużej niż przez kilka minut;
- nigdy nie są dostępne dla ludzi;
- nigdy nie są przechowywane na serwerze;
- służą do trenowania modeli bez dodatkowych danych, które umożliwiłyby identyfikację użytkownika.
Jak Google będzie wykorzystywać te technologie i w nie inwestować
Nadal będziemy korzystać ze wszystkich 3 technologii, często w połączeniu, w trosce o wyższą jakość. Pracujemy też nad ulepszeniem zarówno sfederowanego, jak i efemerycznego uczenia się rozpoznawania mowy. Chcemy, aby te technologie były jeszcze bardziej skuteczne i przydatne, a przy tym domyślnie pozwalały zachować prywatność.