Jak Google ulepsza modele mowy

Wiele usług Google obejmuje rozpoznawanie mowy. Możesz na przykład poprosić Asystenta Google o pomoc przy użyciu głosu, dyktować w Gboard wiadomości do znajomych oraz korzystać z automatycznych napisów podczas spotkań w Google Meet.

Technologie rozpoznawania mowy coraz częściej bazują na głębokich sieciach neuronowych, czyli systemach uczących się, które pomagają nam tworzyć dokładniejsze i szybsze modele rozpoznawania mowy. Głębokie sieci neuronowe wymagają zwykle większej ilości danych, aby działać prawidłowo i z czasem coraz lepiej. Ten proces ulepszania to tzw. trenowanie modelu.

Jakich technologii używamy do trenowania modeli mowy

Do trenowania modeli zespół Google zajmujący się mową korzysta z 3 ogólnych klas technologii: z tradycyjnego, sfederowanego i efemerycznego uczenia się. W zależności od zadania i sytuacji niektóre z nich są skuteczniejsze od innych. Czasem stosujemy też ich połączenie. Dzięki temu możemy osiągać najlepszą możliwą jakość, a jednocześnie zapewniać ochronę prywatności już w fazie projektowania.

Tradycyjne uczenie się

Nasze modele mowy są trenowane w większości za pomocą tradycyjnego uczenia się.

Jak wygląda trenowanie modeli mowy za pomocą tradycyjnego uczenia się

Po uzyskaniu wyraźnej zgody użytkownika nagrania dźwiękowe są gromadzone i przechowywane na serwerach Google.
Część tych nagrań jest opatrzona adnotacjami weryfikatorów.
Algorytm trenowania uczy się z próbek danych dźwiękowych opatrzonych adnotacjami.
- W przypadku trenowania nadzorowanego: modele są trenowane tak, aby naśladowały adnotacje weryfikatorów do tego samego nagrania.
- W przypadku trenowania nienadzorowanego: zamiast adnotacji dodawanych przez ludzi stosowane są adnotacje maszynowe.

Jeśli trenowanie uwzględnia taką samą ilość danych, w efekcie trenowania nadzorowanego powstają zwykle lepsze modele rozpoznawania mowy niż w przypadku trenowania nienadzorowanego, bo adnotacje są wyższej jakości. Z kolei trenowanie nienadzorowane może wykorzystywać większą liczbę nagrań dźwiękowych, bo uczy się z adnotacji maszynowych, które łatwiej jest przygotować.

Jak dbamy o prywatność Twoich danych

Dowiedz się, jak Google dba o prywatność Twoich danych

Sfederowane uczenie się

Sfederowane uczenie się to opracowana przez Google metoda, która pozwala zachować prywatność i trenować modele AI bezpośrednio na telefonie lub innym urządzeniu użytkownika. Model mowy trenujemy za pomocą sfederowanego uczenia się, gdy działa na Twoim urządzeniu i ma dostęp do danych, z których może się uczyć.

Jak wygląda trenowanie modeli mowy za pomocą sfederowanego uczenia się

Sfederowane uczenie się pozwala nam trenować modele mowy bez wysyłania Twoich danych dźwiękowych na serwery Google.

Aby umożliwić sfederowane uczenie się, zapisujemy Twoje dane dźwiękowe na Twoim urządzeniu.
Algorytm trenowania uczy się z danych dostępnych na Twoim urządzeniu.
Nowy model mowy powstaje przez połączenie ogólnych wniosków z Twojego urządzenia z wnioskami ze wszystkich pozostałych uwzględnionych urządzeń.

Jak dbamy o prywatność Twoich danych

Dowiedz się, jak dbamy o prywatność Twoich danych głosowych i dźwiękowych, które pomagają poprawić działanie Asystenta Google

Efemeryczne uczenie się

Efemeryczne uczenie się to pozwalająca zachować prywatność metoda, której używamy, gdy model mowy działa na serwerach Google.

Jak wygląda trenowanie modeli mowy za pomocą efemerycznego uczenia się

Nasze systemy konwertują przychodzące nagrania dźwiękowe na tekst i wysyłają je do pamięci krótkotrwałej (RAM).
Dane są przechowywane w pamięci RAM, a algorytm uczy się z tych próbek danych dźwiękowych w czasie rzeczywistym.
Próbki danych dźwiękowych są usuwane z pamięci krótkotrwałej w ciągu kilku minut.

Jak dbamy o prywatność Twoich danych

W przypadku efemerycznego uczenia się próbki danych dźwiękowych:

są przechowywane tylko w pamięci krótkotrwałej (RAM) i nie dłużej niż przez kilka minut;
nigdy nie są dostępne dla ludzi;
nigdy nie są przechowywane na serwerze;
służą do trenowania modeli bez dodatkowych danych, które umożliwiłyby identyfikację użytkownika.

Jak Google będzie wykorzystywać te technologie i w nie inwestować

Nadal będziemy korzystać ze wszystkich 3 technologii, często w połączeniu, w trosce o wyższą jakość. Pracujemy też nad ulepszeniem zarówno sfederowanego, jak i efemerycznego uczenia się rozpoznawania mowy. Chcemy, aby te technologie były jeszcze bardziej skuteczne i przydatne, a jednocześnie domyślnie pozwalały zachować prywatność.