Saiba como a Google melhora os modelos de voz

Muitos produtos Google envolvem reconhecimento de voz. Por exemplo, o Assistente Google permite-lhe pedir ajuda por voz, o Gboard permite-lhe ditar mensagens para os seus amigos e o Google Meet disponibiliza legendas automáticas para as suas reuniões.

As tecnologias de voz dependem cada vez mais de redes neurais profundas, um tipo de aprendizagem automática que nos ajuda a criar modelos de reconhecimento de voz mais precisos e rápidos. Geralmente, as redes neurais profundas necessitam de grandes quantidades de dados para funcionarem bem e melhorarem ao longo do tempo. Este processo de melhoria chama-se preparação de modelos.

Que tecnologias utilizamos para preparar modelos de voz

A equipa de voz da Google utiliza 3 classes amplas de tecnologias para preparar modelos de voz: aprendizagem convencional, aprendizagem federada e aprendizagem efémera. Consoante a tarefa e a situação, algumas são mais eficazes do que outras e, em alguns casos, utilizamos uma combinação das mesmas. Isto permite-nos alcançar a melhor qualidade possível, enquanto proporcionamos privacidade desde a conceção.

Aprendizagem convencional

A aprendizagem convencional é a forma como a maioria dos nossos modelos de voz são preparados.

Como funciona a aprendizagem convencional para preparar modelos de voz

  1. Com o seu consentimento explícito, as amostras de áudio são recolhidas e armazenadas nos servidores da Google.
  2. Uma parte destas amostras de áudio é anotada por revisores humanos.
  3. Um algoritmo de preparação aprende com amostras de dados de áudio com notas.
    • Na preparação supervisionada: os modelos são preparados para imitar as notas de revisores humanos para o mesmo áudio.
    • Na preparação não supervisionada: são utilizadas anotações automáticas em vez de anotações humanas.

Ao preparar quantidades iguais de dados, a preparação supervisionada resulta normalmente em melhores modelos de reconhecimento de voz do que a preparação não supervisionada, uma vez que as anotações são de melhor qualidade. Por outro lado, a preparação não supervisionada pode aprender com mais amostras de áudio, uma vez que aprende com anotações automáticas, que são mais fáceis de produzir.

Como os seus dados se mantêm privados

Saiba mais sobre como a Google mantém os seus dados privados.

Aprendizagem federada

A aprendizagem federada é uma técnica de preservação da privacidade desenvolvida na Google para preparar modelos de IA diretamente no seu telemóvel ou outro dispositivo. Utilizamos a aprendizagem federada para preparar um modelo de voz quando o modelo é executado no seu dispositivo e os dados são disponibilizados para o modelo aprender.

Como funciona a aprendizagem federada para preparar modelos de voz

Com a aprendizagem federada, preparamos modelos de voz sem enviar os seus dados de áudio para os servidores da Google.

  1. Para ativar a aprendizagem federada, guardamos os seus dados de áudio no seu dispositivo.
  2. Um algoritmo de preparação aprende com estes dados no seu dispositivo.
  3. Um novo modelo de voz é formado ao combinar as aprendizagens agregadas do seu dispositivo com as aprendizagens de todos os outros dispositivos participantes.

Como os seus dados se mantêm privados

Saiba como os seus dados de voz e áudio permanecem privados enquanto o Assistente Google melhora.
Aprendizagem efémera
A aprendizagem efémera é uma técnica de preservação da privacidade que utilizamos quando o modelo de voz é executado nos servidores da Google.

Como funciona a aprendizagem efémera para preparar modelos de voz

  1. Os nossos sistemas convertem as amostras de áudio recebidas em texto. Essas amostras são enviadas para a memória a curto prazo (RAM).
  2. Enquanto os dados estão na RAM, um algoritmo de preparação aprende com esses exemplos de dados de áudio em tempo real.
  3. Estes exemplos de dados de áudio são eliminados da memória a curto prazo em minutos.

Como os seus dados se mantêm privados

Com a aprendizagem efémera, os exemplos de dados de áudio:

  • São apenas armazenados na memória a curto prazo (RAM) e durante poucos minutos.
  • Nunca são acessíveis por um humano.
  • Nunca são armazenados num servidor.
  • São utilizados para preparar modelos sem quaisquer dados adicionais que possam identificar o utilizador.

Como a Google vai utilizar estas tecnologias e investir nas mesmas

Continuaremos a utilizar as 3 tecnologias, muitas vezes em combinação para obter uma qualidade superior. Também estamos a trabalhar ativamente para melhorar a aprendizagem federada e efémera para tecnologias de voz. O nosso objetivo é torná-las mais eficazes e úteis, além de manter a privacidade por predefinição.

Pesquisa
Limpar pesquisa
Fechar pesquisa
Google Apps
Menu principal
3258293745958738865
true
Pesquisar no Centro de ajuda
true
true
true
true
true
1633398