Saiba como o Google melhora os modelos de fala

Muitos produtos do Google envolvem o reconhecimento de fala. Por exemplo, o Google Assistente permite que você peça ajuda por voz, o Gboard permite ditar mensagens para os amigos, e o Google Meet oferece transcrições automáticas das suas reuniões.

Tecnologias como essas contam cada vez mais com redes neurais profundas, um tipo de aprendizado de máquina que nos ajuda a criar modelos de reconhecimento de fala mais rápidos e precisos. Geralmente, essas redes precisam de quantidades maiores de dados para funcionar bem e melhoram com o tempo. Esse processo de melhoria é chamado de treinamento de modelo.

Tecnologias que usamos para treinar modelos de fala

A equipe de reconhecimento de fala do Google usa três grandes classes de tecnologias para treinar esses modelos: aprendizado convencional, federado e efêmero. Conforme a tarefa e a situação, algumas são mais eficazes do que outras. Em alguns casos, usamos uma combinação delas. Isso nos permite alcançar a melhor qualidade possível sem afetar a privacidade desde a concepção.

Aprendizagem convencional

A aprendizagem convencional é o método de treinamento da maioria dos nossos modelos de fala.

Como usamos a aprendizagem convencional para treinar modelos de fala

Com seu consentimento explícito, amostras de áudio são coletadas e armazenadas nos servidores do Google.
Uma parte dessas amostras de áudio é anotada por revisores humanos.
Um algoritmo de treinamento aprende com amostras de dados de áudio anotados.
- No treinamento supervisionado: os modelos são treinados para imitar anotações de revisores humanos para o mesmo áudio.
- No treinamento não supervisionado: são usadas anotações de máquina em vez das humanas.

Com o uso de quantidades iguais de dados, o treinamento supervisionado geralmente resulta em modelos de reconhecimento de fala melhores do que o não supervisionado, pois as anotações são de maior qualidade. Por outro lado, o treinamento não supervisionado pode aproveitar mais amostras de áudio, já que aprende com anotações de máquina, que são mais fáceis de produzir.

Como seus dados permanecem privados

Saiba mais sobre como o Google mantém a privacidade dos seus dados.

Aprendizado federado

O aprendizado federado é uma técnica de preservação de privacidade desenvolvida no Google (link em inglês) para treinar modelos de IA diretamente no seu smartphone ou em outro dispositivo. Usamos o aprendizado federado para treinar um modelo de fala quando ele é executado no seu dispositivo e os dados estão disponíveis para o modelo.

Como usamos o aprendizado federado para treinar modelos de fala

Com o aprendizado federado, treinamos modelos de fala sem enviar seus dados de áudio aos servidores do Google.

Para ativar o aprendizado federado, salvamos os dados de áudio no seu dispositivo.
Um algoritmo de treinamento aprende com esses dados no seu dispositivo.
Um novo modelo de fala é formado pela combinação dos aprendizados agregados do seu dispositivo com os de todos os outros dispositivos participantes.

Como seus dados permanecem privados

Saiba como seus dados de voz e áudio permanecem privados enquanto o Google Assistente é melhorado.

Aprendizado efêmero

O aprendizado efêmero é uma técnica de preservação de privacidade que usamos quando o modelo de fala é executado nos servidores do Google.

Como usamos o aprendizado efêmero para treinar modelos de fala

Conforme nossos sistemas convertem as amostras de áudio recebidas em texto, elas são enviadas para a memória de curto prazo (RAM).
Enquanto os dados estão na RAM, um algoritmo de treinamento aprende com essas amostras em tempo real.
Depois, elas são excluídas da memória de curto prazo em minutos.

Como seus dados permanecem privados

Com o aprendizado efêmero, as amostras de dados de áudio:

ficam retidas apenas na memória de curto prazo (RAM) e por no máximo alguns minutos;
nunca podem ser acessadas por uma pessoa;
nunca são armazenadas em um servidor;
são usadas para treinar modelos sem nenhum dado adicional que possa identificar você.

Como o Google vai usar essas tecnologias e investir nelas

Continuaremos usando as três tecnologias, geralmente combinadas, para melhorar a qualidade. Também estamos trabalhando para melhorar o aprendizado federado e o efêmero para tecnologias de fala. Nosso objetivo é torná-las mais eficazes e úteis, além de preservar a privacidade por padrão.