Google による音声モデルの改善方法

多くの Google サービスで音声認識が使用されています。たとえば、Google アシスタントではユーザーが音声でリクエストでき、Gboard では友だちへのメッセージを音声入力できます。また、Google Meet では会議で自動字幕機能を使用できます。

音声認識技術は、ディープニューラルネットワークへの依存度をますます高めています。機械学習の一種であるディープニューラルネットワークを活用することで、より高精度、高速の音声認識モデルを構築できます。一般に、ディープニューラルネットワークをうまく活用するには大量のデータが必要で、精度の向上には時間を要します。このプロセスをモデルトレーニングと呼びます。

音声モデルのトレーニングに使用する技術

Google の音声チームは音声モデルのトレーニングに、従来型の学習、フェデレーションラーニング、エフェメラルラーニングという、大きくわけて 3 つの技術を使用してします。タスクと状況によっては、ある技術が他の技術よりも効果的な場合や、複数の技術を組み合わせて使用する場合があります。それにより、できる限りの高品質を実現する一方で、プライバシーバイデザインを確保できます。

従来型の学習

従来型の学習は、Google の音声モデルトレーニングのほとんどに使用される方法です。

従来型の学習で音声モデルをトレーニングする仕組み

お客様の明確な同意がある場合、音声サンプルが収集され、Google のサーバーに保存されます。
音声サンプルの一部には、アノテーション専任者がアノテーションを付けます。
トレーニングアルゴリズムは、アノテーション付き音声データサンプルから学習します。
- 教師ありトレーニングの場合: モデルは、同じ音声について、人が付けたアノテーションをまねるようにトレーニングされます。
- 教師なしトレーニングの場合: 人間によるアノテーションの代わりに機械によるアノテーションが使用されます。

同等量のデータでトレーニングする場合、教師ありトレーニングのほうが教師なしよりもアノテーションの品質が優れているため、良い音声認識モデルが構築されるのが一般的です。一方、教師なしトレーニングでは、作業が簡便化された機械によるアノテーションから学習するため、より多くの音声サンプルから学習できます。

データのプライバシーを保つ仕組み

Google がお客様のデータのプライバシーをどのように保護しているかについて、詳細をご覧ください。

フェデレーションラーニング

フェデレーションラーニングは、Google が開発したプライバシー保護技術であり、スマートフォンなどのデバイス上で直接 AI モデルをトレーニングします。音声モデルのトレーニングにフェデレーションラーニングが使われるのは、デバイス上でモデルを実行中に学習用データが利用可能になった場合です。

フェデレーションラーニングで音声モデルをトレーニングする仕組み

フェデレーションラーニングでは、ユーザーの音声データを Google のサーバーに送信せずに音声モデルをトレーニングします。

フェデレーションラーニングを可能にするために、音声データはデバイスに保存されます。
トレーニングアルゴリズムは、デバイス上のこうしたデータから学習します。
このデバイスから集約された学習と、他の参加デバイスからの学習を組み合わせて、新しい音声モデルが構築されます。

データのプライバシーを保つ仕組み

音声と音声データを非公開のまま Google アシスタントを改善する方法についてご確認ください。

エフェメラルラーニング

エフェメラルラーニングは、Google のサーバーで音声モデルが実行される際に使用されるプライバシー保護技術です。

エフェメラルラーニングで音声モデルをトレーニングする仕組み

Google のシステムが受信した音声サンプルがテキストに変換され、短期メモリ（RAM）に送られます。
データが RAM 内にある間に、トレーニングアルゴリズムがこれらの音声データサンプルからリアルタイムで学習します。
これらの音声データサンプルは数分以内に短期メモリから削除されます。

データのプライバシーを保つ仕組み

エフェメラルラーニングでは、音声データサンプルは次のように使用されます。

短期メモリ（RAM）にのみ、数分間だけ保持されます。
人間がアクセスすることはできません。
サーバーに保存されることはありません。
個人を特定できる追加データなしで、モデルをトレーニングするために使用されます。

これらの技術への投資と活用に関する Google の方針

Google は今後も、これら 3 つの技術をときには組み合わせて使用して品質の改善に努めます。また、音声認識技術のフェデレーションラーニングとエフェメラルラーニングの両方の改善にも積極的に取り組みます。Google の目標は、こうした技術を、より効果的で便利に、かつプライバシー保護をデフォルト化する方法で提供することです。

Google による音声モデルの改善方法

音声モデルのトレーニングに使用する技術

従来型の学習で音声モデルをトレーニングする仕組み

データのプライバシーを保つ仕組み

フェデレーションラーニングで音声モデルをトレーニングする仕組み

データのプライバシーを保つ仕組み

エフェメラルラーニングで音声モデルをトレーニングする仕組み

データのプライバシーを保つ仕組み

これらの技術への投資と活用に関する Google の方針

さらにサポートが必要な場合

次の手順をお試しください。

Google による音声モデルの改善方法

音声モデルのトレーニングに使用する技術

従来型の学習で音声モデルをトレーニングする仕組み

データのプライバシーを保つ仕組み

フェデレーション ラーニングで音声モデルをトレーニングする仕組み

データのプライバシーを保つ仕組み

エフェメラル ラーニングで音声モデルをトレーニングする仕組み

データのプライバシーを保つ仕組み

これらの技術への投資と活用に関する Google の方針

さらにサポートが必要な場合

次の手順をお試しください。

フェデレーションラーニングで音声モデルをトレーニングする仕組み

エフェメラルラーニングで音声モデルをトレーニングする仕組み