Google による音声モデルの改善方法

多くの Google サービスで音声認識が使用されています。たとえば、Google アシスタントではユーザーが音声でリクエストでき、Gboard では友だちへのメッセージを音声入力できます。また、Google Meet では会議で自動字幕機能を使用できます。

音声認識技術は、ディープ ニューラル ネットワークへの依存度をますます高めています。機械学習の一種であるディープ ニューラル ネットワークを活用することで、より高精度、高速の音声認識モデルを構築できます。一般に、ディープ ニューラル ネットワークをうまく活用するには大量のデータが必要で、精度の向上には時間を要します。このプロセスをモデル トレーニングと呼びます。

音声モデルのトレーニングに使用する技術

Google の音声チームは音声モデルのトレーニングに、従来型の学習、フェデレーション ラーニング、エフェメラル ラーニングという、大きくわけて 3 つの技術を使用してします。タスクと状況によっては、ある技術が他の技術よりも効果的な場合や、複数の技術を組み合わせて使用する場合があります。それにより、できる限りの高品質を実現する一方で、プライバシー バイ デザインを確保できます。

従来型の学習

従来型の学習は、Google の音声モデル トレーニングのほとんどに使用される方法です。

従来型の学習で音声モデルをトレーニングする仕組み

  1. お客様の明確な同意がある場合、音声サンプルが収集され、Google のサーバーに保存されます。
  2. 音声サンプルの一部には、アノテーション専任者がアノテーションを付けます。
  3. トレーニング アルゴリズムは、アノテーション付き音声データサンプルから学習します。
    • 教師ありトレーニングの場合: モデルは、同じ音声について、人が付けたアノテーションをまねるようにトレーニングされます。
    • 教師なしトレーニングの場合: 人間によるアノテーションの代わりに機械によるアノテーションが使用されます。

同等量のデータでトレーニングする場合、教師ありトレーニングのほうが教師なしよりもアノテーションの品質が優れているため、良い音声認識モデルが構築されるのが一般的です。一方、教師なしトレーニングでは、作業が簡便化された機械によるアノテーションから学習するため、より多くの音声サンプルから学習できます。

データのプライバシーを保つ仕組み

Google がお客様のデータのプライバシーをどのように保護しているかについて、詳細をご覧ください

フェデレーション ラーニング

フェデレーション ラーニングは、Google が開発したプライバシー保護技術であり、スマートフォンなどのデバイス上で直接 AI モデルをトレーニングします。音声モデルのトレーニングにフェデレーション ラーニングが使われるのは、デバイス上でモデルを実行中に学習用データが利用可能になった場合です。

フェデレーション ラーニングで音声モデルをトレーニングする仕組み

フェデレーション ラーニングでは、ユーザーの音声データを Google のサーバーに送信せずに音声モデルをトレーニングします。

  1. フェデレーション ラーニングを可能にするために、音声データはデバイスに保存されます。
  2. トレーニング アルゴリズムは、デバイス上のこうしたデータから学習します。
  3. このデバイスから集約された学習と、他の参加デバイスからの学習を組み合わせて、新しい音声モデルが構築されます。

データのプライバシーを保つ仕組み

音声と音声データを非公開のまま Google アシスタントを改善する方法についてご確認ください
エフェメラル ラーニング
エフェメラル ラーニングは、Google のサーバーで音声モデルが実行される際に使用されるプライバシー保護技術です。

エフェメラル ラーニングで音声モデルをトレーニングする仕組み

  1. Google のシステムが受信した音声サンプルがテキストに変換され、短期メモリ(RAM)に送られます。
  2. データが RAM 内にある間に、トレーニング アルゴリズムがこれらの音声データサンプルからリアルタイムで学習します。
  3. これらの音声データサンプルは数分以内に短期メモリから削除されます。

データのプライバシーを保つ仕組み

エフェメラル ラーニングでは、音声データサンプルは次のように使用されます。

  • 短期メモリ(RAM)にのみ、数分間だけ保持されます。
  • 人間がアクセスすることはできません。
  • サーバーに保存されることはありません。
  • 個人を特定できる追加データなしで、モデルをトレーニングするために使用されます。

これらの技術への投資と活用に関する Google の方針

Google は今後も、これら 3 つの技術をときには組み合わせて使用して品質の改善に努めます。また、音声認識技術のフェデレーション ラーニングとエフェメラル ラーニングの両方の改善にも積極的に取り組みます。Google の目標は、こうした技術を、より効果的で便利に、かつプライバシー保護をデフォルト化する方法で提供することです。

さらにサポートが必要な場合

次の手順をお試しください。

検索
検索をクリア
検索を終了
メインメニュー
6546969670723259093
true
ヘルプセンターを検索
true
true
true
true
true
1633398
false
false