瞭解 Google 改善語音模型的方式

許多 Google 產品都支援語音辨識功能。舉例來說，您可以透過語音向 Google 助理尋求協助、利用 Gboard 的語音輸入功能傳送訊息給好友，以及在 Google Meet 自動產生會議字幕。

語音技術日益仰賴深層類神經網路，這種機器學習類型可讓我們打造更準確且快速的語音辨識模型。一般而言，深層類神經網路需要更大量的資料才能順利運作，並且會隨著時間經過而逐漸改善，這個改善的過程便稱為模型訓練。

Google 用來訓練語音模型的技術

Google 語音團隊利用 3 種專門技術來訓練語音模型：傳統學習、聯合學習和短暫學習。視工作和情況而定，某些技術可能會比其他技術更有效；而在某些情況下，我們會合併採用這些技術，這麼做不但可盡量確保最佳品質，還能同時提供隱私保護設計。

我們運用傳統學習來訓練大部分的語音模型。

經過您的明確同意後，系統便會蒐集音訊取樣，並儲存在 Google 伺服器中。
部分音訊取樣會由人工審查員加上註解。
訓練演算法會從已加上註解的音訊資料取樣進行學習。
- 監督訓練：系統會訓練模型，模擬人工審查員對相同的音訊加上註解。
- 無監督訓練：採用機器註解，而不是人工註解。

利用等量的資料進行訓練作業時，由於受監督訓練的註解品質較高，因此語音辨識成果往往會比無監督訓練更好。但另一方面，無監督訓練的學習對象是較容易產生的機器註解，因此可從更多音訊取樣進行學習。

聯合學習是 Google 自行開發的技術，可透過手機或其他裝置直接訓練 AI 模型，同時兼顧隱私。如果是在裝置中執行模型，而且有可讓模型進行學習的資料，我們便會運用聯合學習來訓練語音模型。

採用聯合學習方式時，不須將音訊資料傳送至 Google 伺服器，系統就能訓練語音模型。

在 Google 伺服器中執行語音模型時，我們會採用短暫學習技術來保障您的隱私。

採用短暫學習方式時，您的音訊資料取樣：

我們會繼續採用這 3 種技術；合併使用這些技術時，訓練結果的品質往往也會更好。我們也正設法改善聯合學習和短暫學習在語音技術方面的成效。我們的目標是在兼顧隱私的前提下，讓這些技術更有效且實用。