許多 Google 產品都支援語音辨識功能。舉例來說,您可以透過語音向 Google 助理尋求協助、利用 Gboard 的語音輸入功能傳送訊息給好友,以及在 Google Meet 自動產生會議字幕。
語音技術日益仰賴深層類神經網路,這種機器學習類型可讓我們打造更準確且快速的語音辨識模型。一般而言,深層類神經網路需要更大量的資料才能順利運作,並且會隨著時間經過而逐漸改善,這個改善的過程便稱為模型訓練。
Google 用來訓練語音模型的技術
Google 語音團隊利用 3 種專門技術來訓練語音模型:傳統學習、聯合學習和短暫學習。視工作和情況而定,某些技術可能會比其他技術更有效;而在某些情況下,我們會合併採用這些技術,這麼做不但可盡量確保最佳品質,還能同時提供隱私保護設計。
傳統學習我們運用傳統學習來訓練大部分的語音模型。
如何運用傳統學習來訓練語音模型
- 經過您的明確同意後,系統便會蒐集音訊取樣,並儲存在 Google 伺服器中。
- 部分音訊取樣會由人工審查員加上註解。
- 訓練演算法會從已加上註解的音訊資料取樣進行學習。
- 監督訓練:系統會訓練模型,模擬人工審查員對相同的音訊加上註解。
- 無監督訓練:採用機器註解,而不是人工註解。
利用等量的資料進行訓練作業時,由於受監督訓練的註解品質較高,因此語音辨識成果往往會比無監督訓練更好。但另一方面,無監督訓練的學習對象是較容易產生的機器註解,因此可從更多音訊取樣進行學習。
我們保障資料隱私的方式
聯合學習是 Google 自行開發的技術,可透過手機或其他裝置直接訓練 AI 模型,同時兼顧隱私。如果是在裝置中執行模型,而且有可讓模型進行學習的資料,我們便會運用聯合學習來訓練語音模型。
如何運用聯合學習來訓練語音模型
採用聯合學習方式時,不須將音訊資料傳送至 Google 伺服器,系統就能訓練語音模型。
- 為了讓聯合學習順利運作,系統會將音訊資料儲存在裝置中。
- 訓練演算法會從這類儲存在裝置中的資料進行學習。
- 系統會將從您裝置和其他參與裝置所獲得的匯總學習成果集結在一起,並建立新的語音模型。
我們保障資料隱私的方式
瞭解 Google 助理如何改善內容,同時確保語音和音訊資料的私密性。在 Google 伺服器中執行語音模型時,我們會採用短暫學習技術來保障您的隱私。
如何運用短暫學習來訓練語音模型
- 系統將收到的音訊取樣轉換成文字時,會一併將這些取樣傳送至短期記憶體 (RAM) 中。
- 當資料在 RAM 中時,訓練演算法會即時從這些音訊資料取樣進行學習。
- 系統會在幾分鐘內從短期記憶體中刪除這些音訊資料取樣。
我們保障資料隱私的方式
採用短暫學習方式時,您的音訊資料取樣:
- 只會在短期記憶體 (RAM) 中保留最多幾分鐘的時間。
- 任何人都無法存取。
- 絕對不會儲存在伺服器中。
- 可在不需其他身分識別資料的情況下用於訓練模型。
Google 對這些技術的運用與投資方式
我們會繼續採用這 3 種技術;合併使用這些技術時,訓練結果的品質往往也會更好。我們也正設法改善聯合學習和短暫學習在語音技術方面的成效。我們的目標是在兼顧隱私的前提下,讓這些技術更有效且實用。