So verbessert Google Sprachmodelle

Bei vielen Google-Produkten wird Spracherkennung verwendet. Beispielsweise können Sie Google Assistant per Sprachbefehl bitten, Ihnen zu helfen, Sie können mit Gboard Ihre Nachrichten an Freunde diktieren und Google Meet bietet Ihnen automatische Untertitel für Videokonferenzen.

Sprachtechnologien greifen in immer stärkerem Maße auf neuronale Deep-Learning-Netzwerke zurück. Dies ist eine Form des maschinellen Lernens, mit der wir stärker treffsichere und auch schnellere Spracherkennungsmodelle entwickeln können. Im Allgemeinen benötigen neuronale Deep-Learning-Netzwerke größere Datenmengen, um gut zu funktionieren und im Laufe der Zeit besser zu werden. Dieser Optimierungsprozess wird als Modelltraining bezeichnet.

Welche Technologien wir zum Trainieren von Sprachmodellen verwenden

Das für die Spracherkennung zuständige Team verfolgt beim Training von Modellen grundsätzlich drei verschiedene Ansätze: konventionelles Lernen, föderiertes Lernen und flüchtiges Lernen. Je nach Aufgabe und Situation sind einige dieser Modelle effektiver als andere. Manchmal kombinieren wir sie auch. So können wir die bestmögliche Qualität erzielen und gleichzeitig dem Privacy by Design-Prinzip von Google gerecht werden.

Konventionelles Lernen

Die meisten unserer Sprachmodelle werden mithilfe des konventionellen Lernens trainiert.

So werden Sprachmodelle mit konventionellem Lernen trainiert

Mit Ihrer ausdrücklichen Zustimmung werden Audioinhalte erhoben und auf Google-Servern gespeichert.
Ein Teil dieser Audioinhalte wird von Prüfern mit Annotationen versehen.
Aus diesen annotierten Audioinhalten lernt ein Trainingsalgorithmus.
- Beim überwachten Training werden Modelle darauf trainiert, die Annotationen von Prüfern in Bezug auf dieselben Audioinhalte zu imitieren.
- Beim unüberwachten Training werden statt menschlicher hingegen maschinelle Annotationen verwendet.

Wenn die Datenmengen gleich groß sind, führt das überwachte Training in der Regel zu besseren Spracherkennungsmodellen als das unüberwachte, da die Annotationen von höherer Qualität sind. Beim unüberwachten Training hingegen kann auf eine deutlich größere Menge von Audioinhalten zurückgegriffen werden, da der Lernvorgang auf maschinellen Annotationen basiert, die leichter zu erstellen sind.

So bleiben Ihre Daten privat

Weitere Informationen zum Datenschutz bei Google

Föderiertes Lernen

Föderiertes Lernen ist ein von Google entwickeltes datenschutzkonformes Verfahren, bei dem KI-Modelle direkt auf Ihrem Smartphone oder einem anderen Gerät trainiert werden. Wir verwenden föderiertes Lernen zum Trainieren eines Sprachmodells, wenn dieses Modell auf Ihrem Gerät ausgeführt wird und Daten verfügbar sind, die sich zum Training eignen.

So werden Sprachmodelle mit föderiertem Lernen trainiert

Beim föderierten Lernen trainieren wir Sprachmodelle, ohne Ihre Audiodaten an die Server von Google zu senden.

Zu diesem Zweck speichern wir Ihre Audiodaten auf Ihrem Gerät.
Ein Trainingsalgorithmus lernt dann aus diesen Daten auf Ihrem Gerät.
Abschließend werden die zusammengefassten Erkenntnisse von Ihrem Gerät mit denen von allen anderen teilnehmenden Geräten kombiniert, um ein neues Sprachmodell zu erstellen.

So bleiben Ihre Daten privat

Weitere Informationen dazu, wie wir Ihre Sprach- und Audiodaten schützen, während Google Assistant dazulernt

Flüchtiges Lernen

Das flüchtige Lernen ist ein datenschutzkonformes Verfahren, das wir nutzen, wenn das Sprachmodell auf Google-Servern ausgeführt wird.

So werden Sprachmodelle mit flüchtigem Lernen trainiert

Die auf unseren Systemen eingehenden Audioinhalte werden in Text umgewandelt und im flüchtigen Arbeitsspeicher (RAM) abgelegt.
Solange sich die Daten im RAM befinden, lernt ein Trainingsalgorithmus in Echtzeit aus diesen Audioinhalten.
Diese Audioinhalte werden innerhalb weniger Minuten aus dem flüchtigen Speicher gelöscht.

So bleiben Ihre Daten privat

Beim flüchtigen Lernen gilt für Ihre Audioinhalte Folgendes:

Sie werden ausschließlich im flüchtigen Arbeitsspeicher (RAM) gespeichert, und zwar maximal einige Minuten lang.
Sie sind zu keinem Zeitpunkt für Menschen zugänglich.
Sie werden zu keinem Zeitpunkt auf einem Server gespeichert.
Sie werden beim Trainieren von Modellen ohne zusätzliche Daten eingesetzt, die Rückschlüsse auf Ihre Person zulassen könnten.

So nutzt Google diese Technologien und investiert in sie

Wir werden weiterhin alle drei Technologien nutzen – häufig auch in Kombination, um eine höhere Qualität zu erzielen. Außerdem arbeiten wir aktiv daran, sowohl das föderierte als auch das flüchtige Lernen im Hinblick auf Sprachtechnologien zu verbessern. Unser Ziel ist es, sie effektiver, nützlicher und in einer Weise zu gestalten, die standardmäßig datenschutzkonform ist.