Tìm hiểu cách Google cải thiện mẫu lời nói

Nhiều sản phẩm của Google có khả năng nhận dạng lời nói. Ví dụ: Trợ lý Google cho phép bạn yêu cầu trợ giúp bằng giọng nói, Gboard cho phép bạn dùng giọng nói để nhập tin nhắn gửi cho bạn bè và Google Meet có chế độ tự động tạo phụ đề cho các cuộc họp.

Công nghệ nhận dạng lời nói ngày càng phụ thuộc vào mạng nơron sâu, một loại công nghệ máy học giúp chúng tôi tạo ra các mẫu nhận dạng lời nói chính xác hơn và nhanh hơn. Mạng nơ-ron sâu thường cần một lượng dữ liệu lớn hơn để hoạt động hiệu quả và cải thiện theo thời gian. Quá trình cải tiến này được gọi là đào tạo mẫu.

Những công nghệ được chúng tôi sử dụng để đào tạo các mẫu lời nói

Nhóm phụ trách lời nói của Google sử dụng 3 loại công nghệ thông dụng để đào tạo các mẫu lời nói: học thông thường, học liên kết và học tạm thời. Tùy thuộc vào nhiệm vụ và tình huống, một số loại trong số này hiệu quả hơn những loại khác và trong một số trường hợp, chúng tôi sử dụng kết hợp các loại này. Nhờ đó, chúng tôi đạt chất lượng tốt nhất có thể trong khi vẫn bảo vệ quyền riêng tư ngay từ khâu thiết kế.

Học thông thường

Công nghệ học thông thường là phương pháp đào tạo cho hầu hết các mẫu lời nói của chúng tôi.

Cách hoạt động của công nghệ học thông thường để đào tạo các mẫu lời nói

  1. Khi bạn đồng ý một cách rõ ràng, các mẫu âm thanh sẽ được thu thập và lưu trữ trên các máy chủ của Google.
  2. Một phần của các mẫu âm thanh này sẽ có chú thích của nhân viên đánh giá.
  3. Một thuật toán đào tạo sẽ học hỏi từ các mẫu dữ liệu âm thanh có chú thích.
    • Trong chương trình đào tạo được giám sát: Các mẫu sẽ được đào tạo để bắt chước chú thích của nhân viên đánh giá cho cùng một âm thanh.
    • Trong chương trình đào tạo không được giám sát: Chú thích của máy sẽ được sử dụng thay cho chú thích của con người.

Khi đào tạo trên lượng dữ liệu bằng nhau, chương trình đào tạo được giám sát thường tạo ra mẫu nhận dạng lời nói tốt hơn so với chương trình đào tạo không được giám sát vì chú thích có chất lượng cao hơn. Mặt khác, chương trình đào tạo không được giám sát có thể học từ nhiều mẫu âm thanh hơn vì chương trình này học từ chú thích của máy, vốn dễ tạo hơn.

Cách dữ liệu của bạn luôn được bảo mật

Tìm hiểu thêm về cách Google bảo mật dữ liệu của bạn.

Học liên kết

Học liên kết là một kỹ thuật bảo vệ quyền riêng tư được phát triển tại Google để đào tạo các mô hình trí tuệ nhân tạo ngay trên điện thoại hoặc thiết bị khác. Chúng tôi sử dụng công nghệ học liên kết để đào tạo một mẫu lời nói khi mẫu này chạy trên thiết bị của bạn và có sẵn dữ liệu để mẫu học hỏi từ đó.

Cách công nghệ học liên kết hoạt động để đào tạo các mẫu lời nói

Với công nghệ học liên kết, chúng tôi đào tạo các mẫu lời nói mà không gửi dữ liệu âm thanh của bạn đến các máy chủ của Google.

  1. Để bật tính năng học liên kết, chúng tôi sẽ lưu dữ liệu âm thanh trên thiết bị của bạn.
  2. Thuật toán đào tạo sẽ học từ dữ liệu này trên thiết bị.
  3. Mẫu lời nói mới được tạo bằng cách kết hợp các dữ liệu học tổng hợp từ thiết bị của bạn cùng với những dữ liệu học được từ tất cả các thiết bị tham gia khác.

Cách dữ liệu của bạn luôn được bảo mật

Tìm hiểu cách dữ liệu giọng nói và âm thanh của bạn vẫn được bảo mật trong khi Trợ lý Google được cải tiến.
Học tạm thời
Học tạm thời là một kỹ thuật bảo vệ quyền riêng tư mà chúng tôi sử dụng khi mẫu lời nói chạy trên các máy chủ của Google.

Cách công nghệ học tạm thời hoạt động để đào tạo các mẫu lời nói

  1. Khi hệ thống của chúng tôi chuyển đổi các mẫu âm thanh đến thành văn bản, những mẫu âm thanh đó sẽ được gửi đến bộ nhớ ngắn hạn (RAM).
  2. Mặc dù dữ liệu nằm trong RAM, nhưng một thuật toán đào tạo sẽ học từ các mẫu dữ liệu âm thanh đó theo thời gian thực.
  3. Những mẫu dữ liệu âm thanh này sẽ bị xóa khỏi bộ nhớ ngắn hạn trong vòng vài phút.

Cách dữ liệu của bạn luôn được bảo mật

Với công nghệ học tạm thời, các mẫu dữ liệu âm thanh của bạn sẽ:

  • Chỉ được lưu giữ trong bộ nhớ ngắn hạn (RAM) trong không quá vài phút.
  • Người khác không thể tiếp cận.
  • Không bao giờ được lưu trữ trên máy chủ.
  • Dùng để đào tạo các mẫu mà không có bất kỳ dữ liệu bổ sung nào có thể nhận dạng bạn.

Cách Google sử dụng và đầu tư vào những công nghệ này

Chúng tôi sẽ tiếp tục sử dụng cả 3 công nghệ, thường là sử dụng kết hợp để có được chất lượng cao hơn. Chúng tôi cũng đang nỗ lực để cải thiện cả phương pháp học liên kết và tạm thời cho công nghệ nhận dạng lời nói. Mục tiêu của chúng tôi là làm cho các phương pháp này hiệu quả và hữu ích hơn theo những cách bảo vệ quyền riêng tư mặc định.

Bạn cần trợ giúp thêm?

Hãy thử các bước tiếp theo sau:

Tìm kiếm
Xóa nội dung tìm kiếm
Đóng tìm kiếm
Trình đơn chính
9524293531702538172
true
Tìm kiếm trong Trung tâm trợ giúp
true
true
true
true
true
1633398
false
false