Nâng cao: Nhận dạng giọng nói tự động

 

Nhận dạng giọng nói tự động (ASR) là một thành phần chính của trợ lý ảo - nó chuyển đổi âm thanh thành văn bản. Cũng như rất quan trọng đối với AI đàm thoại, ASR có các ứng dụng như một công nghệ độc lập ở những nơi như phụ đề tự động, phiên âm và phân tích của trung tâm cuộc gọi, phiên âm cuộc họp, v.v. Bài đăng này có cái nhìn sâu hơn về những gì tiềm ẩn của công nghệ nhận dạng giọng nói Cubic của Cobalt.

Hệ thống nhận dạng giọng nói tự động có ba mô hình: mô hình âm học, mô hình ngôn ngữ và mô hình từ vựng. Chúng được sử dụng cùng nhau trong một công cụ 'giải mã' tín hiệu âm thanh thành bản phiên âm đoán tốt nhất của những từ đã được nói. 

LEXICON

Từ vựng mô tả cách các từ được phát âm theo ngữ âm. Nó thường được làm thủ công bởi các chuyên gia ngữ âm, sử dụng bộ điện thoại cụ thể cho từng ngôn ngữ. Một bộ phone cho tiếng Anh là Arpabet , mô tả cách phát âm từ bằng cách sử dụng một bộ gồm 50 âm vị. Một số từ có nhiều cách phát âm - 'đọc', 'cúi đầu' và 'một trong hai' là những ví dụ điển hình. Từ vựng chứa nhiều cách phát âm này. Một số cách phát âm Arpabet ví dụ trong bảng dưới đây.

WORD

PRONUNCIATION

hello

/hh eh l ow/

mint

/m ih n t/

cat

/k ae t/

ought

/ao t/

blue

/b l uw/

read

/r iy d/

read

/r eh d/

 

Trong bản cập nhật tháng 10 năm 2019 , OED đã thêm hơn 650 từ mới, các giác quan và tiểu mục vào từ điển của họ. Các từ mới xuất hiện trong ngôn ngữ mọi lúc, và sẽ là vấn đề nếu chúng ta không biết cách phát âm chúng. Từ một từ vựng chất lượng tốt, các kỹ thuật thống kê có thể được sử dụng để đoán cách phát âm của các từ mới và chưa biết.

MÔ HÌNH ÂM THANH- ACOUSTIC MODEL

Mô hình âm thanh (AM) lập mô hình âm học của lời nói. Tín hiệu âm thanh được chia thành các đoạn nhỏ hoặc khung, có độ dài thường là 25ms. Ở cấp độ cao, công việc của mô hình âm thanh là dự đoán âm thanh hoặc âm vị nào từ bộ điện thoại đang được nói trong mỗi khung âm thanh.

Mô hình âm học dự đoán xác suất mỗi âm vị được nói trong một khung âm thanh ngắn

Mạng nơ-ron sâu - Deep neural networks, được đào tạo dựa trên hàng nghìn giờ dữ liệu âm thanh được phiên âm là một lựa chọn phổ biến cho các mô hình âm thanh. Có dữ liệu phù hợp để đào tạo và kiểm tra AM là key để đảm bảo rằng mô hình hoạt động tốt đối với các đặc tính âm học khác nhau. Các yếu tố như trọng âm, giới tính, tuổi tác, micro, tiếng ồn xung quanh đều được mô hình hóa bằng mô hình âm học và dữ liệu được sử dụng để đào tạo phải phản ánh những đặc điểm này. 

Một yếu tố khác, ít rõ ràng hơn, ảnh hưởng đến mô hình âm thanh là phong cách nói của một người nào đó. Nếu một người biết họ đang nói chuyện với một cái máy, nhiều khả năng họ sẽ phát âm lời nói của mình rõ ràng hơn là khi họ đang trò chuyện thân mật với một người bạn. Sự biến đổi trong cách phát âm này là một khía cạnh khác được mô hình hóa bởi mô hình âm học.

MÔ HÌNH NGÔN NGỮ - LANGUAGE MODEL

Nếu bạn đọc nhiều đoạn văn bản khác nhau, thì bạn sẽ biết được từ nào và chuỗi từ nào, có nhiều khả năng hơn những từ khác. Kiến thức này được thu nhận bởi thành phần mô hình ngôn ngữ (LM) của hệ thống nhận dạng giọng nói. Nó học những chuỗi từ nào có nhiều khả năng được nói nhất và công việc của nó là dự đoán những từ nào sẽ tiếp nối từ những từ hiện tại và với xác suất là bao nhiêu.

Mô hình ngôn ngữ dự đoán xác suất những từ nào xuất hiện tiếp theo

Mô hình ngôn ngữ thường là mô hình N-gram hoặc mạng nơ-ron được đào tạo trên hàng triệu từ dữ liệu văn bản. Lựa chọn từ và cụm từ của mọi người phần lớn bị ảnh hưởng bởi chủ đề họ đang nói, nhưng nó cũng có thể bị ảnh hưởng bởi tuổi tác, giới tính, hình thức, phong cách nói và các yếu tố khác. Dữ liệu đào tạo mô hình ngôn ngữ phải phản ánh các loại từ và cụm từ mà người dùng sẽ nói với hệ thống cuối cùng. 

TÙY BIẾN

AM mô hình hóa âm thanh của ngôn ngữ, từ vựng mô tả cách những âm thanh đó kết hợp để tạo ra từ và LM mô hình hóa cách những từ đó được cấu tạo thành chuỗi từ. Được sử dụng cùng nhau trong một công cụ nhận dạng giọng nói, những công cụ này cho phép bạn tự động phiên âm giọng nói. 

Như với tất cả các hệ thống học máy, các mô hình nhận dạng giọng nói này phụ thuộc nhiều vào dữ liệu được sử dụng để đào tạo chúng. Điều này có nghĩa là chúng ta phải cẩn thận để đưa ra những lựa chọn dữ liệu phù hợp để tạo mô hình cho sự đa dạng hoàn chỉnh của lời nói. Tuy nhiên, nó cũng cho phép chúng tôi tùy chỉnh hệ thống theo một ứng dụng hoặc kịch bản cụ thể bằng cách lựa chọn cẩn thận dữ liệu. Ví dụ, chúng ta có thể:

Thông thường, các tổ chức đã có dữ liệu có thể được sử dụng để tùy chỉnh mô hình giọng nói. Ví dụ, bộ sưu tập nội bộ của các tài liệu văn bản có thể được sử dụng để xây dựng một mô hình ngôn ngữ được kết hợp với mô hình âm học chung và từ vựng của Cobalt. Hệ thống tùy chỉnh sau đó có thể được tinh chỉnh thêm sau khi được triển khai, sử dụng dữ liệu được thu thập tại hiện trường, nếu các hạn chế về quyền riêng tư và xử lý dữ liệu cho phép. 

TƯƠNG LAI

Trong 10 năm qua, độ chính xác của nhận dạng giọng nói đã được cải thiện đáng kể do khả năng tính toán tăng lên, dữ liệu sẵn có và các phương pháp mô hình hóa mạnh mẽ hơn như mạng nơ-ron sâu. Mặc dù chúng ta không thể dự đoán tương lai, nhưng một số hướng thú vị mà chúng ta thấy mọi thứ đang phát triển là: 

1.     Tùy chỉnh - các tổ chức đang tìm kiếm các giải pháp AI, bao gồm cả công nghệ giọng nói và ngôn ngữ, được điều chỉnh cho các trường hợp sử dụng của họ.

2.     Hiệu quả dữ liệu - hiện tại cần 1000 giờ dữ liệu âm thanh để xây dựng một hệ thống, nhưng việc giảm yêu cầu dữ liệu của hệ thống ASR hứa hẹn sẽ tăng tốc và giảm chi phí phát triển.

3.     ASR end-to-end - sử dụng một mạng nơ-ron duy nhất để lập mô hình từ vựng, mô hình ngôn ngữ và mô hình âm thanh cùng nhau là một lĩnh vực nghiên cứu phổ biến đang đạt được những bước tiến lớn. Kết quả chưa chính xác như các mô hình riêng biệt, nhưng nghiên cứu tiến triển rất nhanh!

 

Nguồn: https://www.cobaltspeech.com/coblog/2019/10/17/under-the-hood-automatic-speech-recognition