Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt ứng dụng cho phần mềm ghi biên bản họp
- 64 trang
- file .pdf
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
LUẬN VĂN THẠC SĨ
Nghiên cứu xây dựng hệ thống nhận dạng
tiếng nói tiếng Việt ứng dụng cho phần
mềm ghi biên bản họp
MAI VĂN TUẤN
[email protected]
Ngành Kỹ thuật Điều khiển và Tự động hóa
Giảng viên hướng dẫn: PGS. TS. Nguyễn Quốc Cường
Chữ ký của GVHD
Viện: Điện
HÀ NỘI, 10/2020
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn : Mai Văn Tuấn
Đề tài luận văn: Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng
Việt ứng dụng cho phần mềm ghi biên bản họp
Chuyên ngành: Kỹ thuật Điều khiển và Tự động hóa
Mã số SV: CAC19008
Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác
nhận tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng
ngày 31/10/2020 với các nội dung sau:
- Sửa các lỗi chính tả trong luận văn.
- Thêm các trích dẫn nguồn từ các hình vẽ.
- Việt hóa các thuật ngữ tiếng anh.
- Chuẩn hóa lại các công thức và các tham chiếu đến công thức.
- Cân đối lại độ dài của các chương.
Hà Nội, Ngày tháng năm 2020
Giáo viên hướng dẫn Tác giả luận văn
CHỦ TỊCH HỘI ĐỒNG
Kính gửi : Viện Điện
PHIẾU ĐĂNG KÝ HƯỚNG DẪN ĐỀ TÀI(*)
1. Họ và tên người hướng dẫn chính: Nguyễn Quốc Cường Học vị: Tiến
sĩ Học hàm: PGS
2. Cơ quan: Bộ môn Kỹ thuật đo và Tin học Công nghiệp - Viện Điện - Trường
Đại học Bách khoa Hà Nội
3. Email: [email protected] DĐ: 0912 265 621 CQ : 04
38696233 NR :
4. Nội dung:
Chuyên ngành: Đo lường và các hệ thống điều khiển
a. Tên đề tài: Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ứng
dụng cho phần mềm ghi biên bản họp
Tên tiếng Anh : Automatic speech recognition for meeting note software
b. Mục tiêu chính của đề tài:
Xây dựng mô hình nhận dạng tiếng nói tiếng Việt ứng dụng được vào sản
phẩm bóc băng cuộc họp
c. Nội dung của đề tài, các vấn đề cần được giải quyết:
Xây dựng bộ dữ liệu lớn tiếng nói tiếng Việt.
Nghiên cứu các phương pháp nâng cao chất lượng mô hình âm học trong
điều kiện chạy thực tế
Nghiên cứu các phương pháp xây dựng mô hình ngôn ngữ phù hợp trong
bài toán nhận dạng giọng hội thoại tự nhiên
Viết bài báo khoa học
Hà Nội, Ngày tháng năm 2020
Người hướng dẫn
Lời cảm ơn
Lời đầu tiên tôi xin cảm ơn PGS.TS Nguyễn Quốc Cường, người thầy đã
tận tình hướng dẫn tôi ngay từ những ngày đầu chọn đề tài và thực hiện luận văn
này.
Tôi xin chân thành cảm ơn anh Đỗ Văn Hải, anh Lê Nhật Minh cùng những
người đồng nghiệp tại nhóm nghiên cứu xử lý tiếng nói - Trung tâm Không Gian
Mạng Viettel đã giúp đỡ, tạo điều kiện cho tôi rất nhiều trong quá trình thực hiện
luận văn.
Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình, bạn bè những người luôn
ở bên và ủng hộ tôi để tôi có thể hoàn thành được luận văn này.
TÓM TẮT LUẬN VĂN THẠC SĨ
Đề tài: Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ứng dụng
cho phần mềm ghi biên bản họp.
Tác giả luận văn: Mai Văn Tuấn Khóa: 2019A
Người hướng dẫn: PGS.TS Nguyễn Quốc Cường
Từ khóa (Keyword): Automatic Speech Recognition, Noise robustness acoustic
model, Coversational Language Model
Nội dung tóm tắt:
a) Lý do chọn đề tài
Vấn đề thực tế: việc ghi chép, tóm tắt lại văn bản sau mỗi cuộc họp,
cuộc phỏng vấn rất mất thời gian và công sức. Trong bối cảnh hiện nay,
cùng với sự phổ biến của trí tuệ nhân tạo, công nghệ nhận dạng tiếng
nói - chuyển từ tiếng nói sang văn bản đã ghi nhận những bước tiến vượt
bậc và đã đạt đến độ chín để có thể tích hợp vào các sản phẩm trợ giúp
phần ghi chép của con người. Trên thế giới, đã có nhiều doanh nghiệp
công nghệ lớn, đưa công nghệ nhận dạng tiếng nói vào trong các sản
phẩm ghi chép, ghi chú giọng nói nhưng phần lớn chỉ hỗ trợ tiếng Anh.
Tại Việt Nam, từ năm 2018 cũng đã có những sản phẩm bóc băng tiếng
Việt được đưa ra thị trường và được triển khai ở các bộ ban ngành, các
doanh nghiệp đem lại những phản hồi rất tích cực từ phía người dùng.
Vì vậy tôi đã lựa chọn đề tài “Nghiên cứu xây dựng hệ thống nhận
dạng tiếng nói tiếng Việt ứng dụng cho phần mềm ghi biên bản họp” để
nghiên cứu, đề xuất các giải pháp nâng cao chất lượng của công nghệ
chuyển đổi từ giọng nói sang chữ viết trong phần mềm ghi biên bản họp.
b) Mục đích nghiên cứu của luận văn, đối tượng và phạm vi nghiên cứu
Mô hình nhận dạng tiếng nói được xây dựng trong luận văn cần phải
đảm bảo về chất lượng, hoạt động ổn định trong các điều kiện thực tế.
Đồng thời mô hình cũng cần phải đáp ứng được các yêu cầu về hiệu
năng, tốc độ tối ưu của sản phẩm.
c) Tóm tắt những đóng góp mới của tác giả
- Quy trình thu thập dữ liệu cho hệ thống nhận dạng tiếng nói dữ
liệu lớn.
- Các phương pháp xây dựng mô hình âm học ổn định với nhiễu
thực tế.
- Các phương pháp xây dựng mô hình ngôn ngữ hội thoại thích
hợp với bài toán ghi âm trong cuộc họp .
d) Bố cục của luận văn
Luận văn này bao gồm 4 chương có nội dung như sau
- CHƯƠNG 1: TỔNG QUAN PHẦN MỀM GHI BIÊN BẢN HỌP
VÀ KHẢO SÁT CÁC SẢN PHẨM NHẬN DẠNG TIẾNG NÓI:
Chương này mô tả kiến trúc hệ thống của một phần mềm bóc băng
cơ bản, và nhũng khảo sát về việc ứng dụng công nghệ nhận dạng
hiện nay.
- CHƯƠNG 2: TỔNG QUAN CÔNG NGHỆ NHẬN DẠNG TIẾNG
NÓI: Chương này chủ yếu nói về lý thuyết công nghệ nhận dạngtiếng
nói.
- CHƯƠNG 3: XÂY DỰNG VÀ CẢI THIỆN HỆ THỐNG NHẬN
DẠNG TIÊNG NÓI: Chương này mô tả các phương pháp đề xuất,
thí nghiệm của tác giả trong huấn luyện mô hình nhận dạng.
- CHƯƠNG 4: KẾT QUẢ TÍCH HỢP VÀO SẢN PHẨM:Chương
này đề cập đến sự tích hợp của mô hình nhận dạng tiếng nói đã xây
dựng ở chương trước vào trong sản phẩm thực tế.
Học viên thực hiện
MỤC LỤC
CHƯƠNG 1: TỔNG QUAN PHẦN MỀM GHI BIÊN BẢN HỌP VÀ KHẢO
SÁT CÁC SẢN PHẨM NHẬN DẠNG TIẾNG NÓI ........................................... 1
1.1. Tổng quan phần mềm .................................................................................. 1
1.1.1. Tính năng của phần mềm ...................................................................... 1
1.2.2. Kiến trúc của phần mềm........................................................................ 1
1.2. Tình hình nghiên cứu phát triển các sản phẩm nhận dạng tiếng nói ........... 3
1.2.1. Các sản phẩm trên thế giới .................................................................... 3
1.1.2. Tình hình các sản phẩm nhận dạng tiếng nói trong nước .................... 5
1.3. Tổng kết ....................................................................................................... 5
CHƯƠNG 2: TỔNG QUAN CÔNG NGHỆ NHẬN DẠNG TIẾNG NÓI ........... 6
2.1. Giới thiệu công nghệ nhận dạng ................................................................. 6
2.1.1. Lý thuyết................................................................................................ 6
2.1.2. Phương diện toán học ............................................................................ 7
2.2. Trích xuất đặc trưng ..................................................................................... 8
2.2.1. Đặc trưng MFCC ................................................................................... 9
2.2.2. Đặc trưng Pitch .................................................................................... 13
2.3. Mô hình âm học ......................................................................................... 13
2.3.1. Mô hình HMM-GMM ......................................................................... 13
2.3.2. Mô hình lai ghép HMM-DNN ............................................................ 16
2. 4. Mô hình ngôn ngữ..................................................................................... 23
2.5. Tổng kết ..................................................................................................... 25
CHƯƠNG 3: XÂY DỰNG VÀ CẢI THIỆN HỆ THỐNG NHẬN DẠNG
TIẾNG NÓI .......................................................................................................... 26
3.1. Lựa chọn công cụ ....................................................................................... 27
3.2. Chuẩn bị cơ sở dữ liệu ............................................................................... 29
3.2.1. Đặt vấn đề ............................................................................................ 29
3.2.2. Phương pháp đề xuất ........................................................................... 29
3.3.3. Thực hiện ............................................................................................. 31
3.3. Huấn luyện mô hình âm học ...................................................................... 32
3.3.1. Đặt vấn đề ............................................................................................ 32
3.3.2. Phương pháp đề xuất ........................................................................... 33
3.3.3. Thực nghiệm........................................................................................ 35
3.4. Huấn luyện mô hình ngôn ngữ .................................................................. 41
3.4.1. Đặt vấn đề ............................................................................................ 41
3.4.2. Phương pháp đề xuất ........................................................................... 41
3.4.3. Thực nghiệm........................................................................................ 42
3.5. Tổng kết ..................................................................................................... 44
CHƯƠNG 4: KẾT QUẢ TÍCH HỢP VÀO SẢN PHẨM ................................... 45
4.1. Giao diện sản phẩm ................................................................................... 45
4.2. Đánh giá chất lượng ................................................................................... 46
4.3. Đánh giá hiệu năng .................................................................................... 46
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ........................................................... 49
TÀI LIỆU THAM KHẢO .................................................................................... 50
DANH MỤC HÌNH ẢNH
Hình 1-1 Kiến trúc cơ bản của phần mềm bóc băng .............................................. 2
Hình 2-1 Kiến trúc cơ bản của hệ thống nhận dạng tiếng nói ............................... 6
Hình 2-2 Kiến trúc ASR trên phương diện toán học [4] ........................................ 7
Hình 2-3 Các bước trích xuất đặc trưng MFCC..................................................... 9
Hình 2-4 Ảnh hưởng của tiền xử lý đến tín hiệu âm thanh .................................. 10
Hình 2-10 Sơ đồ kiến trúc HMM-DNN[4] .......................................................... 17
Hình 2-11 Kiến trúc mạng TDNN [4] ................................................................. 19
Hình 2-12 Mạng RNN điển hình .......................................................................... 20
Hình 2-13 Mạng RNN rút gọn ............................................................................. 21
Hình 2-14 Một đơn vị nhớ của mạng LSTM [4].................................................. 22
Hình3-1 Quy trình huấn luyện đề xuất..................................................................27
Hình 3- 2 Pipline cơ bản trong Kaldi ................................................................... 28
Hình 3-3 Các tầng thư viện trong kaldi ................................................................ 28
Hình 3-4 Quy trình chuẩn bị cơ sở dữ liệu đề xuất .............................................. 30
Hình 3-5 Phân bố theo độ dài trong tập dữ liệu ................................................... 32
Hình 3-6 Phổ của tín hiệu nhiễu ........................................................................... 34
Hình 3-7 Phổ của tín hiệu có tiếng nói và nhiễu .................................................. 34
Hình 3-8 Phân bố theo số lượng của các loại noise trong tập dữ liệu.................. 36
Hình 3-9 Phân bố SNR thu được ......................................................................... 39
Hình 3-10 Phương pháp xây dựng mô hình ngôn ngữ đề xuất ............................ 41
Hình 3-11 PPL của các mô hình ngôn ngữ trên tập dev ...................................... 43
Hình 4-1 Giao diện ghi âm trực tiếp.....................................................................45
Hình 4-2 Giao diện giải mã file offline ................................................................ 45
Hình 4-3 Thời gian đáp ứng streaming theo độ dài audio ................................... 47
Hình 4-4 Dung lượng Ram dùng theo worker ..................................................... 47
Hình 4-5 Thời gian trả về theo số lượng thread ................................................... 48
DANH MỤC BẢNG
Bảng 3-1 Ví dụ cách thay đổi nhãn ...................................................................... 35
Bảng 3-2 Thông số trích xuất đặc trưng............................................................... 37
Bảng 3-3 Thông tin các tập test............................................................................ 37
Bảng 3-4 Kết quả đo SNR tại các phòng họp khác nhau ..................................... 38
Bảng 3-5 Tỷ lệ lỗi WER (%) trên các tập test .................................................... 40
Bảng 3- 6 Kích thước của các tập dữ liệu và PPL tương ứng .............................. 42
Bảng 3-7 Tỷ lệ lỗi WER (%) theo các phương pháp thử nghiệm ........................ 43
DANH MỤC CÁC TỪ VIÊT TẮT VÀ THUẬT NGỮ
STT TÊN ĐẦY ĐỦ Ý NGHĨA
AM Acoustic Model Mô hình âm học
LM Language Model Mô hình ngôn ngữ
VAD Voice Activity Detection Phát hiện tiếng nói
ASR Automatic Speech Recognition Nhận dạng tiếng nói tự động
WER Word Error Rate Tỷ lệ lỗi theo mức từ
DFT Discrete Fourier Transform Biến đổi Fourier rời rạc
Inverse Discrete Fourier Trans-
IDFT Biến đổi Fourier ngược
form
Mel-Frequency Cepstral Kỹ thuật trích trọn đặc trưng dùng
MFCC
Coefficients bộ lọc Mel
HMM Hidden Markov Model Mô hình Markov ẩn
GMM Gaussian Mixture Models Mô hình hợp Gauss
Mô hình HMM trong đó hàm mật
GHMM Gaussian Hidden Markov Model độ trong mỗi trạng thái là một hàm
Gauss
Mô hình HMM trong đó hàm mật
Mixture Gaussian Hidden Markov
MGHMM độ trong mỗi trạng thái là tổ hợp
Model
các hàm Gauss
CD Context Dependent Phụ thuộc ngữ cảnh
DNN Deep Nerual Networks Mạng nơ ron học sâu
LSTM Long Short Term Memory Mạng nơ ron LSTM
RNN Reccurrent Neural Network Mạng nơ ron truy hồi
TDNN Time Delay Neural Network Mạng nơ ron TDNN
Feature space Maximum Likeli-
fMLLR Phương pháp biến đổi đặc trưng
hood Regression
MAP Maximum A Posterior Cực đại hóa xác suất
Phép chuẩn hóa độ dài của bộ máy
VTLN Vocal Track Length Normalisation
phát âm
PLP Perceptual Linear Prediction Mã nhận thức tuyến tính
Hàm số dùng để tính loss trong
CE Cross Entropy
mạng nơ ron
Thuật toán tối ưu hóa giảm dần
SGD Stochastic Gradient Descent
gradient
RIR Room Impulse Response Đáp ứng xung trong phòng
CHƯƠNG 1: TỔNG QUAN PHẦN MỀM GHI BIÊN BẢN HỌP VÀ KHẢO
SÁT CÁC SẢN PHẨM NHẬN DẠNG TIẾNG NÓI
1.1. Tổng quan phần mềm
1.1.1. Tính năng của phần mềm
Phần mềm ghi biên bản họp đúng như tên gọi là phần mềm hỗ trợ ghi âm
cuộc họp, cuộc nói chuyện và tự động chuyển các cuộc họp đó thành văn bản. Một
số tính năng chính của phần mềm như sau:
● Hỗ trợ chuyển tiếng nói thành văn bản trực tuyến giảm thiểu thời gian ghi
chép và đánh máy.
● Hỗ trợ chuyển tiếng nói thành văn bản từ các dữ liệu audio và video sẵn có.
● Có khả năng chỉnh sửa nội dung một cách nhanh chóng và trích xuất thông
tin chính xác phục vụ xuất biên bản họp hoặc tra cứu tức thì.
● Tự động chuẩn hóa văn bản trước khi xuất biên bản.
● Lưu trữ và đối sánh toàn bộ nội dung họp (audio và biên bản tương ứng)
một cách nhanh chóng và an toàn.
● Hỗ trợ tìm kiếm nội dung nhanh chóng (nhất là các cuộc họp đã diễn ra
nhiều năm trước).
● Có khả năng tạo môi trường làm việc nhóm, hỗ trợ nhiều người cùng tác
nghiệp cùng một lúc.
● Phát luồng stream cuộc họp trực tuyến tới những máy có cài phần mềm.
1.2.2. Kiến trúc của phần mềm
Phần mềm bóc băng gồm có 2 phần chính đó là phần backend – phần lõi xử
lý phía bên trong, phần giao diện – phần dùng để tương tác với người dùng. Cấu
tạo của phần mềm được mô tả bởi hình dưới đây.
1
Hình 1-1 Kiến trúc cơ bản của phần mềm bóc băng
Giải thích các khối trong phần mềm ghi âm cuộc họp
a) Khối điều khiển
- Là phần giao diện tương tác với người dùng. Trên giao diện sẽ có một số chức
năng chính như sau:
● Đăng nhập, cấu hình tài khoản và phân quyền.
● Nghe hoặc xem lại các cuộc họp cùng với văn bản đã được giải mã.
● Chỉnh sửa các bản ghi và xuất báo cáo.
● Tạo cuộc họp mới và up các audio và video tương ứng.
● Tạo luồng stream giải mã các cuộc họp trực tuyến.
b. Khối nhân xử lý
Module cắt câu VAD
Là module cắt audio thành các đoạn tín hiệu nhỏ hơn dựa vào các khoảng lặng
các khoảng ngắt nghỉ của người nói. Đây là khâu rất quan trọng, có nhiều lý do để
phải cắt nhỏ file âm thanh đầu vào ra có thể kể đến là:
Các file của cuộc họp thường rất dài cỡ 2-3 tiếng. Nếu để cả file để giải
mã thì có thể sẽ gây ra hiện tượng tràn bộ nhớ, hoặc hiệu năng bị giảm
đáng kể do không thực hiện song song được. Mặt khác, mô hình nhận
dạng tiếng nói dưới huấn luyện dựa trên câu ngắn nên sẽ không thích
hợp nếu để giải mã một file âm thanh dài.
Hệ thống phân tách người nói yêu cầu đầu vào là các câu đã được cắt
nhỏ, để tính toán chính xác vector đặc trưng của từng người nói.
Phân tách người nói
Nhận đầu vào là đầu ra của module VAD. Module này sẽ tính toán trên các
đoạn tiếng nói được phát hiện xem là từng người nói ở những thời điểm nào
2
Phương pháp chính sử dụng trong này là phương pháp trích xuất vector đặc
tính người nói trên từng segment và thực hiện phân cụm để xác phân tách.
Nhận dạng tiếng nói
Đây có thể coi là phần lõi chính công nghệ của phần mềm. Module này nhận
đầu vào là các đoạn segment đã được phân người nói ở bước trước và giải mã sang
văn bản tương ứng với từng câu.
Chuẩn hóa văn bản
Văn bản đầu ra của hệ thống nhận dạng là văn bản không có dấu câu chỉ bao
gồm các từ viết liền nhau. Vì vậy cần phải có một bộ chuẩn hóa, để thêm dấu câu,
ngắt nghỉ và xuống dòng để người dùng có thể theo dõi được. Module này sử dụng
các kỹ thuật trong xử lý ngôn ngữ tự nhiên tiếng Việt với một số tính năng chính
như sau:
Tự động thêm các dấu câu.
Viết hoa các danh từ riêng, tên người, tên địa điểm.
Chuyển về các định dạng số tương ứng như địa chỉ, ngày tháng, số tiền..
Ngắt giữa các câu, các đoạn với nhau theo ngữ nghĩa.
Như chúng ta có thể thấy, để tạo thành một sản phẩm phần mềm bóc băng
hoàn chỉnh cần phải có sự kết hợp của nhiều công nghệ khác nhau: xây dựng web,
nhận dạng tiếng nói, phân tách người nói, chuẩn hóa văn bản. Trong khuôn khổ
luận văn này, tác giả tập trung vào xây dựng, cải tiến 1 module chính, quan trọng
nhất trong phần mềm là module nhận dạng tiếng nói. Phần 1.2, tiếp theo sẽ trình
bày một số khảo sát về các nghiên cứu và sản phẩm trong lĩnh vực nhận dạng tiếng
nói trong nước và ngoài nước.
1.2. Tình hình nghiên cứu phát triển các sản phẩm nhận dạng tiếng nói
1.2.1. Các sản phẩm trên thế giới
Công nghệ truyền thông đang thúc đẩy các nghiên cứu chuyển tiếng nói
thành văn bản (nhận dạng tiếng) hay văn bản thành tiếng nói (tổng hợp tiếng) vào
các sản phẩm truyền thông. Các hệ thống dịch tiếng nói đa ngôn ngữ ngày được
phát triển và đưa vào ứng dụng, cài đặt trên các hệ thống smartphones. Các hãng
công nghệ lớn như Goggle, Microsoft đều ra các sản phẩm hỗ trợ nhận dạng và
dịch tiếng nói, và điều này đã trở thành khá phổ biến cho công chúng.
Một số thông tin cụ thể:
a. Speech-to-text của Google1
Các đặc trưng của sản phẩm
● Nhận dạng giọng nói tiếng Việt với độ chính xác 80 - 90%.
● Nhận dạng giọng nói tiếng Anh với độ chính xác 90 - 95%.
1
https://cloud.google.com/speech-to-text
3
● Bền vững với nhiễu và tiếng vọng
● Nhận dạng đa người nói, nhận dạng đa kênh
Một số hạn chế của sản phẩm
● Độ chính xác nhận dạng thấp với một số phương ngữ
● Không có tính bảo mật do sử dụng máy chủ đặt tại nước ngoài
● Không hỗ trợ chức năng ghi và sửa biên bản cuộc họp
b. Amazon transcribe2
Các đặc trưng của sản phẩm
● Nhận dạng giọng nói tiếng Anh với độ chính xác 90 - 95%.
● Nhận dạng đa người nói
● Bền vững với nhiễu và tiếng vọng.
● Nhận dạng đa người nói, nhận dạng đa kênh
Một số hạn chế của sản phẩm
● Không có tính bảo mật do sử dụng máy chủ đặt tại nước ngoài
● Không hỗ trợ tiếng Việt
● Không hỗ trợ chức năng ghi và sửa biên bản cuộc họp
c) Speechnotes3
Các đặc trưng của sản phẩm
● Nhận dạng giọng nói tiếng Anh với độ chính xác 90 - 95%
● Xuất văn bản nhận dạng.
● Bền vững với nhiễu và tiếng vọng.
Một số hạn chế của sản phẩm
● Không có tính bảo mật do sử dụng máy chủ đặt tại nước ngoài
● Không hỗ trợ tiếng Việt
● Không hỗ trợ nhận dạng được các file audio/video
● Không hỗ trợ chức năng ghi và sửa biên bản cuộc họp
Đối với các ứng dụng đặc thù liên quan đến phần mềm chép biên bản họp,
nhu cầu nhận dạng tiếng nói để hỗ trợ biên bản cuộc họp là rất lớn và nhận diện
tiếng nói là một phần quan trọng trong hệ thống nhận diện tiếng nói trong cuộc
họp. Với sự phát triển vượt bậc của công nghệ học sâu, chất lượng của hệ thống
nhận dạng tiếng nói gần tiệm cận với khả năng nghe của con người . Mặc dù mô
hình end-to-end được đề xuất và đạt được những thành tựu nhất định, mô hình lai
giữa học sâu và mô hình Markov ẩn hiện tại cho kết quả tốt nhất trong các nghiên
cứu gần đây [1] . Để biết được các thông tin như ai nói gì vào lúc nào trong một
cuộc họp, một số hãng công nghệ lớn như NTT Nhật bản, Tencent Trung Quốc đã
và đang đi đầu trong phát triển công nghệ đặc biệt tiên tiến phục vụ cho việc ghi
và gán nhãn cuộc họp. Một số công trình nghiên cứu đã được công bố gần đây [2],
[3]
2
https://aws.amazon.com/vi/transcribe/
3
https://speechnotes.co/
4
1.1.2. Tình hình các sản phẩm nhận dạng tiếng nói trong nước
Trong vòng 2-3 năm trở lại đây, những công ty công nghệ lớn cũng đã tích
cực đầu tư vào nghiên cứu và phát triển sản phẩm trong lĩnh vực tiếng nói này
như: Công ty phần mềm FSoft, Viện nghiên cứu công nghệ thuộc tập đoàn FPT,
tập đoàn Viettel với các nghiên cứu và ứng dụng về nhận dạng, tổng hợp tiếng
Việt cho tương tác thông minh, phục vụ cho các ứng dụng của tập đoàn. Đặc biệt
từ giữa năm 2018, với sự hình thành của Viện AI Research và Viện BigData đã
thu hút nhiều nhân lực trong lĩnh vực khoa học máy tính, trí tuệ nhân tạo và học
máy, trong đó có những mảng nghiên cứu và ứng dụng về nhận dạng và tổng hợp
tiếng Việt, thúc đẩy các nghiên cứu trong lĩnh vực này và cho các phát triển ứng
dụng của tập đoàn như VinFAST và VinSMART. Các doanh nghiệp khởi nghiệp
như VAIS, VBEE, InfoRe cũng tham gia tích cực vào thị trường khi cung cấp
các sản phẩm nhận dạng tiếng nói và tổng hợp tiếng nói cho rất nhiều cơ quan từ
Trung ương đến địa phương, từ các tập đoàn đến các tổ chức cá nhân sử dụng.
Các sản phẩm về nhận dạng tiếng nói tiếng Việt mới trong giai đoạn hình
thành. Vì vậy vẫn còn nhiều vấn đề về chất lượng cần được giải quyết như:
Khả năng xử lý nhiễu, thích nghi với các môi trường thực tế còn
kém. Điều này dẫn đến chất lượng của hệ thống nhận dạng giảm
đáng kể khi gặp trường hợp thực tế có môi trường nhiều nhiễu, ồn.
Chất lượng nhận dạng của mô hình không ổn định đối với các
phương ngữ khác nhau, có thể đa phần hệ thống sẽ nhận dạng tiếng
miền Trung kém hơn so với giọng 2 miền còn lại.
1.3. Tổng kết
Tổng kết chương 1, chúng ta đã biết được về chức năng, kiến trúc và công
nghệ sử dụng bên trong phần mềm bóc băng biên bản họp và tình hình nghiên cứu,
ứng dụng các sản phẩm nhận dạng tiếng nói trong nước và trên thế giới. Những
chương tiếp theo sẽ tập trung vào làm rõ công nghệ nhận dạng tiếng nói và cách
để xây dựng một hệ thống nhận dạng tiếng nói tiếng Việt tích hợp trong phần mềm
ghi biên bản họp.
5
CHƯƠNG 2: TỔNG QUAN CÔNG NGHỆ NHẬN DẠNG TIẾNG NÓI
Có rất nhiều cách tiếp cận để giải quyết bài toán nhận dạng tiếng nói như là
so sánh mẫu, xây dựng mô hình học thống kê, sử dụng mô hình mạng nơ ron học
sâu end-to-end. Ở chương 2 này, tác giả tập trung trình bày phương pháp nhận xây
dựng mô hình nhận dạng tiếng nói bằng cách xây dựng mô hình thống kê.
2.1. Giới thiệu công nghệ nhận dạng
2.1.1. Lý thuyết
Nhận dạng tiếng nói bắt đầu xuất hiện từ năm 1960 và đến nay đã đạt được
rất nhiều thành tựu. Chính sự thành công này đã dẫn đến sự ra đời của hàng loạt
ứng dụng thực tế như giao tiếp người-máy qua lời nói, tự động ghi chép lời nói, hệ
thống học ngôn ngữ
Mục tiêu của hệ thống ASR là tìm ra chuỗi văn bản đại diện cho một chuỗi âm
thanh đầu vào. Sơ đồ hệ thống nhận dạng tiếng nói điển hình được biểu diễn bằng
hình 2-1.
Hình 2-1 Kiến trúc cơ bản của hệ thống nhận dạng tiếng nói
Như hình 2-1, một hệ thống nhận dạng tiếng nói gồm 5 phần chính. Chúng ta sẽ
tìm hiểu chức năng và ý nghĩa của từng thành phần ngay sau đây:
Trích chọn đặc trưng (Feature Extraction): trích xuất ra những thông tin có
ích và loại bỏ những thông tin dư thừa. Do tín hiệu tiếng nói liên tục các
đặc trưng thường được trích xuất dưới dạng các frame. Với mỗi một frame,
ta sẽ chọn ra một vector đặc trưng.
Mô hình âm học (Acoustic Model): hoạt động như tai người, đầu vào là đặc
trưng của tiếng nói X, đầu ra là xác suất có điều kiện của tử hay âm vị
P(X|W). Các tham số của mô hình âm học được xác định thông qua quá
trình huấn luyện trên tập mẫu có trước.
6
Mô hình ngôn ngữ (Language Model): lưu trữ thông tin, kiến thức về từ ngữ
ngữ pháp. Những kiến thức này thường được thay đổi theo thời gian do vậy
mô hình ngôn ngữ cũng cần phải cập nhật thường xuyên.
Từ điển phát âm (Lexicon): Mô hình âm học thường dùng để mô hình hóa
những thành phần nhỏ nhất của tiếng nói, gọi là âm vị. Trong khi đó mô
hình ngôn ngữ lại dùng từ để mô hình hóa. Vì vậy cần có cầu nối giữa 2 mô
hình này gọi là từ điển. Từ điển mô tả cách phát âm của một từ bằng cách
biểu diễn từ đó dưới dạng một chuỗi các âm vị.
Bộ giải mã: Mỗi tín hiệu X đầu vào, mô hình âm học sẽ đưa ra xác suất
P(X|W) cho mỗi giả thuyết khác nhau về chuỗi text có thể đúng. Mô hình
ngôn ngữ cũng đưa ra giả thuyết của mình cho chuỗi text W là P(W). Bộ
giải mã sẽ tìm tất cả các chuỗi text có thể có W, lấy P(X|W) từ mô hình âm
học, P(W) từ mô hình ngôn ngữ để chọn ra chuỗi W có xác suất P(W|X) lớn
nhất để làm kết quả nhận dạng.
2.1.2. Phương diện toán học
Dưới phương diện toán học thống kê, ASR tìm ra chuỗi từ W (w1 ,...., wn ) , dự đoán
từ model đã học sẵn với đầu vào là một chuỗi vector quan sát.
Các thành phần chính của một hệ thống ASR theo phương pháp thống kê được
miêu tả ở hình 2-2
Hình 2-2 Kiến trúc ASR trên phương diện toán học [4]
Đầu tiên một tín hiệu tiếng nói được biến đổi thành một chuỗi các vector có độ dài
cố định gọi là các vector âm học O [o1 , o 2 ...., ot ] , sau bước trích xuất đặc trưng.
7
Sau đó, bộ giải mã (decoder) tìm ra chuỗi từ gần nhất (W* ) tương ứng với chuỗi
arg max
vector đầu vào sao cho W * P(O | W ) P(W ) (2.1)
w
Tuy nhiên P(W|O) rất khó để mô hình hóa trực tiếp, do đó theo công thức Bayes
P(O | W ) P(W )
ta có P(W | O) P(O | W (2.2)
P(O)
arg max
Do đó W * P(O | W ) P(W ) (2.3)
w
Likelihood P(O|W) được xác định bởi mô hình âm học và hệ số P(W) được xác
định bởi mô hình ngôn ngữ .
Như đã thấy trong hình 2-2, mỗi một từ Wn được đại diện cho một chuỗi các đơn
vị âm học gọi là phoneme. Khi tính đến trường hợp một từ có nhiều cách đọc,
P(O|W) có thể được tính theo công thức P(O | W ) P(O | Q) P(Q | W ) (2.4)
Q
Trong đó Q (Q1 , Q2, ..., Qn ) là chuỗi các các phát âm cho chuỗi từ W, và mỗi một
cách phát âm của một từ là một chuỗi các phone Qn (q1( n ) , q2( n ) ,....)
P(Qn | wn ) là xác suất từ Wn được phát âm theo chuỗi phone Qn . DO đó P(Q|W)
tương ứng với mô hình phát âm và là xác suất của một chuỗi phone đối với một
chuỗi từ cho trước. Mô hình phát âm này được gọi là từ điển phát âm. Khi tính
đến cả ba yếu tố (âm học, từ điển, ngôn ngữ ), công thức 3.3 có thể được viết là:
arg max
W*
w
Q
P(O | Q) P(Q | W ) P(W ) (2.5)
2.2. Trích xuất đặc trưng
Tín hiệu âm thanh ngoài đời thực là tín hiệu liên tục, hay tính hiệu tương tự
trước khi thực hiện bất cứ bước xử lý nào, tín hiệu âm thanh cần được số hóa. Việc
này được thực hiện tự động bởi các thiết bị thu âm, bằng cách lấy mẫu tín hiệu đầu
vào. Như vậy, một tín hiệu âm thanh bất kỳ khi đã được đưa vào máy tính, là một
tập các mẫu liên tiếp nhau, mỗi mẫu là giá trị biên độ của tín hiệu tại một thời điểm
nhất định. Một tham số quan trọng trong việc lấy mẫu tín hiệu âm thanh là tần số
lấy mẫu, Fs, tức là số mẫu được lấy trong một giây. Để có thể đo lường chính xác,
cần phải lấy ít nhất 2 mẫu trong một chu kỳ của tín hiệu tương tự đầu vào. Như
vậy, tần số lấy mẫu phải lớn hơn 2 lần tần số cao nhất của tín hiệu âm thanh đầu
vào.
Trích chọn đặc trưng đối với nhận dạng tiếng nói là việc tham số hóa chuỗi
tín hiệu âm thanh dạng sống đầu vào, biến đổi tín hiệu âm thanh thành một chuỗi
các vector đặc trưng n chiều, mỗi chiều là một giá trị thực. Hiện nay, có rất nhiều
phương pháp trích chọn đặc trưng như: LPC (Linear predictive coding – Dự đoán
tuyến tính), AMDF (Average magnitude different function – hàm biên độ trung
bình), MFCC (Mel-frequency cepstral coefficients).
8
2.2.1. Đặc trưng MFCC
Trong nhận dạng tiếng nói, kỹ thuật trích chọn đặc trưng MFCC là phương
pháp phổ biến nhất. MFCC là viết tắt của Mel-frequency cepstral coefficients. Kỹ
thuật này dựa trên việc thực hiện biến đổi để chuyển dữ liệu âm thanh đầu vào (đã
được biến đổi Fourier cho phổ) về thang đo tần số Mel, một thang đo diễn tả tốt
hơn sự nhạy cảm của tai người đổi với âm thanh. Kỹ thuật trích chọn đặc trưng
này gồm các bước biến đổi liên tiếp, trong đó đầu ra của bước biến đổi trước sẽ là
đầu vào của bước biến đổi sau. Đầu vào của quá trình đặc trưng này sẽ là một đoạn
tín hiệu tiếng nói. Vì tín hiệu âm thanh sau khi được đưa vào máy tính đã được rời
rạc hóa nên đoạn tín hiệu tiếng nói này bao gồm các mẫu liên tiếp nhau, mỗi mẫu
là một giá trị thực, thể hiện giá trị biên độ của âm thanh tại 1 thời điểm. Các bước
của quá trình trích xuất đặc trưng MFCC được thể hiện ở hình 2-3
Hình 2-3 Các bước trích xuất đặc trưng MFCC
a) Tiền xử lý
Tín hiệu âm thanh thường được thu ở môi trường đời thường, tiếng nói bình
thường của một người cũng không được to, trừ khi nói to có chủ định, do đó nhiễu
của môi trường (tần số thấp) nhiều khi có cường độ lớn bằng một phần đáng kể
(nghe có thể dễ dàng nhận ra) của tiếng nói khi thu âm, bước đầu tiên của quá trình
trích chọn đặc trưng MFCC sẽ xử lý vấn đề này, bằng việc thực hiện tăng cường
độ của những tần số cao lên nhằm làm tăng năng lượng ở vùng có tần số cao –
vùng tần số của tiếng nói, một cách dễ hiểu là làm tiếng nói lớn hơn lên để ảnh
hưởng của các âm thanh môi trường và nhiễu trở thành không đáng kể. Việc tăng
cường độ của vùng tần số cao lên đồng thời làm cho thông tin rõ ràng hơn đối với
mẫu tiếng nói. Hình 2-4 mô tả trước và sau quá trình Pre-emphasis của một đoạn
tín hiệu âm thanh:
9
LUẬN VĂN THẠC SĨ
Nghiên cứu xây dựng hệ thống nhận dạng
tiếng nói tiếng Việt ứng dụng cho phần
mềm ghi biên bản họp
MAI VĂN TUẤN
[email protected]
Ngành Kỹ thuật Điều khiển và Tự động hóa
Giảng viên hướng dẫn: PGS. TS. Nguyễn Quốc Cường
Chữ ký của GVHD
Viện: Điện
HÀ NỘI, 10/2020
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn : Mai Văn Tuấn
Đề tài luận văn: Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng
Việt ứng dụng cho phần mềm ghi biên bản họp
Chuyên ngành: Kỹ thuật Điều khiển và Tự động hóa
Mã số SV: CAC19008
Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác
nhận tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng
ngày 31/10/2020 với các nội dung sau:
- Sửa các lỗi chính tả trong luận văn.
- Thêm các trích dẫn nguồn từ các hình vẽ.
- Việt hóa các thuật ngữ tiếng anh.
- Chuẩn hóa lại các công thức và các tham chiếu đến công thức.
- Cân đối lại độ dài của các chương.
Hà Nội, Ngày tháng năm 2020
Giáo viên hướng dẫn Tác giả luận văn
CHỦ TỊCH HỘI ĐỒNG
Kính gửi : Viện Điện
PHIẾU ĐĂNG KÝ HƯỚNG DẪN ĐỀ TÀI(*)
1. Họ và tên người hướng dẫn chính: Nguyễn Quốc Cường Học vị: Tiến
sĩ Học hàm: PGS
2. Cơ quan: Bộ môn Kỹ thuật đo và Tin học Công nghiệp - Viện Điện - Trường
Đại học Bách khoa Hà Nội
3. Email: [email protected] DĐ: 0912 265 621 CQ : 04
38696233 NR :
4. Nội dung:
Chuyên ngành: Đo lường và các hệ thống điều khiển
a. Tên đề tài: Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ứng
dụng cho phần mềm ghi biên bản họp
Tên tiếng Anh : Automatic speech recognition for meeting note software
b. Mục tiêu chính của đề tài:
Xây dựng mô hình nhận dạng tiếng nói tiếng Việt ứng dụng được vào sản
phẩm bóc băng cuộc họp
c. Nội dung của đề tài, các vấn đề cần được giải quyết:
Xây dựng bộ dữ liệu lớn tiếng nói tiếng Việt.
Nghiên cứu các phương pháp nâng cao chất lượng mô hình âm học trong
điều kiện chạy thực tế
Nghiên cứu các phương pháp xây dựng mô hình ngôn ngữ phù hợp trong
bài toán nhận dạng giọng hội thoại tự nhiên
Viết bài báo khoa học
Hà Nội, Ngày tháng năm 2020
Người hướng dẫn
Lời cảm ơn
Lời đầu tiên tôi xin cảm ơn PGS.TS Nguyễn Quốc Cường, người thầy đã
tận tình hướng dẫn tôi ngay từ những ngày đầu chọn đề tài và thực hiện luận văn
này.
Tôi xin chân thành cảm ơn anh Đỗ Văn Hải, anh Lê Nhật Minh cùng những
người đồng nghiệp tại nhóm nghiên cứu xử lý tiếng nói - Trung tâm Không Gian
Mạng Viettel đã giúp đỡ, tạo điều kiện cho tôi rất nhiều trong quá trình thực hiện
luận văn.
Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình, bạn bè những người luôn
ở bên và ủng hộ tôi để tôi có thể hoàn thành được luận văn này.
TÓM TẮT LUẬN VĂN THẠC SĨ
Đề tài: Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ứng dụng
cho phần mềm ghi biên bản họp.
Tác giả luận văn: Mai Văn Tuấn Khóa: 2019A
Người hướng dẫn: PGS.TS Nguyễn Quốc Cường
Từ khóa (Keyword): Automatic Speech Recognition, Noise robustness acoustic
model, Coversational Language Model
Nội dung tóm tắt:
a) Lý do chọn đề tài
Vấn đề thực tế: việc ghi chép, tóm tắt lại văn bản sau mỗi cuộc họp,
cuộc phỏng vấn rất mất thời gian và công sức. Trong bối cảnh hiện nay,
cùng với sự phổ biến của trí tuệ nhân tạo, công nghệ nhận dạng tiếng
nói - chuyển từ tiếng nói sang văn bản đã ghi nhận những bước tiến vượt
bậc và đã đạt đến độ chín để có thể tích hợp vào các sản phẩm trợ giúp
phần ghi chép của con người. Trên thế giới, đã có nhiều doanh nghiệp
công nghệ lớn, đưa công nghệ nhận dạng tiếng nói vào trong các sản
phẩm ghi chép, ghi chú giọng nói nhưng phần lớn chỉ hỗ trợ tiếng Anh.
Tại Việt Nam, từ năm 2018 cũng đã có những sản phẩm bóc băng tiếng
Việt được đưa ra thị trường và được triển khai ở các bộ ban ngành, các
doanh nghiệp đem lại những phản hồi rất tích cực từ phía người dùng.
Vì vậy tôi đã lựa chọn đề tài “Nghiên cứu xây dựng hệ thống nhận
dạng tiếng nói tiếng Việt ứng dụng cho phần mềm ghi biên bản họp” để
nghiên cứu, đề xuất các giải pháp nâng cao chất lượng của công nghệ
chuyển đổi từ giọng nói sang chữ viết trong phần mềm ghi biên bản họp.
b) Mục đích nghiên cứu của luận văn, đối tượng và phạm vi nghiên cứu
Mô hình nhận dạng tiếng nói được xây dựng trong luận văn cần phải
đảm bảo về chất lượng, hoạt động ổn định trong các điều kiện thực tế.
Đồng thời mô hình cũng cần phải đáp ứng được các yêu cầu về hiệu
năng, tốc độ tối ưu của sản phẩm.
c) Tóm tắt những đóng góp mới của tác giả
- Quy trình thu thập dữ liệu cho hệ thống nhận dạng tiếng nói dữ
liệu lớn.
- Các phương pháp xây dựng mô hình âm học ổn định với nhiễu
thực tế.
- Các phương pháp xây dựng mô hình ngôn ngữ hội thoại thích
hợp với bài toán ghi âm trong cuộc họp .
d) Bố cục của luận văn
Luận văn này bao gồm 4 chương có nội dung như sau
- CHƯƠNG 1: TỔNG QUAN PHẦN MỀM GHI BIÊN BẢN HỌP
VÀ KHẢO SÁT CÁC SẢN PHẨM NHẬN DẠNG TIẾNG NÓI:
Chương này mô tả kiến trúc hệ thống của một phần mềm bóc băng
cơ bản, và nhũng khảo sát về việc ứng dụng công nghệ nhận dạng
hiện nay.
- CHƯƠNG 2: TỔNG QUAN CÔNG NGHỆ NHẬN DẠNG TIẾNG
NÓI: Chương này chủ yếu nói về lý thuyết công nghệ nhận dạngtiếng
nói.
- CHƯƠNG 3: XÂY DỰNG VÀ CẢI THIỆN HỆ THỐNG NHẬN
DẠNG TIÊNG NÓI: Chương này mô tả các phương pháp đề xuất,
thí nghiệm của tác giả trong huấn luyện mô hình nhận dạng.
- CHƯƠNG 4: KẾT QUẢ TÍCH HỢP VÀO SẢN PHẨM:Chương
này đề cập đến sự tích hợp của mô hình nhận dạng tiếng nói đã xây
dựng ở chương trước vào trong sản phẩm thực tế.
Học viên thực hiện
MỤC LỤC
CHƯƠNG 1: TỔNG QUAN PHẦN MỀM GHI BIÊN BẢN HỌP VÀ KHẢO
SÁT CÁC SẢN PHẨM NHẬN DẠNG TIẾNG NÓI ........................................... 1
1.1. Tổng quan phần mềm .................................................................................. 1
1.1.1. Tính năng của phần mềm ...................................................................... 1
1.2.2. Kiến trúc của phần mềm........................................................................ 1
1.2. Tình hình nghiên cứu phát triển các sản phẩm nhận dạng tiếng nói ........... 3
1.2.1. Các sản phẩm trên thế giới .................................................................... 3
1.1.2. Tình hình các sản phẩm nhận dạng tiếng nói trong nước .................... 5
1.3. Tổng kết ....................................................................................................... 5
CHƯƠNG 2: TỔNG QUAN CÔNG NGHỆ NHẬN DẠNG TIẾNG NÓI ........... 6
2.1. Giới thiệu công nghệ nhận dạng ................................................................. 6
2.1.1. Lý thuyết................................................................................................ 6
2.1.2. Phương diện toán học ............................................................................ 7
2.2. Trích xuất đặc trưng ..................................................................................... 8
2.2.1. Đặc trưng MFCC ................................................................................... 9
2.2.2. Đặc trưng Pitch .................................................................................... 13
2.3. Mô hình âm học ......................................................................................... 13
2.3.1. Mô hình HMM-GMM ......................................................................... 13
2.3.2. Mô hình lai ghép HMM-DNN ............................................................ 16
2. 4. Mô hình ngôn ngữ..................................................................................... 23
2.5. Tổng kết ..................................................................................................... 25
CHƯƠNG 3: XÂY DỰNG VÀ CẢI THIỆN HỆ THỐNG NHẬN DẠNG
TIẾNG NÓI .......................................................................................................... 26
3.1. Lựa chọn công cụ ....................................................................................... 27
3.2. Chuẩn bị cơ sở dữ liệu ............................................................................... 29
3.2.1. Đặt vấn đề ............................................................................................ 29
3.2.2. Phương pháp đề xuất ........................................................................... 29
3.3.3. Thực hiện ............................................................................................. 31
3.3. Huấn luyện mô hình âm học ...................................................................... 32
3.3.1. Đặt vấn đề ............................................................................................ 32
3.3.2. Phương pháp đề xuất ........................................................................... 33
3.3.3. Thực nghiệm........................................................................................ 35
3.4. Huấn luyện mô hình ngôn ngữ .................................................................. 41
3.4.1. Đặt vấn đề ............................................................................................ 41
3.4.2. Phương pháp đề xuất ........................................................................... 41
3.4.3. Thực nghiệm........................................................................................ 42
3.5. Tổng kết ..................................................................................................... 44
CHƯƠNG 4: KẾT QUẢ TÍCH HỢP VÀO SẢN PHẨM ................................... 45
4.1. Giao diện sản phẩm ................................................................................... 45
4.2. Đánh giá chất lượng ................................................................................... 46
4.3. Đánh giá hiệu năng .................................................................................... 46
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ........................................................... 49
TÀI LIỆU THAM KHẢO .................................................................................... 50
DANH MỤC HÌNH ẢNH
Hình 1-1 Kiến trúc cơ bản của phần mềm bóc băng .............................................. 2
Hình 2-1 Kiến trúc cơ bản của hệ thống nhận dạng tiếng nói ............................... 6
Hình 2-2 Kiến trúc ASR trên phương diện toán học [4] ........................................ 7
Hình 2-3 Các bước trích xuất đặc trưng MFCC..................................................... 9
Hình 2-4 Ảnh hưởng của tiền xử lý đến tín hiệu âm thanh .................................. 10
Hình 2-10 Sơ đồ kiến trúc HMM-DNN[4] .......................................................... 17
Hình 2-11 Kiến trúc mạng TDNN [4] ................................................................. 19
Hình 2-12 Mạng RNN điển hình .......................................................................... 20
Hình 2-13 Mạng RNN rút gọn ............................................................................. 21
Hình 2-14 Một đơn vị nhớ của mạng LSTM [4].................................................. 22
Hình3-1 Quy trình huấn luyện đề xuất..................................................................27
Hình 3- 2 Pipline cơ bản trong Kaldi ................................................................... 28
Hình 3-3 Các tầng thư viện trong kaldi ................................................................ 28
Hình 3-4 Quy trình chuẩn bị cơ sở dữ liệu đề xuất .............................................. 30
Hình 3-5 Phân bố theo độ dài trong tập dữ liệu ................................................... 32
Hình 3-6 Phổ của tín hiệu nhiễu ........................................................................... 34
Hình 3-7 Phổ của tín hiệu có tiếng nói và nhiễu .................................................. 34
Hình 3-8 Phân bố theo số lượng của các loại noise trong tập dữ liệu.................. 36
Hình 3-9 Phân bố SNR thu được ......................................................................... 39
Hình 3-10 Phương pháp xây dựng mô hình ngôn ngữ đề xuất ............................ 41
Hình 3-11 PPL của các mô hình ngôn ngữ trên tập dev ...................................... 43
Hình 4-1 Giao diện ghi âm trực tiếp.....................................................................45
Hình 4-2 Giao diện giải mã file offline ................................................................ 45
Hình 4-3 Thời gian đáp ứng streaming theo độ dài audio ................................... 47
Hình 4-4 Dung lượng Ram dùng theo worker ..................................................... 47
Hình 4-5 Thời gian trả về theo số lượng thread ................................................... 48
DANH MỤC BẢNG
Bảng 3-1 Ví dụ cách thay đổi nhãn ...................................................................... 35
Bảng 3-2 Thông số trích xuất đặc trưng............................................................... 37
Bảng 3-3 Thông tin các tập test............................................................................ 37
Bảng 3-4 Kết quả đo SNR tại các phòng họp khác nhau ..................................... 38
Bảng 3-5 Tỷ lệ lỗi WER (%) trên các tập test .................................................... 40
Bảng 3- 6 Kích thước của các tập dữ liệu và PPL tương ứng .............................. 42
Bảng 3-7 Tỷ lệ lỗi WER (%) theo các phương pháp thử nghiệm ........................ 43
DANH MỤC CÁC TỪ VIÊT TẮT VÀ THUẬT NGỮ
STT TÊN ĐẦY ĐỦ Ý NGHĨA
AM Acoustic Model Mô hình âm học
LM Language Model Mô hình ngôn ngữ
VAD Voice Activity Detection Phát hiện tiếng nói
ASR Automatic Speech Recognition Nhận dạng tiếng nói tự động
WER Word Error Rate Tỷ lệ lỗi theo mức từ
DFT Discrete Fourier Transform Biến đổi Fourier rời rạc
Inverse Discrete Fourier Trans-
IDFT Biến đổi Fourier ngược
form
Mel-Frequency Cepstral Kỹ thuật trích trọn đặc trưng dùng
MFCC
Coefficients bộ lọc Mel
HMM Hidden Markov Model Mô hình Markov ẩn
GMM Gaussian Mixture Models Mô hình hợp Gauss
Mô hình HMM trong đó hàm mật
GHMM Gaussian Hidden Markov Model độ trong mỗi trạng thái là một hàm
Gauss
Mô hình HMM trong đó hàm mật
Mixture Gaussian Hidden Markov
MGHMM độ trong mỗi trạng thái là tổ hợp
Model
các hàm Gauss
CD Context Dependent Phụ thuộc ngữ cảnh
DNN Deep Nerual Networks Mạng nơ ron học sâu
LSTM Long Short Term Memory Mạng nơ ron LSTM
RNN Reccurrent Neural Network Mạng nơ ron truy hồi
TDNN Time Delay Neural Network Mạng nơ ron TDNN
Feature space Maximum Likeli-
fMLLR Phương pháp biến đổi đặc trưng
hood Regression
MAP Maximum A Posterior Cực đại hóa xác suất
Phép chuẩn hóa độ dài của bộ máy
VTLN Vocal Track Length Normalisation
phát âm
PLP Perceptual Linear Prediction Mã nhận thức tuyến tính
Hàm số dùng để tính loss trong
CE Cross Entropy
mạng nơ ron
Thuật toán tối ưu hóa giảm dần
SGD Stochastic Gradient Descent
gradient
RIR Room Impulse Response Đáp ứng xung trong phòng
CHƯƠNG 1: TỔNG QUAN PHẦN MỀM GHI BIÊN BẢN HỌP VÀ KHẢO
SÁT CÁC SẢN PHẨM NHẬN DẠNG TIẾNG NÓI
1.1. Tổng quan phần mềm
1.1.1. Tính năng của phần mềm
Phần mềm ghi biên bản họp đúng như tên gọi là phần mềm hỗ trợ ghi âm
cuộc họp, cuộc nói chuyện và tự động chuyển các cuộc họp đó thành văn bản. Một
số tính năng chính của phần mềm như sau:
● Hỗ trợ chuyển tiếng nói thành văn bản trực tuyến giảm thiểu thời gian ghi
chép và đánh máy.
● Hỗ trợ chuyển tiếng nói thành văn bản từ các dữ liệu audio và video sẵn có.
● Có khả năng chỉnh sửa nội dung một cách nhanh chóng và trích xuất thông
tin chính xác phục vụ xuất biên bản họp hoặc tra cứu tức thì.
● Tự động chuẩn hóa văn bản trước khi xuất biên bản.
● Lưu trữ và đối sánh toàn bộ nội dung họp (audio và biên bản tương ứng)
một cách nhanh chóng và an toàn.
● Hỗ trợ tìm kiếm nội dung nhanh chóng (nhất là các cuộc họp đã diễn ra
nhiều năm trước).
● Có khả năng tạo môi trường làm việc nhóm, hỗ trợ nhiều người cùng tác
nghiệp cùng một lúc.
● Phát luồng stream cuộc họp trực tuyến tới những máy có cài phần mềm.
1.2.2. Kiến trúc của phần mềm
Phần mềm bóc băng gồm có 2 phần chính đó là phần backend – phần lõi xử
lý phía bên trong, phần giao diện – phần dùng để tương tác với người dùng. Cấu
tạo của phần mềm được mô tả bởi hình dưới đây.
1
Hình 1-1 Kiến trúc cơ bản của phần mềm bóc băng
Giải thích các khối trong phần mềm ghi âm cuộc họp
a) Khối điều khiển
- Là phần giao diện tương tác với người dùng. Trên giao diện sẽ có một số chức
năng chính như sau:
● Đăng nhập, cấu hình tài khoản và phân quyền.
● Nghe hoặc xem lại các cuộc họp cùng với văn bản đã được giải mã.
● Chỉnh sửa các bản ghi và xuất báo cáo.
● Tạo cuộc họp mới và up các audio và video tương ứng.
● Tạo luồng stream giải mã các cuộc họp trực tuyến.
b. Khối nhân xử lý
Module cắt câu VAD
Là module cắt audio thành các đoạn tín hiệu nhỏ hơn dựa vào các khoảng lặng
các khoảng ngắt nghỉ của người nói. Đây là khâu rất quan trọng, có nhiều lý do để
phải cắt nhỏ file âm thanh đầu vào ra có thể kể đến là:
Các file của cuộc họp thường rất dài cỡ 2-3 tiếng. Nếu để cả file để giải
mã thì có thể sẽ gây ra hiện tượng tràn bộ nhớ, hoặc hiệu năng bị giảm
đáng kể do không thực hiện song song được. Mặt khác, mô hình nhận
dạng tiếng nói dưới huấn luyện dựa trên câu ngắn nên sẽ không thích
hợp nếu để giải mã một file âm thanh dài.
Hệ thống phân tách người nói yêu cầu đầu vào là các câu đã được cắt
nhỏ, để tính toán chính xác vector đặc trưng của từng người nói.
Phân tách người nói
Nhận đầu vào là đầu ra của module VAD. Module này sẽ tính toán trên các
đoạn tiếng nói được phát hiện xem là từng người nói ở những thời điểm nào
2
Phương pháp chính sử dụng trong này là phương pháp trích xuất vector đặc
tính người nói trên từng segment và thực hiện phân cụm để xác phân tách.
Nhận dạng tiếng nói
Đây có thể coi là phần lõi chính công nghệ của phần mềm. Module này nhận
đầu vào là các đoạn segment đã được phân người nói ở bước trước và giải mã sang
văn bản tương ứng với từng câu.
Chuẩn hóa văn bản
Văn bản đầu ra của hệ thống nhận dạng là văn bản không có dấu câu chỉ bao
gồm các từ viết liền nhau. Vì vậy cần phải có một bộ chuẩn hóa, để thêm dấu câu,
ngắt nghỉ và xuống dòng để người dùng có thể theo dõi được. Module này sử dụng
các kỹ thuật trong xử lý ngôn ngữ tự nhiên tiếng Việt với một số tính năng chính
như sau:
Tự động thêm các dấu câu.
Viết hoa các danh từ riêng, tên người, tên địa điểm.
Chuyển về các định dạng số tương ứng như địa chỉ, ngày tháng, số tiền..
Ngắt giữa các câu, các đoạn với nhau theo ngữ nghĩa.
Như chúng ta có thể thấy, để tạo thành một sản phẩm phần mềm bóc băng
hoàn chỉnh cần phải có sự kết hợp của nhiều công nghệ khác nhau: xây dựng web,
nhận dạng tiếng nói, phân tách người nói, chuẩn hóa văn bản. Trong khuôn khổ
luận văn này, tác giả tập trung vào xây dựng, cải tiến 1 module chính, quan trọng
nhất trong phần mềm là module nhận dạng tiếng nói. Phần 1.2, tiếp theo sẽ trình
bày một số khảo sát về các nghiên cứu và sản phẩm trong lĩnh vực nhận dạng tiếng
nói trong nước và ngoài nước.
1.2. Tình hình nghiên cứu phát triển các sản phẩm nhận dạng tiếng nói
1.2.1. Các sản phẩm trên thế giới
Công nghệ truyền thông đang thúc đẩy các nghiên cứu chuyển tiếng nói
thành văn bản (nhận dạng tiếng) hay văn bản thành tiếng nói (tổng hợp tiếng) vào
các sản phẩm truyền thông. Các hệ thống dịch tiếng nói đa ngôn ngữ ngày được
phát triển và đưa vào ứng dụng, cài đặt trên các hệ thống smartphones. Các hãng
công nghệ lớn như Goggle, Microsoft đều ra các sản phẩm hỗ trợ nhận dạng và
dịch tiếng nói, và điều này đã trở thành khá phổ biến cho công chúng.
Một số thông tin cụ thể:
a. Speech-to-text của Google1
Các đặc trưng của sản phẩm
● Nhận dạng giọng nói tiếng Việt với độ chính xác 80 - 90%.
● Nhận dạng giọng nói tiếng Anh với độ chính xác 90 - 95%.
1
https://cloud.google.com/speech-to-text
3
● Bền vững với nhiễu và tiếng vọng
● Nhận dạng đa người nói, nhận dạng đa kênh
Một số hạn chế của sản phẩm
● Độ chính xác nhận dạng thấp với một số phương ngữ
● Không có tính bảo mật do sử dụng máy chủ đặt tại nước ngoài
● Không hỗ trợ chức năng ghi và sửa biên bản cuộc họp
b. Amazon transcribe2
Các đặc trưng của sản phẩm
● Nhận dạng giọng nói tiếng Anh với độ chính xác 90 - 95%.
● Nhận dạng đa người nói
● Bền vững với nhiễu và tiếng vọng.
● Nhận dạng đa người nói, nhận dạng đa kênh
Một số hạn chế của sản phẩm
● Không có tính bảo mật do sử dụng máy chủ đặt tại nước ngoài
● Không hỗ trợ tiếng Việt
● Không hỗ trợ chức năng ghi và sửa biên bản cuộc họp
c) Speechnotes3
Các đặc trưng của sản phẩm
● Nhận dạng giọng nói tiếng Anh với độ chính xác 90 - 95%
● Xuất văn bản nhận dạng.
● Bền vững với nhiễu và tiếng vọng.
Một số hạn chế của sản phẩm
● Không có tính bảo mật do sử dụng máy chủ đặt tại nước ngoài
● Không hỗ trợ tiếng Việt
● Không hỗ trợ nhận dạng được các file audio/video
● Không hỗ trợ chức năng ghi và sửa biên bản cuộc họp
Đối với các ứng dụng đặc thù liên quan đến phần mềm chép biên bản họp,
nhu cầu nhận dạng tiếng nói để hỗ trợ biên bản cuộc họp là rất lớn và nhận diện
tiếng nói là một phần quan trọng trong hệ thống nhận diện tiếng nói trong cuộc
họp. Với sự phát triển vượt bậc của công nghệ học sâu, chất lượng của hệ thống
nhận dạng tiếng nói gần tiệm cận với khả năng nghe của con người . Mặc dù mô
hình end-to-end được đề xuất và đạt được những thành tựu nhất định, mô hình lai
giữa học sâu và mô hình Markov ẩn hiện tại cho kết quả tốt nhất trong các nghiên
cứu gần đây [1] . Để biết được các thông tin như ai nói gì vào lúc nào trong một
cuộc họp, một số hãng công nghệ lớn như NTT Nhật bản, Tencent Trung Quốc đã
và đang đi đầu trong phát triển công nghệ đặc biệt tiên tiến phục vụ cho việc ghi
và gán nhãn cuộc họp. Một số công trình nghiên cứu đã được công bố gần đây [2],
[3]
2
https://aws.amazon.com/vi/transcribe/
3
https://speechnotes.co/
4
1.1.2. Tình hình các sản phẩm nhận dạng tiếng nói trong nước
Trong vòng 2-3 năm trở lại đây, những công ty công nghệ lớn cũng đã tích
cực đầu tư vào nghiên cứu và phát triển sản phẩm trong lĩnh vực tiếng nói này
như: Công ty phần mềm FSoft, Viện nghiên cứu công nghệ thuộc tập đoàn FPT,
tập đoàn Viettel với các nghiên cứu và ứng dụng về nhận dạng, tổng hợp tiếng
Việt cho tương tác thông minh, phục vụ cho các ứng dụng của tập đoàn. Đặc biệt
từ giữa năm 2018, với sự hình thành của Viện AI Research và Viện BigData đã
thu hút nhiều nhân lực trong lĩnh vực khoa học máy tính, trí tuệ nhân tạo và học
máy, trong đó có những mảng nghiên cứu và ứng dụng về nhận dạng và tổng hợp
tiếng Việt, thúc đẩy các nghiên cứu trong lĩnh vực này và cho các phát triển ứng
dụng của tập đoàn như VinFAST và VinSMART. Các doanh nghiệp khởi nghiệp
như VAIS, VBEE, InfoRe cũng tham gia tích cực vào thị trường khi cung cấp
các sản phẩm nhận dạng tiếng nói và tổng hợp tiếng nói cho rất nhiều cơ quan từ
Trung ương đến địa phương, từ các tập đoàn đến các tổ chức cá nhân sử dụng.
Các sản phẩm về nhận dạng tiếng nói tiếng Việt mới trong giai đoạn hình
thành. Vì vậy vẫn còn nhiều vấn đề về chất lượng cần được giải quyết như:
Khả năng xử lý nhiễu, thích nghi với các môi trường thực tế còn
kém. Điều này dẫn đến chất lượng của hệ thống nhận dạng giảm
đáng kể khi gặp trường hợp thực tế có môi trường nhiều nhiễu, ồn.
Chất lượng nhận dạng của mô hình không ổn định đối với các
phương ngữ khác nhau, có thể đa phần hệ thống sẽ nhận dạng tiếng
miền Trung kém hơn so với giọng 2 miền còn lại.
1.3. Tổng kết
Tổng kết chương 1, chúng ta đã biết được về chức năng, kiến trúc và công
nghệ sử dụng bên trong phần mềm bóc băng biên bản họp và tình hình nghiên cứu,
ứng dụng các sản phẩm nhận dạng tiếng nói trong nước và trên thế giới. Những
chương tiếp theo sẽ tập trung vào làm rõ công nghệ nhận dạng tiếng nói và cách
để xây dựng một hệ thống nhận dạng tiếng nói tiếng Việt tích hợp trong phần mềm
ghi biên bản họp.
5
CHƯƠNG 2: TỔNG QUAN CÔNG NGHỆ NHẬN DẠNG TIẾNG NÓI
Có rất nhiều cách tiếp cận để giải quyết bài toán nhận dạng tiếng nói như là
so sánh mẫu, xây dựng mô hình học thống kê, sử dụng mô hình mạng nơ ron học
sâu end-to-end. Ở chương 2 này, tác giả tập trung trình bày phương pháp nhận xây
dựng mô hình nhận dạng tiếng nói bằng cách xây dựng mô hình thống kê.
2.1. Giới thiệu công nghệ nhận dạng
2.1.1. Lý thuyết
Nhận dạng tiếng nói bắt đầu xuất hiện từ năm 1960 và đến nay đã đạt được
rất nhiều thành tựu. Chính sự thành công này đã dẫn đến sự ra đời của hàng loạt
ứng dụng thực tế như giao tiếp người-máy qua lời nói, tự động ghi chép lời nói, hệ
thống học ngôn ngữ
Mục tiêu của hệ thống ASR là tìm ra chuỗi văn bản đại diện cho một chuỗi âm
thanh đầu vào. Sơ đồ hệ thống nhận dạng tiếng nói điển hình được biểu diễn bằng
hình 2-1.
Hình 2-1 Kiến trúc cơ bản của hệ thống nhận dạng tiếng nói
Như hình 2-1, một hệ thống nhận dạng tiếng nói gồm 5 phần chính. Chúng ta sẽ
tìm hiểu chức năng và ý nghĩa của từng thành phần ngay sau đây:
Trích chọn đặc trưng (Feature Extraction): trích xuất ra những thông tin có
ích và loại bỏ những thông tin dư thừa. Do tín hiệu tiếng nói liên tục các
đặc trưng thường được trích xuất dưới dạng các frame. Với mỗi một frame,
ta sẽ chọn ra một vector đặc trưng.
Mô hình âm học (Acoustic Model): hoạt động như tai người, đầu vào là đặc
trưng của tiếng nói X, đầu ra là xác suất có điều kiện của tử hay âm vị
P(X|W). Các tham số của mô hình âm học được xác định thông qua quá
trình huấn luyện trên tập mẫu có trước.
6
Mô hình ngôn ngữ (Language Model): lưu trữ thông tin, kiến thức về từ ngữ
ngữ pháp. Những kiến thức này thường được thay đổi theo thời gian do vậy
mô hình ngôn ngữ cũng cần phải cập nhật thường xuyên.
Từ điển phát âm (Lexicon): Mô hình âm học thường dùng để mô hình hóa
những thành phần nhỏ nhất của tiếng nói, gọi là âm vị. Trong khi đó mô
hình ngôn ngữ lại dùng từ để mô hình hóa. Vì vậy cần có cầu nối giữa 2 mô
hình này gọi là từ điển. Từ điển mô tả cách phát âm của một từ bằng cách
biểu diễn từ đó dưới dạng một chuỗi các âm vị.
Bộ giải mã: Mỗi tín hiệu X đầu vào, mô hình âm học sẽ đưa ra xác suất
P(X|W) cho mỗi giả thuyết khác nhau về chuỗi text có thể đúng. Mô hình
ngôn ngữ cũng đưa ra giả thuyết của mình cho chuỗi text W là P(W). Bộ
giải mã sẽ tìm tất cả các chuỗi text có thể có W, lấy P(X|W) từ mô hình âm
học, P(W) từ mô hình ngôn ngữ để chọn ra chuỗi W có xác suất P(W|X) lớn
nhất để làm kết quả nhận dạng.
2.1.2. Phương diện toán học
Dưới phương diện toán học thống kê, ASR tìm ra chuỗi từ W (w1 ,...., wn ) , dự đoán
từ model đã học sẵn với đầu vào là một chuỗi vector quan sát.
Các thành phần chính của một hệ thống ASR theo phương pháp thống kê được
miêu tả ở hình 2-2
Hình 2-2 Kiến trúc ASR trên phương diện toán học [4]
Đầu tiên một tín hiệu tiếng nói được biến đổi thành một chuỗi các vector có độ dài
cố định gọi là các vector âm học O [o1 , o 2 ...., ot ] , sau bước trích xuất đặc trưng.
7
Sau đó, bộ giải mã (decoder) tìm ra chuỗi từ gần nhất (W* ) tương ứng với chuỗi
arg max
vector đầu vào sao cho W * P(O | W ) P(W ) (2.1)
w
Tuy nhiên P(W|O) rất khó để mô hình hóa trực tiếp, do đó theo công thức Bayes
P(O | W ) P(W )
ta có P(W | O) P(O | W (2.2)
P(O)
arg max
Do đó W * P(O | W ) P(W ) (2.3)
w
Likelihood P(O|W) được xác định bởi mô hình âm học và hệ số P(W) được xác
định bởi mô hình ngôn ngữ .
Như đã thấy trong hình 2-2, mỗi một từ Wn được đại diện cho một chuỗi các đơn
vị âm học gọi là phoneme. Khi tính đến trường hợp một từ có nhiều cách đọc,
P(O|W) có thể được tính theo công thức P(O | W ) P(O | Q) P(Q | W ) (2.4)
Q
Trong đó Q (Q1 , Q2, ..., Qn ) là chuỗi các các phát âm cho chuỗi từ W, và mỗi một
cách phát âm của một từ là một chuỗi các phone Qn (q1( n ) , q2( n ) ,....)
P(Qn | wn ) là xác suất từ Wn được phát âm theo chuỗi phone Qn . DO đó P(Q|W)
tương ứng với mô hình phát âm và là xác suất của một chuỗi phone đối với một
chuỗi từ cho trước. Mô hình phát âm này được gọi là từ điển phát âm. Khi tính
đến cả ba yếu tố (âm học, từ điển, ngôn ngữ ), công thức 3.3 có thể được viết là:
arg max
W*
w
Q
P(O | Q) P(Q | W ) P(W ) (2.5)
2.2. Trích xuất đặc trưng
Tín hiệu âm thanh ngoài đời thực là tín hiệu liên tục, hay tính hiệu tương tự
trước khi thực hiện bất cứ bước xử lý nào, tín hiệu âm thanh cần được số hóa. Việc
này được thực hiện tự động bởi các thiết bị thu âm, bằng cách lấy mẫu tín hiệu đầu
vào. Như vậy, một tín hiệu âm thanh bất kỳ khi đã được đưa vào máy tính, là một
tập các mẫu liên tiếp nhau, mỗi mẫu là giá trị biên độ của tín hiệu tại một thời điểm
nhất định. Một tham số quan trọng trong việc lấy mẫu tín hiệu âm thanh là tần số
lấy mẫu, Fs, tức là số mẫu được lấy trong một giây. Để có thể đo lường chính xác,
cần phải lấy ít nhất 2 mẫu trong một chu kỳ của tín hiệu tương tự đầu vào. Như
vậy, tần số lấy mẫu phải lớn hơn 2 lần tần số cao nhất của tín hiệu âm thanh đầu
vào.
Trích chọn đặc trưng đối với nhận dạng tiếng nói là việc tham số hóa chuỗi
tín hiệu âm thanh dạng sống đầu vào, biến đổi tín hiệu âm thanh thành một chuỗi
các vector đặc trưng n chiều, mỗi chiều là một giá trị thực. Hiện nay, có rất nhiều
phương pháp trích chọn đặc trưng như: LPC (Linear predictive coding – Dự đoán
tuyến tính), AMDF (Average magnitude different function – hàm biên độ trung
bình), MFCC (Mel-frequency cepstral coefficients).
8
2.2.1. Đặc trưng MFCC
Trong nhận dạng tiếng nói, kỹ thuật trích chọn đặc trưng MFCC là phương
pháp phổ biến nhất. MFCC là viết tắt của Mel-frequency cepstral coefficients. Kỹ
thuật này dựa trên việc thực hiện biến đổi để chuyển dữ liệu âm thanh đầu vào (đã
được biến đổi Fourier cho phổ) về thang đo tần số Mel, một thang đo diễn tả tốt
hơn sự nhạy cảm của tai người đổi với âm thanh. Kỹ thuật trích chọn đặc trưng
này gồm các bước biến đổi liên tiếp, trong đó đầu ra của bước biến đổi trước sẽ là
đầu vào của bước biến đổi sau. Đầu vào của quá trình đặc trưng này sẽ là một đoạn
tín hiệu tiếng nói. Vì tín hiệu âm thanh sau khi được đưa vào máy tính đã được rời
rạc hóa nên đoạn tín hiệu tiếng nói này bao gồm các mẫu liên tiếp nhau, mỗi mẫu
là một giá trị thực, thể hiện giá trị biên độ của âm thanh tại 1 thời điểm. Các bước
của quá trình trích xuất đặc trưng MFCC được thể hiện ở hình 2-3
Hình 2-3 Các bước trích xuất đặc trưng MFCC
a) Tiền xử lý
Tín hiệu âm thanh thường được thu ở môi trường đời thường, tiếng nói bình
thường của một người cũng không được to, trừ khi nói to có chủ định, do đó nhiễu
của môi trường (tần số thấp) nhiều khi có cường độ lớn bằng một phần đáng kể
(nghe có thể dễ dàng nhận ra) của tiếng nói khi thu âm, bước đầu tiên của quá trình
trích chọn đặc trưng MFCC sẽ xử lý vấn đề này, bằng việc thực hiện tăng cường
độ của những tần số cao lên nhằm làm tăng năng lượng ở vùng có tần số cao –
vùng tần số của tiếng nói, một cách dễ hiểu là làm tiếng nói lớn hơn lên để ảnh
hưởng của các âm thanh môi trường và nhiễu trở thành không đáng kể. Việc tăng
cường độ của vùng tần số cao lên đồng thời làm cho thông tin rõ ràng hơn đối với
mẫu tiếng nói. Hình 2-4 mô tả trước và sau quá trình Pre-emphasis của một đoạn
tín hiệu âm thanh:
9