Nhận dạng tự động các phương ngữ chính của tiếng việt nói

  • 88 trang
  • file .pdf
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------
NGUYỄN THU HUYỀN
NHẬN DẠNG TỰ ĐỘNG CÁC PHƯƠNG NGỮ CHÍNH
CỦA TIẾNG VIỆT NÓI
Chuyên ngành: Công nghệ thông tin
LUẬN VĂN THẠC SĨ KỸ THUẬT
CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. NGUYỄN HỒNG QUANG
HÀ NỘI – 2014
LỜI CAM ĐOAN
Tôi là Nguyễn Thu Huyền, học viên lớp Cao học CNTT 2012 – 2014 Trƣờng Đại học
Bách khoa Hà Nội – cam kết. Luận văn tốt nghiệp là công trình nghiên cứu của bản
thân tôi dƣới sự hƣớng dẫn của TS. Nguyễn Hồng Quang - Viện Công nghệ Thông tin
và Truyền thông – Đại học Bách khoa Hà Nội. Các kết quả trong luận văn tốt nghiệp
là trung thực, không sao chép toàn văn của bất kỳ công trình nào khác.
Hà Nội, ngày 22 tháng 9 năm 2014
Học viên: Nguyễn Thu Huyền
Lớp:12ACNTT-HY
1
LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn sâu sắc tới Thầy giáo, TS. Nguyễn Hồng Quang –Bộ
môn Kỹ thuật máy tính – Viện Công nghệ Thông tin và Truyền thông – Đại học Bách
khoa Hà Nội, ngƣời Thầy kính mến đã hết lòng giúp đỡ, dạy bảo, động viên và tạo mọi
điều kiện thuận lợi cho tôi trong suốt quá trình học tập và hoàn thành luận văn tốt
nghiệp.
Tôi xin chân thành cảm ơn tập thể các thầy, cô giáo trƣờng Đại học Bách khoa
Hà Nội nói chung và Viện Công nghệ Thông tin và Truyền thông nói riêng đã tận tình
giảng dạy truyền đạt cho tôi những kiến thức, kinh nghiệm quý báu trong suốt những
năm học vừa qua.
Tôi cũng xin cảm ơn các giảng viên đồng nghiệp ở trƣờng Đại học Sƣ phạm Kỹ
thuật Hƣng Yên đã tạo điều kiện về thời gian để tôi có thể học tập và hoàn thành luận
văn.
Cuối cùng tôi xin chân thành cảm ơn gia đình, bạn bè đã luôn ủng hộ và động
viên tôi trong những lúc khó khăn nhất.
2
MỤC LỤC
MỞ ĐẦU ................................................................................................................... 10
1. Lý do chọn đề tài ................................................................................................... 10
3. Đối tƣợng nghiên cứu ............................................................................................ 11
4. Phƣơng pháp nghiên cứu ....................................................................................... 11
5. Nhiệm vụ nghiên cứu ............................................................................................. 11
CHƢƠNG 1: CƠ SỞ LÝ THUYẾT ........................................................................... 12
1.1. Tổng quan về phƣơng ngữ. .............................................................................. 12
1.2. Đặc điểm ngữ âm trong phƣơng ngữ ba vùng lãnh thổ Việt Nam. .................... 13
1.2.1. Những đặc điểm ngữ âm của phƣơng ngữ Bắc .......................................... 13
1.2.2. Những đặc điểm ngữ âm của phƣơng ngữ Trung ....................................... 13
1.2.3. Những đặc điểm ngữ âm của phƣơng ngữ Nam ......................................... 14
1.2.4. Phân biệt ngữ âm trong phƣơng ngữ ba vùng lãnh thổ Việt Nam. .............. 15
1.2.5. Phân biệt đại từ của các phƣơng ngữ.......................................................... 16
1.3. Một số phƣơng pháp nhận dạng phƣơng ngữ… ............................................... 16
1.3.1. Mô hình nhận dạng Gaussian Mixture Model (GMM ) .............................. 16
1.3.2. Phƣơng pháp lƣợng tử hoá vectơ ............................................................... 18
1.3.3. Mô hình nền phổ quát (UBM) ................................................................... 19
1.3.4. Phƣơng pháp nhận dạng tổng quát ............................................................. 20
1.3.5. Sơ đồ hệ thống nhận dạng tự động phƣơng ngữ. ........................................ 21
1.4. Các công cụ sử dụng trong đề tài. .................................................................... 22
1.4.1.Phần mềm VMware Workstation. ............................................................... 22
1.4.2. Hệ điều hành Centos-Linux ....................................................................... 22
1.4.3. Bộ công cụ nhận dạng Alize [20] ............................................................... 23
1.4.4. Bộ công cụ Spro … ................................................................................... 24
1.5. Ngôn ngữ lập trình python. .............................................................................. 24
CHƢƠNG 2. TRIỂN KHAI HỆ THỐNG NHẬN DẠNG TỰ ĐỘNG CÁC PHƢƠNG
NGỮ CHÍNH CỦA TIẾNG VIỆT NÓI ..................................................................... 25
2.1. Sơ đồ tổng quan hệ thống nhận dạng tự động các phƣơng ngữ chính của tiếng
Việt nói. ................................................................................................................. 25
3
2.1.1. Sơ đồ huấn luyện (trainning) nhận dạng tự động phƣơng ngữ của tiếng Việt
nói. ...................................................................................................................... 26
2.1.2. Sơ đồ thử nghiệm nhận dạng tự động phƣơng ngữ của tiếng Việt nói. ....... 27
2.2. Xây dựng cơ sở dữ liệu. ................................................................................... 27
2.2.1. Phƣơng pháp thu âm. ................................................................................. 27
2.2.2. Đặc điểm cơ sở dữ liệu tiếng nói. .............................................................. 29
2.2.3. Sử dụng cơ sở dữ liệu tiếng nói trong bài toán nhận dạng phƣơng ngữ. ..... 31
2.3. Phƣơng pháp xây dựng hệ thống nhận dạng tự động các phƣơng ngữ chính của
tiếng Việt nói. ......................................................................................................... 33
2.3.1. Sơ đồ tổng quan nhận dạng tự động phƣơng ngữ chính của tiếng Việt nói sử
dụng công cụ ALIZE, Spro. ................................................................................ 33
2.3.2. Các bƣớc nhận dạng tự động phƣơng ngữ chính của tiếng Việt nói sử dụng
ALIZE................................................................................................................. 34
2.4. Các thử nghiệm và đánh giá kết quả nhận dạng các phƣơng ngữ chính của tiếng
Việt nói. ................................................................................................................. 41
2.4.1. Thử nghiệm 1 ............................................................................................ 41
2.4.2. Thử nghiệm 2. ........................................................................................... 55
CHƢƠNG 3: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ............................................ 65
3.1. Những vấn đề đã giải quyết trong luận văn. ..................................................... 65
3.2. Hƣớng phát triển của đề tài .............................................................................. 66
TÀI LIỆU THAM KHẢO.......................................................................................... 67
A. Cài đặt và CSDL chƣơng trình. ........................................................................ 69
A1. Thống kê chi tiết thu âm dữ liệu. ...................................................................... 69
A2. Hƣớng dẫn cài đặt hệ điều hành Centos. .......................................................... 72
A3. Cài đặt bộ công cụ Alize trên hệ điều hành Centos-Linux ................................ 76
B. Mã nguồn chƣơng trình. ..................................................................................... 77
B1. Chƣơng trình tính tham số MFCC. ................................................................... 77
B2. Chƣơng trình tạo file ndx. ................................................................................ 78
B3. Chƣơng trình tính tỷ lệ nhận dạng đúng. .......................................................... 78
C. Cấu trúc các gói trong thƣ viện LIA-RAL. ......................................................... 80
4
DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT
Chữ viết tắt Chữ viết tiếng Anh Nghĩa tiếng Việt
ASR Automatic Speech Recognition Nhận dạng tiếng nói tự động
EM Expectation – Maximization Thuật toán cực đại kỳ vọng
GMM Gaussian Mixture Model Mô hình hỗn hợp Gauss
HMM Hidden Markov Model Mô hình Markov ẩn
MFCC Mel - Frequency Cepstral Hệ số Cepstral theo thang đo
Coefficients tần số Mel
UBM Universal Background Model Mô hình nền phổ quát
VQ Vector Quantization Lƣợng tử hoá Vectơ
WER Word Error Rate Tỷ lệ lỗi nhận dạng từ
5
DANH MỤC HÌNH
Hình 1.1. Hàm mật độ Gauss ..................................................................................... 17
Hình 1.2. Mô hình GMM ........................................................................................... 18
Hình 1.3. Mô hình nền phổ quát................................................................................. 19
Hình 1.4. Sơ đồ hệ thống nhận dạng tổng quát ........................................................... 20
Hình 1.5. Mô hình xác định phƣơng ngữ .................................................................... 21
Hình 2.1. Các bƣớc thực hiện nhận dạng tự động các phƣơng ngữ chính của tiếng Việt
nói ............................................................................................................................. 25
Hình 2.2. Sơ đồ huấn luyện nhận dạng tự động phƣơng ngữ tiếng Việt nói: ............... 26
Hình 2.3. Sơ đồ thử nghiệm (test) nhận dạng tự động phƣơng ngữ:............................ 27
Hình 2.4. Hình dạng âm thanh đƣợc hiển thị bằng phần mềm Cool Edit .................... 28
Hình 2.5. Sơ đồ các bƣớc thực hiện nhận dạng phƣơng ngữ ....................................... 33
6
DANH MỤC BIỂU ĐỒ
Biểu đồ 2.1. So sánh tỷ lệ nhận dạng đúng theo phƣơng ngữ tập A_gioitinhNam ...... 42
Biểu đồ 2.2. So sánh tỷ lệ nhận dạng đúng theo phƣơng ngữ tập B_gioitinhNam. ...... 43
Biểu đồ 2.3. So sánh tỷ lệ nhận dạng đúng theo phƣơng ngữ tập C_GioitinhNam. ..... 44
Biểu đồ 2.4. So sánh tỷ lệ nhận dạng đúng theo phƣơng ngữ tập D_ GioitinhNam. .... 45
Biểu đồ 2.5. So sánh tỷ lệ nhận dạng đúng theo phƣơng ngữ của tập A_GioitinhNu. . 46
Biểu đồ 2.6. So sánh tỷ lệ nhận dạng đúng theo phƣơng ngữ của tập B_gioitinhNu. .. 47
Biểu đồ 2.7. So sánh tỷ lệ nhận dạng đúng theo phƣơng ngữ của tập C_gioitinhNu.. . 48
Biểu đồ 2.8. So sánh tỷ lệ nhận dạng đúng theo phƣơng ngữ của tập D_gioitinhNu.. . 49
Biểu đồ 2.9. So sánh tỷ lệ nhận dạng đúng theo phƣơng ngữ của tập A_ giới tính Nam
và giới tính Nữ ........................................................................................................... 51
Biểu đồ 2.10. So sánh tỷ lệ nhận dạng đúng tập B_ giới tính Nam và giới tính Nữ .... 52
Biểu đồ 2.11. So sánh tỷ lệ nhận dạng đúng theo phƣơng ngữ của tập C_ giới tính
Nam và giới tính Nữ. ................................................................................................. 53
Biểu đồ 2.12. So sánh tỷ lệ nhận dạng đúng theo phƣơng ngữ của tập D_ giới tính
Nam và giới tính Nữ .................................................................................................. 54
Biểu đồ 2.13. So sánh tỷ lệ nhận dạng đúng theo phƣơng ngữ tập A_khonggioitinh. 56
Biểu đồ 2.14. So sánh tỷ lệ nhận dạng đúng theo phƣơng ngữ tập B_khonggioitinh. . 57
Biểu đồ 2.15. So sánh tỷ lệ nhận dạng đúng theo phƣơng ngữ tập A_giơitinhNam . .. 59
Biểu đồ 2.16. So sánh tỷ lệ nhận dạng đúng theo phƣơng ngữ tập B_gioitinhNam . .. 60
Biểu đồ 2.17. So sánh tỷ lệ nhận dạng đúng theo phƣơng ngữ của tập AgioitinhNu ... 62
Biểu đồ 2.18. So sánh tỷ lệ nhận dạng đúng theo phƣơng ngữ của tập BgioitinhNu . . 63
7
DANH MỤC BẢNG
Bảng 1.1. Phân biệt ngữ âm trong phƣơng ngữ ba vùng lãnh thổ Việt Nam ............... 15
Bảng 1.2. Phân biệt đại từ của các phƣơng ngữ. ......................................................... 16
Bảng 2.1. Tổng hợp dữ liệu thu âm ............................................................................ 28
Bảng 2.2. Tổng hợp dữ liệu sử dụng dùng để huấn luyện và thử nghiệm:................... 29
Bảng 2.3. Thống kê dữ liệu thu âm Miền Bắc (CSDL_Bac) ....................................... 29
Bảng 2.4. Thống kê dữ liệu thu âm Miền Trung (CSDL_Trung) ................................ 30
Bảng 2.5. Thống kê dữ liệu thu âm Miền Bắc (CSDL_Nam) ..................................... 30
Bảng 2.6. Liệt kê cách đặt tên dữ liệu thử nghiệm 1 ................................................... 31
Bảng 2.7. Liệt kê cách đặt tên dữ liệu thử nghiệm 2 ................................................... 32
Bảng 2.8: Tổng hợp số liệu thử nghiệm với tập A_gioitinhNam. ............................... 41
Bảng 2.9. Tỷ lệ nhận đúng phƣơng ngữ của tập A_gioitinhNam ............................... 41
Bảng 2.10. Tổng hợp số liệu thử nghiệm với test1 - tập B_gioitinhNam .................... 42
Bảng 2.11. Tỷ lệ nhận đúng giọng nói của Tập B_gioitinhNam ............................... 43
Bảng 2.12: Tổng hợp số liệu thử nghiệm với test1 - Tập C_ gioitinhNam .................. 44
Bảng 2.13. Tỷ lệ nhận đúng giọng nói của Tập C_gioitinhNam ............................... 44
Bảng 2.14. Tổng hợp số liệu thử nghiệm với test1 - Tập D_GioitinhNam. ................. 45
Bảng 2.15. Tỷ lệ nhận đúng giọng nói của Tập D_GioitinhNam .............................. 45
Bảng 2.16. Tổng hợp số liệu thử nghiệm với test 2 - Tập A_GioitinhNu .................... 46
Bảng 2.17. Tỷ lệ nhận đúng giọng nói của tập A_GioitinhNu .................................. 46
Bảng 2.18. Tổng hợp số liệu thử nghiệm với test 2 - Tập B_ giới tính Nữ.................. 47
Bảng 2.19. Tỷ lệ nhận đúng giọng nói của tập B_ giới tính Nữ ................................ 47
Bảng 2.20. Tổng hợp số liệu thử nghiệm với test2 - tập C_gioitinhNu. ...................... 48
Bảng 2.21. Tỷ lệ nhận đúng giọng nói của tập C_ gioitinhNu. ................................. 48
Bảng 2.22. Tổng hợp số liệu thử nghiệm với test 2 - Tập D_gioitinhNu. .................... 49
Bảng 2.23. Tỷ lệ nhận đúng giọng nói của tập D_ gioitinhNu. ................................. 49
Bảng 2.24. Tổng hợp số liệu thử nghiệm test3 tập A_ giới tínhNam và giớitínhNữ .... 50
Bảng 2.25. Tỷ lệ nhận đúng giọng nói của Tập A_ giới tính Nam và giới tính Nữ ... 50
Bảng 2.26. Tổng hợp số liệu thử nghiệm test3 tập B_ giới tính Nam và giới tính Nữ 51
Bảng 2.27. Tỷ lệ nhận đúng giọng nói của Tập B_ giới tính Nam và giới tính Nữ .... 51
Bảng 2.28. Tổng hợp số liệu thử nghiệm test 3 tập C_ giới tính Nam và giới tính Nữ 52
8
Bảng 2.29. Tỷ lệ nhận đúng giọng nói của Tập C_ giới tính Nam và giới tính Nữ .... 52
Bảng 2.30. Tổng hợp số liệu thử nghiệm với test 3 - Tập D_ giới tính Nam Nữ ......... 53
Bảng 2.31. Tỷ lệ nhận đúng giọng nói của Tập D_ giới tính Nam và giới tính Nữ ... 53
Bảng 2.32. Tổng hợp dữ liệu với thử nghiệm 2- Tập A_ khonggioitinh. .................... 55
Bảng 2.33. Ma trận kết quả nhận dạng các phƣơng ngữ Tập A_ khonggioitinh. ......... 55
Bảng 2.34: Tổng hợp dữ liệu với thử nghiệm 2- Tập B_ khonggioitinh...................... 56
Bảng 2.35. Ma trận kết quả nhận dạng các phƣơng ngữ tập B_ khonggioitinh. .......... 57
Bảng 2.36. Tỷ lệ nhận dạng phƣơng ngữ tiếng việt nói với test1 ................................ 58
Bảng 2.37. Tổng hợp dữ liệu với test 2- Tập A_ gioitinhNam. ................................... 58
Bảng 2.38. Tỷ lệ nhận đúng phƣơng ngữ tập A_ gioitinhNam .................................. 58
Bảng 2.39. Tổng hợp dữ liệu với test 2- Tập B_ gioitinhNam. ................................... 59
Bảng 2.40. Tỷ lệ nhận đúng phƣơng ngữ tập B_ gioitinhNam. .................................. 60
Bảng 2.41. Tỷ lệ nhận dạng phƣơng ngữ tiếng Việt nói với test2. .............................. 61
Bảng 2.42. Tổng hợp dữ liệu với test 3- Tập A_ gioitinhNu. ...................................... 61
Bảng 2.43. Tỷ lệ nhận đúng phƣơng ngữ tập A_gioitinhNu ...................................... 61
Bảng 2.44. Tổng hợp dữ liệu với test 3- Tập B_ gioitinhNu. ...................................... 62
Bảng 2.45. Tỷ lệ nhận đúng phƣơng ngữ tập B_ gioitinhNu...................................... 62
Bảng 2.46. Tỷ lệ nhận dạng phƣơng ngữ tiếng Việt nói với test3. .............................. 63
9
MỞ ĐẦU
1. Lý do chọn đề tài
Một trong những thách thức cơ bản hiện nay cho các nghiên cứu về khoa học công
nghệ là xử lý nhận dạng tiếng nói. Nhận dạng tiếng nói (voice recognition) bao gồm:
Nhận dạng lời thoại (speech recognition), nhận dạng ngƣời nói (speaker recognition),
nhận dạng ngôn ngữ nói (language recognition), nhận dạng phƣơng ngữ nói (dialect
recognition), v.v.
Vì tiếng nói là một đặc điểm mang tính phổ thông, ngôn ngữ nói phụ thuộc vào
nhiều yếu tố nhƣ độ tuổi, cảm xúc, phong cách từng ngƣời (cƣờng độ, nhịp điệu biến
thể khác nhau) phƣơng ngữ hay phƣơng ngữ địa phƣơng đặc tính ngôn ngữ của vùng
miền, những khác biệt ấy cũng gây ảnh hƣởng cho quá trình xử lý nhận dạng tiếng nói.
Nhiều công trình cũng đã đƣợc nghiên cứu trên tiếng nói nhằm khai thác thông tin
từ tiếng nói. Vấn đề nhận dạng phƣơng ngữ là một vấn đề rất cần đƣợc giải quyết giúp
cho chúng ta, hay là công nghệ nhận dạng đƣợc áp dụng cho nhận dạng chính xác
đƣợc đối tƣợng, truy tìm thông tin, nhận dạng lời thoại, điều tra khoanh vùng tội phạm
v.v.
Ở Việt Nam chủ yếu có ba vùng phƣơng ngữ chính: phƣơng ngữ bắc (Bắc Bộ),
phƣơng ngữ trung (Bắc Trung Bộ và Trung Trung bộ), phƣơng ngữ nam (Nam Trung
Bộ và Nam Bộ). Các phƣơng ngữ này khác nhau chủ yếu ở ngữ âm, rồi đến từ vựng,
cuối cùng là một chút khác biệt ngữ pháp. Sự khác biệt về ngữ âm là nhiều nhất,
nhƣng có thể đoán đƣợc. Sự khác biệt về từ vựng có thể dẫn đến sự hiểu lầm nhiều
nhất.
Do phƣơng ngữ tiếng Việt nói có những đặc thù riêng, để góp phần cho việc thiết
kế và xử lý đầu vào cho bất kỳ phƣơng ngữ cơ bản nào, với mục đích tìm hiểu và phát
triển chƣơng trình nhận dạng tự động phƣơng ngữ tiếng Việt nói nên tôi đã thực hiện
đề tài “Nhận dạng tự động các phương ngữ chính của tiếng Việt nói” .
2. Mục đích, phạm vi nghiên cứu
- Thiết kế nguồn cơ sở dữ liệu sử dụng phần mềm “Thu âm theo chủ đề” của thầy
TS. Nguyễn Hồng Quang Phần mềm hỗ trợ việc ghi âm.
- Tìm hiểu tổng quan về nhận dạng phƣơng ngữ và đặc điểm của phƣơng ngữ chính
tiếng Việt nói.
10
- Nghiên cứu mô hình GMM và bộ công cụ ALIZE, gói thƣ viện LIA-RAL để nhận
dạng phƣơng ngữ.
- Xây dựng chƣơng trình sử dụng công cụ ALIZE để thử nghiệm nhận dạng tự động
phƣơng ngữ chính của Tiếng Việt nói.
3. Đối tƣợng nghiên cứu
- Nghiên cứu tổng quan về nhận dạng tự động phƣơng ngữ tiếng Việt nói
- Nghiên cứu về mô hình hỗn hợp GMM.
- Nghiên cứu: Công cụ ALIZE, ngôn ngữ lập trình python, Linux.
4. Phƣơng pháp nghiên cứu
- Nghiên cứu lý thuyết về nhận dạng phƣơng ngữ tiếng Việt nói.
- Nghiên cứu sử dụng bộ công cụ ALIZE trên môi trƣờng Linux trong nhận dạng
phƣơng ngữ tiếng Việt nói.
- Thu âm các bản tin tiếng Việt theo ba phƣơng ngữ chính và thử nghiệm nhận dạng
cho phƣơng ngữ tiếng Việt nói.
5. Nhiệm vụ nghiên cứu
- Tìm hiểu khái quát về nhận dạng phƣơng ngữ và đặc điểm của phƣơng ngữ tiếng
Việt nói.
- Tìm hiểu mô hình GMM, thay đổi thành phần Gausss.
- Tìm hiểu về hoạt động của ALIZE, ngôn ngữ lập trình python, Linux.
Nội dung luận văn đƣợc chia thành 4 chƣơng:
- Chƣơng 1: Trình bày tổng quan phƣơng ngữ, đặc điểm ngữ âm trong phƣơng ngữ
ba vùng lãnh thổ Việt Nam. Các phƣơng pháp nhận dạng tự động phƣơng ngữ.
- Chƣơng 2: Trên cơ sở lý thuyết đã đƣợc tìm hiểu ở chƣơng 1, trong chƣơng này sẽ
trình bày về cài đặt, cũng nhƣ chi tiết từng chức năng của công cụ nhận dạng tự động
phƣơng ngữ tiếng Việt nói sử dụng công cụ ALIZE.
- Chƣơng 3: Chƣơng này sẽ trình bày chi tiết về các bƣớc tạo cơ sở dữ liệu tiếng nói
đƣợc sử dụng để thử nghiệm và xây dựng hệ thống nhận dạng tự động phƣơng ngữ
chính tiếng Việt nói thông qua sử dụng công cụ ALIZE.
- Chƣơng 4: Trình bày kết luận và một số hƣớng phát triển tiếp theo của đề tài.
11
CHƢƠNG 1: CƠ SỞ LÝ THUYẾT
1.1. Tổng quan về phƣơng ngữ.
Phƣơng ngữ là gì?
“Phương ngữ là hình thức ngôn ngữ có hệ thống từ vựng, ngữ pháp và ngữ âm
riêng biệt được sử dụng ở một phạm vi lãnh thổ hay xã hội hẹp hơn là ngôn ngữ. Là
một hệ thống ký hiệu và quy tắc kết hợp có nguồn gốc chung với hệ thống khác được
coi là ngôn ngữ (có người gọi là tiếng địa phương, phương ngôn) khác nhau nhưng
trước hết là ở cách phát âm, sau đó là ở vốn từ vựng.” [18]
Ví dụ: vô (vào) trong phƣơng ngữ Nam Bộ, o (cô) trong phƣơng ngữ Nam Bộ,
Cũng nhƣ một số nƣớc trên thế giới nhƣ Đức, Anh, Mỹ, phƣơng ngữ đóng một
vai trò quan trọng không những trong giao tiếp hàng ngày, trong hệ thống từ vựng mà
còn trong các nghiên cứu về khoa học công nghệ là xử lý nhận dạng tiếng nói.
Ngôn ngữ hình thành từ cuộc sống và phản ánh cuộc sống của từng địa phƣơng
khác nhau về kinh tế, văn hóa sẽ khác nhau. Ở Việt Nam chủ yếu có ba vùng phƣơng
ngữ chính: phƣơng ngữ bắc (Bắc Bộ), phƣơng ngữ trung (Bắc Trung Bộ và Trung
Trung Bộ), phƣơng ngữ nam (Nam Trung Bộ và Nam Bộ). Các phƣơng ngữ này khác
nhau chủ yếu ở ngữ âm, rồi đến từ vựng, cuối cùng là một chút khác biệt ngữ pháp.
Phƣơng ngữ vùng nào tất nhiên đƣợc ngƣời dân vùng đó dùng để giao tiếp. Tuy
nhiên ngoài ra còn có một số đặc điểm sau:
Phƣơng ngữ miền Bắc Bộ đƣợc dùng nhiều trong các kênh thông tin đại chúng
của quốc gia nhƣ Đài truyền hình Việt Nam. Tuy ngày càng có xu hƣớng nhiều
chƣơng trình bắt đầu có ngƣời dẫn chƣơng trình dùng phƣơng ngữ miền Nam nhƣng
vẫn chiếm tỉ lệ thấp trong khi phƣơng ngữ miền Trung hầu nhƣ vắng bóng. Chẳng hạn
nhƣ trong chƣơng trình thời sự lúc 19 giờ hằng ngày, chƣơng trình đƣợc xem là quan
trọng và đƣợc hầu hết các đài truyền hình địa phƣơng tiếp sóng, chỉ có một biên tập
viên dùng phƣơng ngữ miền Nam. Tuy vậy, lời dẫn chƣơng trình của các bản tin đƣợc
gửi về từ địa phƣơng có thể là phƣơng ngữ của vùng đó, ví dụ bản tin từ Quảng Bình
đƣợc nói bằng phƣơng ngữ Quảng Bình.
Trong khi hát, các ca sĩ dẫu trong Nam hay ngoài Bắc, kể cả hải ngoại đều dùng
phƣơng ngữ miền Bắc. Có một số trƣờng hợp dùng phƣơng ngữ địa phƣơng do tính
chất bài hát (chẳng hạn ca sĩ Cẩm Ly) hoặc dân ca địa phƣơng hoặc vọng cổ (phƣơng
12
ngữ miền Nam). Tuy nhiên trong nhiều bài tân cổ giao duyên, thì phần tân cũng đƣợc
hát bằng phƣơng ngữ miền Bắc trong khi phần cổ đƣợc hát bằng phƣơng ngữ miền
Nam.
1.2. Đặc điểm ngữ âm trong phƣơng ngữ ba vùng lãnh thổ Việt Nam.
1.2.1. Những đặc điểm ngữ âm của phƣơng ngữ Bắc
a. Hệ thống thanh điệu
- Số lƣợng: 6 thanh.
- Khu biệt: đối lập từng đôi một về âm vực và âm điệu.
b. Hệ thống phụ âm đầu
- Số lƣợng: 20 âm vị.
- Trong số 20 âm vị trên, không có những phụ âm ghi trong chính tả là s, r, gi, tr. Tức
là không phân biệt giữa: s/x, r/d/gi, tr/ch.
c. Hệ thống âm cuối
- Số lƣợng: Có đủ các âm cuối ghi trong chính tả.
- Có 3 cặp âm cuối nằm trong thế phân bố bổ sung là:
+ [-nh, -ch] đứng sau nguyên âm dòng trƣớc: /i, e, ê/;
+ [-ng, -k] đứng sau nguyên âm dòng giữa (hàng sau không tròn môi – theo cách
gọi của GS. Đoàn Thiện Thuật): /ƣ, ơ, â, a/.
+ [-ngm, kp] đứng sau nguyên âm dòng sau tròn môi: /u, ô, o/.
Trong chính tả, đôi phụ âm thứ 3 này không đƣợc thể hiện phân biệt với đôi phụ
âm thứ 2, mặc dù chúng đƣợc phát âm khác nhau (cặp thứ 2 là các âm cuối mở, còn
cặp thứ 3 lại là các âm cuối ngậm môi).
- Phương ngữ vùng Hà Nội và các tỉnh xung quanh (Hà Bắc (Bắc Ninh, Bắc Giang),
Vĩnh Phú (Vĩnh Phúc, Phú Thọ), Hà Sơn Bình (Hà Tây, Hoà Bình), Hải Hƣng(Hải
Dương, Hưng Yên), Hải Phòng)
Đây là vùng mang những đặc trƣng tiêu biểu của phƣơng ngữ Bắc.
1.2.2. Những đặc điểm ngữ âm của phƣơng ngữ Trung
a. Hệ thống thanh điệu
Gồm 5 thanh điệu, khác với hệ thống thanh điệu phƣơng ngữ Bắc cả về số lƣợng lẫn
chất lƣợng.
b. Hệ thống phụ âm đầu
13
- Số lƣợng: 23 phụ âm.
- Trong số 23 phụ âm trên, hơn phƣơng ngữ Bắc 3 phụ âm uốn lƣỡi /ş, z, / (chữ
quốc ngữ ghi bằng s, r, tr). Trong nhiều thổ ngữ có 2 phụ âm bật hơi [ph, kh] (giống
nhƣ chữ viết đã ghi lại) thay cho 2 phụ âm xát /f, χ/ trong phƣơng ngữ Bắc.
c. Hệ thống âm cuối
Phụ âm /-ŋ, -k/ có thể kết hợp đƣợc với nguyên âm ở cả 3 hàng. Tuy vậy, trong
những từ chính trị-xã hội mới xuất hiện gần đây vẫn có các cặp âm cuối [-nh, ch] và [-
ngm, kp]
- Phƣơng ngữ vùng Nghệ Tĩnh
+ Không phân biệt thanh ngã với thanh nặng.
+ Cả 5 thanh tạo thành một hệ thống thanh điệu khác với phƣơng ngữ Bắc do có độ
trầm lớn hơn.
1.2.3. Những đặc điểm ngữ âm của phƣơng ngữ Nam
a. Hệ thống thanh điệu
- Số lƣợng: 5 thanh.
- Thanh ngã với thanh hỏi trùng làm một.
- Xét về mặt điệu tính thì đây là một hệ thống khác với phƣơng ngữ Trung và
phƣơng ngữ Bắc.
b. Hệ thống phụ âm đầu
- Số lƣợng: 23 phụ âm.
- Có các phụ âm uốn lƣỡi /ş, z, / (chữ viết ghi là s, r, tr). Ở Nam Bộ, có thể phát
âm rung lƣỡi [r]. So với các phƣơng ngữ khác, phƣơng ngữ Nam thiếu phụ âm /v/,
nhƣng lại có thêm âm [w] bù lại; không có âm /z/ và đƣợc thay thế bằng âm [j].
c. Âm đệm /-w-/ đang biến mất dần trong phương ngữ Nam.
Phƣơng ngữ Nam cũng mất đi nhiều vần so với phƣơng ngữ Bắc và phƣơng ngữ
Trung. Và nó cũng thiếu cặp âm cuối /-ŋ, k/. Trong khi đó, cặp âm cuối [-ngm, kp] lại
trở thành những âm vị độc lập.
14
1.2.4. Phân biệt ngữ âm trong phƣơng ngữ ba vùng lãnh thổ Việt Nam.
Vùng Thanh điệu Phụ âm Vần Phụ âm
đầu cuối
20, s->x,
ƣu->iu,
Phƣơng ngữ Bắc 6 thanh r/gi->d, tr- đầy đủ
ƣơu->iêu
>ch
Vùng biên giới phía Bắc
(vùng Đông Bắc, Hải Phòng,
Quảng Ninh và Tây Bắc)
Vùng đồng bằng Bắc Bộ,
trừ khu vực hạ lƣu sông
Hồng và ven biển (Bắc Ninh,
Bắc Giang, Vĩnh Phúc, Phú
Thọ, Hà Tây, Hòa Bình, Hải
Dƣơng, Hƣng Yên,)
Vùng hạ lƣu sông Hồng và phân biệt
ven biển (Thái Bình, Hà s/x, r/d/gi,
Nam, Nam Định, Ninh Bình) tr/ch
23, phân
Phƣơng ngữ Trung 5 thanh biệt s/x,
r/d/gi, tr/ch
lẫn lộn thanh
Vùng Thanh Hóa
hỏi/thanh ngã
không phân biệt
Vùng Nghệ An, Hà Tĩnh thanh ngã/thanh
nặng, âm trầm hơn
Vùng Quảng Bình, Quảng không phân biệt mất nhiều
Trị, Huế thanh hỏi/thanh ngã vần
Phƣơng ngữ Nam
5 thanh, không phân biệt âm /a/ và /ă/
Vùng Quảng Nam-Quảng mất nhiều
phân biệt thanh s/x, r/d/gi, biến động đa
Ngãi vần
hỏi/thanh ngã tr/ch dạng
âm /a/ và
5 thanh, không bán phân
Vùng Quy Nhơn-Bình /e/ biến
phân biệt thanh biệt s/x,
Thuận, Ninh Thuận động đa
hỏi/thanh ngã r/d/gi, tr/ch
dạng
đồng nhất
5 thanh, không bán phân -in, -it, -
Nam Bộ phân biệt thanh biệt s/x, un, -ut với
hỏi/thanh ngã r/d/gi, tr/ch -inh, -ich, -
ung, -uc
Bảng 1.1. Phân biệt ngữ âm trong phương ngữ ba vùng lãnh thổ Việt Nam
15
1.2.5. Phân biệt đại từ của các phƣơng ngữ..
Phƣơng ngữ Bắc Phƣơng ngữ Trung Phƣơng ngữ Nam
này ni, nì nầy
thế này ri này vầy, như vầy
ấy nớ, tê đó
thế, thế ấy rứa, rứa tề, rứa đó vậy, vậy đó
kia tê đó
kìa tề đó
đâu mô đâu
nào mồ nào
sao, thế nào răng sao
tôi tui tui
tao tau tao
chúng tôi bọn tui tụi tui
chúng tao choa, bọn choa tụi tao
mày mi mầy
chúng mày bây, bọn bây tụi mầy
nó hắn nó
chúng nó bọn hắn tụi nó
ông ấy ông nớ ổng
bà ấy bà nớ bả
cô ấy dì nớ cổ
chị ấy chị nớ chỉ
anh ấy anh nớ ảnh
Bảng 1.2. Phân biệt đại từ của các phương ngữ.
1.3. Một số phƣơng pháp nhận dạng phƣơng ngữ.
1.3.1. Mô hình nhận dạng Gaussian Mixture Model (GMM )
Một mô hình nhận dạng sẽ đƣợc sử dụng trong luận văn này, đó là mô hình hỗn hợp
Gauss (Gaussian Mixture Model- GMM) đƣợc đại diện bởi hàm Gauss qua hai tham
số là vector trung bình và ma trận hiệp phƣơng sai. Đây là một dạng mô hình thống kê
đƣợc xây dựng từ việc huấn luyện các tham số thông qua dữ liệu học. Mô hình GMM
còn có một số tên gọi khác nhƣ Weighted Normal Distribution Sums hay Radial Basis
Function Approximations... [21]
16
Hình 1.1. Hàm mật độ Gauss
Về cơ bản, mô hình GMM xấp xỉ một hàm mật độ xác suất bằng hợp các hàm
mật độ Gauss. Hình 1.1 minh họa hai hàm mật độ Gauss với các tham số khác nhau.
Một cách hình thức, hàm mật độ xác suất của phân phối Gauss fN (x, μ, σ2) đƣợc cho
bởi công thức:
(1.1)
Trong đó, μ là giá trị trung bình, σ là độ lệch chuẩn. Trong trƣờng hợp x là
vector gồm D thành phần, hàm mật độ xác suất của phân phối Gauss f N (x, μ, ) đƣợc
cho bởi công thức:
(1.2)
Khi đó, μ là vector trung bình,  là ma trận hiệp phƣơng sai. Nếu chọn μ=0 và
σ=1, công thức 1.1 sẽ trở thành hàm mật độ chuẩn Gauss tiêu chuẩn:
(1.3)
17
P1
w1
w2
X P2  GM
M
.
. wM
.
PM
Hình 1.2. Mô hình GMM
Cho trƣớc M phân phối Gauss có các hàm mật độ p1, p2, ..., pM, hàm mật độ
xác suất của mô hình GMM đƣợc minh họa trong hình 1.2 chính là tổng trọng của M
phân phối Gauss theo công thức:
(1.4)
Trong đó, wi là trọng số của phân phối Gauss thứ i, thỏa mãn ràng buộc 0  wi  1 và.
Các trọng số này thể hiện mức độ ảnh hƣởng của mỗi phân phối Gauss đối với mô
hình GMM. Nhƣ vậy, phân phối Gauss có phƣơng sai và trọng số lớn bao nhiêu thì có
mức độ ảnh hƣởng lớn bấy nhiêu đối với kết xuất của mô hình.
1.3.2. Phƣơng pháp lƣợng tử hoá vectơ
Phƣơng pháp lƣợng tử hóa vec tơ (Vector Quantization (VQ)) là một kỹ thuật
đƣợc lấy từ lĩnh vực xử lý tiếng nói (speech processing). Trong phƣơng pháp này dữ
liệu học sẽ đƣa vào huấn luyện codebook cho từng ngƣời nói, ở bƣớc test kết quả nhận
dạng sẽ dựa trên sai số lƣợng tử hoá giữa mẫu test với codevector gần nhất trong
codebook của từng ngƣời nói
18
1.3.3. Mô hình nền phổ quát (UBM)
Mô hình nền phổ quát (UBM) là một khuôn khổ hiệu quả sử dụng rộng rãi
trong nhận dạng ngƣời nói, và bây giờ ngƣời ta cũng sử dụng nó để tự động nhận dạng
phƣơng ngữ nói (ASR) và xác định phƣơng ngữ. Nó dựa trên một GMM nói chung,
đại diện cho toàn bộ không gian âm thanh, liên kết với một tập hợp các HMM chức
năng phụ thuộc vào khả năng mô hình hóa nhƣ các dạng biến đổi của GMM này.
Các tập tin âm thanh huấn luyện để đào tạo một GMM nói chung, tức là, UBM,
sau đó thích nghi với các thể loại các tập tin âm thanh khác nhau để lấy đƣợc lớp mô
hình-GMMs âm thanh nhất định. Nhƣng phƣơng pháp này là không thành công để
xem xét yếu tố giới tính, mà yếu tố này lại có ảnh hƣởng lớn đến hiệu suất phân loại
phƣơng ngữ. Để tận dụng lợi thế của UBM trong việc giải quyết dữ liệu nhỏ, và cũng
để có thể xem xét yếu tố giới tính, chúng tôi đề xuất cấu trúc thứ bậc UBM nhƣ dƣới
(Các mũi tên có nghĩa là thích ứng với các tập tin âm thanh)
UBM chung
Nữ Giới Nam giới
Giới tính và Phân cấp
Hình 1.3. Mô hình nền phổ quát.
19