Nhận dạng tự động lứa tuổi của tiếng việt nói
- 81 trang
- file .pdf
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------
PHẠM THU THUẬN
NHẬN DẠNG TỰ ĐỘNG LỨA TUỔI CỦA
TIẾNG VIỆT NÓI
Chuyên ngành: CÔNG NGHỆ THÔNG TIN
LUẬN VĂN THẠC SĨ KỸ THUẬT
CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. NGUYỄN HỒNG QUANG
Hà Nội - 2014
LỜI CAM ĐOAN
Tôi - Phạm Thu Thuận, học viên lớp Cao học CNTT 2012 – 2014 Trường
Đại học Bách khoa Hà Nội – cam kết: Luận văn tốt nghiệp là công trình nghiên cứu
của bản thân tôi dưới sự hướng dẫn của TS. Nguyễn Hồng Quang - Viện Công nghệ
Thông tin và Truyền thông – Đại học Bách Khoa Hà Nội. Các kết quả trong Luận
văn tốt nghiệp là trung thực, không sao chép toàn văn của bất kỳ công trình nào
khác.
Hà Nội, ngày 23 tháng 9 năm 2014
Học viên: Phạm Thu Thuận
Lớp: CNTTHY2012
i
LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn sâu sắc tới Thầy giáo, TS. Nguyễn Hồng Quang –
Bộ môn Kỹ thuật máy tính – Viện Công nghệ Thông tin và Truyền thông – Đại học
Bách khoa Hà Nội, người Thầy kính mến đã hết lòng giúp đỡ, dạy bảo, động viên
và tạo mọi điều kiện thuận lợi cho tôi trong suốt quá trình học tập và hoàn thành
luận văn tốt nghiệp.
Tôi xin chân thành cảm ơn tập thể các thầy, cô giáo trường Đại học Bách
Khoa Hà Nội nói chung và Viện Công nghệ Thông tin và Truyền Thông nói riêng
đã tận tình giảng dạy truyền đạt cho tôi những kiến thức, kinh nghiệm quý báu trong
suốt những năm học vừa qua.
Cuối cùng tôi xin chân thành cảm ơn gia đình, bạn bè đã luôn ủng hộ và
động viên tôi trong những lúc khó khăn nhất.
ii
MỤC LỤC
LỜI CAM ĐOAN ................................................................................................... i
LỜI CẢM ƠN ........................................................................................................ ii
MỤC LỤC............................................................................................................. iii
DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT........................................................... v
DANH MỤC HÌNH .............................................................................................. vi
CHƢƠNG 1. CƠ SỞ LÝ THUYẾT ...................................................................... 3
1.1. Tổng quan về nhận dạng lứa tuổi của tiếng Việt nói ......................................... 3
1.1.1. Cơ sở khoa học về nhận dạng lứa tuổi của tiếng Việt nói: .............................. 3
1.1.2. Nguyên lý làm việc hệ thống nhận dạng lứa tuổi của ngôn ngữ nói ................ 5
1.1.3. Mô hình hệ thống nhận dạng lứa tuổi của tiếng Việt nói ................................ 6
1.2. Các công cụ sử dụng trong đề tài ...................................................................... 9
1.2.1. Máy ảo Vmware Workstation v9.0 ................................................................ 9
1.2.2. Hệ điều hành Linux-CentOS ........................................................................ 10
1.2.3. Bộ công cụ ALIZE ...................................................................................... 11
1.2.4. Ngôn ngữ lập trình Python ........................................................................... 11
CHƢƠNG 2. TRIỂN KHAI HỆ THỐNG THỬ NGHIỆM NHẬN DẠNG
NGƢỜI NÓI TIẾNG VIỆT ................................................................................ 13
2.1. Phương pháp thu âm dữ liệu ........................................................................... 14
2.2. Phân chia cơ sở dữ liệu để thử nghiệm ............................................................ 15
2.3. Mô hình phân cấp nhận dạng lứa tuổi của tiếng Việt nói ................................. 18
2.4. Quy trình nhận dạng lứa tuổi người nói sử dụng ALIZE ................................. 19
2.4.1. Tính tham số MFCC .................................................................................... 19
2.4.2. Chuẩn hóa năng lượng ................................................................................. 20
2.4.3. Phát hiện năng lượng trên các tín hiệu ......................................................... 21
2.4.4. Chuẩn hóa các thông số của tín hiệu ............................................................ 23
2.4.5. Huấn luyện mô hình tổng quát (TrainWorldInit) .......................................... 24
2.4.6. Huấn luyện mô hình đích (TrainWorldFinal) ............................................... 26
iii
2.4.7.Huấn luyện mô hình GMM cho từng lứa tuổi người nói................................ 27
2.4.8. Nhận dạng ................................................................................................... 27
2.5. Phân tích đánh giá kết quả .............................................................................. 30
2.5.1. Kết quả của thử nghiệm với cơ sở dữ liệu không đồng đều: ......................... 30
2.5.2.Kết quả thử nghiệm với cơ sở dữ liệu đồng đều ............................................ 46
CHƢƠNG 3: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN.................................... 56
3.1. Những vấn đề đã giải quyết trong luận văn ..................................................... 56
3.2. Hướng phát triển:............................................................................................ 56
TÀI LIỆU THAM KHẢO ................................................................................... 57
PHỤ LỤC............................................................................................................. 58
iv
DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT
Chữ viết tắt Chữ viết đầy đủ
Automatic Speech Recognition
ASR
Nhận dạng tiếng nói tự động
Central Processing Unit
CPU
Bộ xử lý trung tâm
Expectation – Maximization
EM
Thuật toán tổng quát
Gaussion Mixture Model
GMM
Mô hình hợp Gauss
Hidden Markov Model
HMM
Mô hình Markov ẩn
Mel - Frequency Cepstral Coefficients
MFCC
Hệ số Cepstral theo thang đo tần số Mel
NORMFEST Giai đoạn chuẩn hóa đặc trưng
TARGET MODEL Mô hình người nói
Word Error Rate
WER
Tỷ lệ lỗi nhận dạng
v
DANH MỤC HÌNH
Hình 1.1 Mô hình tổng quát hệ thống nhận dạng lứa tuổi của ngôn ngữ nói ............. 5
Hình 1.2: Mô hình nhận dạng lứa tuổi sử dụng công cụ Alize .................................. 6
Hình 1.3: Hàm mật độ Gauss ................................................................................... 7
Hình 1.4: Mô hình GMM......................................................................................... 8
Hình 1.5: Hàm mật độ của GMM có 3 phân phối Gauss .......................................... 9
Hình 1.7: Hệ điều hành Centos .............................................................................. 11
Hình 2.1: Quy trình nhận dạng lứa tuổi của tiếng Việt nói sử dụng Alize .............. 13
Hình 2.2: Quy trình thu âm dữ liệu ........................................................................ 14
Hình 2.3: Phần mềm hỗ trợ thu âm ........................................................................ 15
Hình 2.4: Phần mềm thu âm .................................................................................. 15
Hình 2.5: Tổ chức các thư mục chứa dữ liệu để thử nghiêm nhận dạng lứa tuổi..... 16
Hình 2.6: Mô hình hệ thống nhận dạng .................................................................. 18
Hình 2.7: Mô hình huấn luyện (Training) .............................................................. 18
Hình 2.9: Phát hiện tiếng nói ................................................................................. 23
vi
DANH MỤC BẢNG
Bảng 2.1: Tổ chức dữ liệu để đưa vào thử nghiệm nhận dạng lứa tuổi ................... 16
Bảng 2.2: Tổng hợp số file âm thanh của từng lứa tuổi .......................................... 30
Bảng 2.3: Tổng hợp số file âm thanh của tập A ..................................................... 31
Bảng 2.4: Tổng hợp số file âm thanh của tập B ..................................................... 31
Bảng 2.5: Kết quả nhận dạng lứa tuổi với giới tính là Nam tập A .......................... 32
Bảng 2.6: Kết quả nhận dạng lứa tuổi với giới tính là Nam tập B .......................... 33
Bảng 2.7: Tỷ lệ % nhận đúng giọng nói của giới tính Nam theo lứa tuổi ............... 34
Bảng 2.8: So sánh tỷ lệ nhận dạng đúng lứa tuổi giọng Nam ở hai tập A và B ....... 36
Bảng 2.9: Kết quả nhận dạng lứa tuổi với giới tính là Nữ tập A ............................. 37
Bảng 2.10: Kết quả nhận dạng lứa tuổi với giới tính là nữ tập B ............................ 38
Bảng 2.11: Tỷ lệ % nhận đúng giọng nói của giới tính Nữ theo lứa tuổi ................ 39
Bảng 2.12: So sánh tỷ lệ nhận dạng đúng lứa tuổi giọng nữ ở hai tập A và B ........ 40
Bảng 2.13: Kết quả nhận dạng lứa tuổi kết hợp cả nam và nữ tập A ...................... 42
Bảng 2.14: Kết quả nhận dạng lứa tuổi kết hợp cả nam và nữ tập B....................... 42
Bảng 2.15: Tỷ lệ % nhận đúng giọng nói kết hợp cả nam và nữ cả 2 tập A và B .... 43
Bảng 2.16: Tỷ lệ nhận dạng đúng lứa tuổi kết hợp nam và nữ với các thành phần
Gause khác nhau.................................................................................................... 45
Bảng 2.17: Tổng hợp số file âm thanh của các lứa tuổi đưa vào nhận dạng thử
nghiệm lần 2 .......................................................................................................... 46
Bảng 2.18: Kết quả nhận dạng lứa tuổi giới tính Nam tập A-thử lần 2 ................... 48
Bảng 2.19: Kết quả nhận dạng lứa tuổi giới tính Nam tập B thử lần 2 ................... 49
Bảng 2.20: Kết quả nhận dạng lứa tuổi giới tính nữ tập A – thử lần 2 .................... 50
Bảng 2.21: Kết quả nhận dạng lứa tuổi giới tính nữ tập B – lần thử 2 .................... 51
Bảng 2.22: Kết quả nhận dạng lứa tuổi kết hợp cả nam và nữ tập A ...................... 52
Bảng 2.23: Kết quả nhận dạng lứa tuổi kết hợp cả nam và nữ tập B....................... 53
Bảng 2.24: Tổng hợp tỷ lệ % nhận dạng lứa tuổi theo giới tính ............................. 54
vii
DANH MỤC BIỂU ĐỒ
Biểu đồ 2.1: Kết quả nhận dạng lứa tuổi với giới tính là Nam tập A ...................... 32
Biểu đồ 2.2: Kết quả nhận dạng lứa tuổi với giới tính là Nam tập B ...................... 34
Biểu đồ 2.3: So sánh tỷ lệ % nhận dạng đúng lứa tuổi của tệp A giới tính Nam ..... 35
Biểu đồ 2.4: So sánh tỷ lệ % nhận dạng đúng lứa tuổi của tệp B giới tính Nam ..... 35
Biểu đồ 2.5: So sánh tỷ lệ nhận dạng đúng lứa tuổi của giọng ở hai tập A và B ..... 36
Biểu đồ 2.6:Kết quả nhận dạng lứa tuổi với giới tính là nữ tập A........................... 37
Biểu đồ 2.7: Kết quả nhận dạng lứa tuổi với giới tính là nữ tập B .......................... 38
Biểu đồ 2.8: So sánh tỷ lệ % nhận dạng đúng lứa tuổi của tệp A giới tính Nữ........ 39
Biểu đồ 2.9: So sánh tỷ lệ % nhận dạng đúng lứa tuổi của tệp B giới tính Nữ ........ 40
Biểu đồ 2.10: So sánh tỷ lệ nhận dạng đúng lứa tuổi của giọng nữ ở tập A và B .... 41
Biểu đồ 2.11: Kết quả nhận dạng lứa tuổi kết hợp cả nam và nữ tập A .................. 42
Biểu đồ 2.12: Kết quả nhận dạng lứa tuổi kết hợp cả nam và nữ tập B................... 43
Biểu đồ 2.13: So sánh tỷ lệ % nhận dạng đúng nam nữ tệp A ................................ 44
Biểu đồ 2.14: So sánh tỷ lệ % nhận dạng đúng nam nữ của tệp B .......................... 44
Biểu đồ 2.15: So sánh tỷ lệ nhận dạng đúng lứa tuổi của giọng Nam và Nữ .......... 45
Biểu đồ 2.16: Kết quả nhận dạng với giới tính nam tập A-thử lần 2 ....................... 49
Biểu đồ 2.17: Kết quả nhận dạng giọng nam tập B-thử lần 2 ................................. 50
Biểu đồ 2.18: Kết quả nhận dạng giọng nữ tập A-thử lần 2.................................... 51
Biểu đồ 2.19: Kết quả nhận dạng giọng nữ tập B-thử lần 2 .................................... 52
Biểu đồ 2.20: Kết quả nhận dạng kết hợp nam và nữ tậpA-thử lần 2...................... 53
Biểu đồ 2.21: Kết quả nhận dạng kết hợp nam và nữ tập B-thử lần 2 ..................... 54
Biểu đồ 2.22: So sánh kết quả nhận dạng từng lứa tuổi theo giới tính .................... 55
viii
MỞ ĐẦU
1. Lý do chọn đề tài
Tiếng Việt là ngôn ngữ của người Việt, là phương tiện giao tiếp chung được sử
dụng rộng rãi trên toàn quốc. Song mỗi địa phương khác nhau, mỗi lứa tuổi khác
nhau, tiếng Việt lại mang những nét riêng biệt vô cùng phong phú, đa dạng. Theo
quy ước của các nhà ngôn ngữ học hiện nay có thể chia đối tượng nói ngôn ngữ
Việt thành 4 nhóm lứa tuổi: thiếu niên, thanh niên, trung niên, người già. Khi âm
thanh của người nói được phát ra, con người dễ dàng nghe được hay cảm nhận được
các thông tin: giới tính, lứa tuổi, cảm xúc…? Từ những điều này, lần lượt ra đời các
ứng dụng thuộc về lĩnh vực nhận dạng tự động lứa tuổi của người qua giọng nói.
Như ứng dụng trong các chương trình, trò chơi giải trí, trong điều tra…
Trên thế giới đã có rất nhiều hệ thống nhận dạng lứa tuổi của người nói (như
lứa tuổi người nói tiếng Anh, tiếng Pháp) đã và đang được ứng dụng rất hiệu quả.
Nhưng trong vấn đề nhận dạng lứa tuổi của người nói tiếng Việt thì còn rất nhiều
hạn chế. Ở Việt Nam trên cơ sở tiếp thu được các thành tựu khoa học công nghệ
trên thế giới, việc đi sâu nghiên cứu các đặc trưng của lứa tuổi người nói tiếng Việt,
khai thác ứng dụng các đặc trưng đó vào hệ thống nhận dạng lứa tuổi người nói
đang là vấn đề cần thiết nhằm tiến tới xây dựng các ứng dụng phù hợp với đặc trưng
ngôn ngữ tiếng Việt của từng lứa tuổi người nói, đáp ứng các nhu cầu ứng dụng
ngày càng cao của xã hội.
Với mục đích tìm hiểu và góp phần phát triển chương trình nhận dạng người nói
tiếng Việt, tác giả đã thực hiện đề tài “ Nhận dạng tự động lứa tuổi của tiếng Việt
nói”.
Mục đích, phạm vi nghiên cứu
Mục đích của đề tài: “Nhận dạng tự động lứa tuổi của tiếng Việt nói” là
- Nghiên cứu cơ sở lý thuyết về giọng nói của từng lứa tuổi.
- Nghiên cứu mô hình GMM và bộ công cụ ALIZE, gói thư viện LIA-RAL để
nhận dạng lứa tuổi người nói tiếng Việt.
1
- Xây dựng hệ thống thử nghiệm nhận dạng tự động lứa tuổi của người nói tiếng
Việt sử dụng công cụ ALIZE.
2. Đối tƣợng nghiên cứu
- Nghiên cứu tổng quan về nhận dạng tự động lứa tuổi của người nói.
- Nghiên cứu về mô hình hỗn hợp GMM.
- Nghiên cứu: Công cụ ALIZE, ngôn ngữ Python.
3. Phƣơng pháp nghiên cứu
- Nghiên cứu lý thuyết về nhận dạng tự động lứa tuổi của người nói tiếng Việt.
- Nghiên cứu sử dụng bộ công cụ ALIZE trên môi trường CentOS trong nhận dạng
người nói.
- Thu âm các câu nói tiếng Việt theo từng lứa tuổi và thử nghiệm nhận dạng.
4. Nhiệm vụ nghiên cứu
- Tìm hiểu khái quát về nhận dạng người nói theo từng lứa tuổi và đặc điểm của
tiếng Việt nói theo lứa tuổi.
- Tìm hiểu mô hình GMM.
- Tìm hiểu về hoạt động của ALIZE, ngôn ngữ lập trình Python…
Nội dung luận văn được trình bày trong 56 trang và được chia thành 3 chương:
- Chương 1: Cơ sở lý thuyết.
- Chương 2: Chương này sẽ trình bày chi tiết về các bước tạo cơ sở dữ liệu tiếng
nói của từng lứa tuổi được sử dụng để thử nghiệm và xây dựng hệ thống nhận
dạng lứa tuổi của người nói sử dụng công cụ ALIZE.
- Chương 3: Trình bày kết luận và một số hướng phát triển tiếp theo của đề tài.
2
CHƢƠNG 1. CƠ SỞ LÝ THUYẾT
Nội dung chủ yếu của chương là trên cơ sở phân tích giọng nói của từng lứa
tuổi để đưa ra luận cứ về nhận dạng lứa tuổi của tiếng Việt nói. Tìm hiểu các
phương pháp nhận dạng lứa tuổi các ngôn ngữ của các nhà nghiên cứu. Từ đó tác
giả đưa ra các luận điểm cơ bản và nghiên cứu phương pháp thử nghiệm nhận dạng
lứa tuổi của tiếng Việt nói.
1.1. Tổng quan về nhận dạng lứa tuổi của tiếng Việt nói
1.1.1. Cơ sở khoa học về nhận dạng lứa tuổi của tiếng Việt nói:
Giọng nói được tạo ra nhờ sự phối hợp của nhiều cơ quan như: não, phổi, thanh
quản mà đặc biệt là 2 dây thanh âm, thanh quản đóng vai trò rất quan trọng trong
việc hình thành lời nói. Lời nói được tạo ra khi có luồng không khí từ phổi đi lên;
sự rung động của dây thanh tác động lên cột không khí này, tạo nên âm thanh. Khi
phát âm, dây thanh đóng kín, hình dạng dây thanh có thể biến đổi lúc dày, lúc
mỏng, khi căng ít, khi căng nhiều, tùy theo nhu cầu phát âm. Mỗi giai đoạn, mỗi lứa
tuổi lại có cách nói và phát âm khác nhau.
Khi mới sinh, kích thước thanh quản của trẻ em chỉ bằng 1/3 thanh quản người
lớn. Trong suốt thời kỳ thiếu niên, giọng của thanh quản xuống thấp rất chậm, từ từ
theo sự phát triển của thanh quản.
Trước tuổi dậy thì, giữa bé trai và bé gái có sự khác nhau về giọng nói nhưng
rất kín đáo, chủ yếu là khác ở cường độ và âm sắc. Ở tuổi dậy thì, tác động của
những yếu tố nội tiết làm cho giọng nói biến đổi đột ngột. Ở trẻ vị thành niên nam,
sự thay đổi giọng thường xuất hiện ở 12-14 tuổi, cùng lúc với sự phát triển nhanh
của cơ thể và kéo dài từ 6 tháng đến một năm. Do kích thước thanh quản lớn lên và
dây thanh dài thêm khoảng 1 cm nên giọng nói trẻ lúc trầm lúc bổng, đôi khi không
kiểm soát được. Tham gia vào quá trình phát âm tạo nên giọng nói mang âm sắc
thanh, trầm... có các bộ phận như: vòm họng; hầu, lưỡi, răng; dây thanh âm; môi;
yếu tố di truyền; thần kinh điều khiển; địa dư; nội tiết (hocmon). Đặc biệt ở tuổi dậy
thì (quãng thời gian thay đổi từ một cậu bé thành một người đàn ông), mức hocmon
3
sinh dục nam sẽ tăng lên mạnh mẽ và khiến cho thanh quản phát triển và thay đổi
hình dạng, giọng nói cũng có sự thay đổi. Khu vực tạo giọng nói được diễn tả như
một dụng cụ âm nhạc với 2 dây thanh âm kéo căng dọc và có tính co giãn đàn hồi.
Khi không khí từ phổi đi qua vùng này, các dây thanh rung lên phát ra âm của giọng
nói. Dây thanh trở nên to hơn và dày hơn và vì thế nó rung lên từ từ ở tần số thấp
hơn khi không khí đi qua chúng. Tần số thấp hơn đem lại cho giọng nói trầm hơn
(ồm ồm). Tuy nhiên, sự thay đổi chỉ qua có vài tuần hoặc vài tháng. Và trong giai
đoạn này thường xen kẽ giữa âm cao (thanh) và trầm (ồm). Sang đến tuổi 20, giọng
trầm sẽ mât dần đi người trưởng thành.
Giọng nói của các bạn gái cũng có những thay đổi ở tuổi dậy thì. Giọng nói
nghe rõ cả tiếng thở và khàn khàn. Có thể sâu hơn bởi đôi dây âm. Đây là thời gian
các bạn gái gặp khó khăn khi hát ở chính xác cao độ. Khi bước vào tuổi trưởng
thành, cách phân biệt nam nữ dễ nhất là nhìn cổ bởi nam giới có “cục” yết hầu nổi
rõ trong khi nữ giới thì không.
Ở thời kỳ mãn kinh, làm giọng nữ sâu sắc hơn, tần số âm tối đa giảm, và âm
vực mở rộng, đạt cao độ thấp hơn. Đó là một trong những lý do tại sao tuổi có thể
được xác định từ mẫu giọng nói là kết quả của những ảnh hưởng nội tiết tố.
Tóm lại thanh niên khi nói thường nhanh, giọng trong đến tuổi trung niên tần
suất nói giảm chất giọng trầm hơn. Đến tuổi người già tần suất nói giảm hẳn.
Trên cơ sở phân tích giọng nói của từng lứa tuổi trên. Ta có thể thấy nhận dạng
tự động lứa tuổi của tiếng Việt nói là một quá trình nhận biết phức tạp, bao gồm
nhiều bước biến đổi.
4
1.1.2. Nguyên lý làm việc hệ thống nhận dạng lứa tuổi của ngôn ngữ nói
Mô hình lứa
tuổi người nói
Huấn luyện
Vector đặc
Âm thanh trưng
đầu vào 1.Trích chọn đặc 2.Nhận dạng, so
Mô hình
trưng sánh sự tương
thống kê
đồng
Đầu ra
Quyết định nhận
dạng thuộc
nhóm tuổi
Hình 1.1 Mô hình tổng quát hệ thống nhận dạng lứa tuổi của ngôn ngữ nói
Một hệ thống nhận dạng lứa tuổi nói chung bao gồm hai phần: phần huấn
luyện (training phase) và phần nhận dạng (recognition phase) như trong hình1.1.
“Huấn luyện là quá trình hệ thống “học” những mẫu chuẩn được cung cấp bởi
những âm thanh của từng lứa tuổi khác nhau (từ hoặc âm), để từ đó hình thành kho
dữ liệu của hệ thống. “Nhận dạng” là quá trình quyết định xem âm thanh đó thuộc
nhóm tuổi nào trong kho dữ liệu đã được huấn luyện.
Cụ thể tín hiệu âm thanh được đưa vào, qua quá trình trích chọn đặc trưng, kết
quả thu được là tập các đặc trưng âm học được tạo dựng thành một vector. Trong
quá trình huấn luyện hệ thống các vector đặc trưng được đưa vào hệ thống để ước
lượng các tham số của mô hình thống kê. Mô hình thống kê là một sự tổng hợp của
tất cả các đặc trưng tương ứng với từng lứa tuổi được rút trích từ nguồn đầu vào.
Những biểu diễn này thường là bộ phận của một cơ sở dữ liệu âm thanh đã được thu
thập trước. Trong quá trình nhận dạng, dãy các vector đặc trưng được đem so sánh
5
với mô hình thống kê đặc trưng. Sau đó, hệ thống tính toán tương đồng, mô hình có
độ tương đồng cao nhất được cho là kết quả của quá trình nhận dạng.
1.1.3. Mô hình hệ thống nhận dạng lứa tuổi của tiếng Việt nói
Con người sống trong xã hội, sống theo cộng đồng nên muốn giao tiếp được với
nhau thì người ta phải có mã do cộng đồng quy định sử dụng. Dẫu người ta có thể
khác nhau đặc điểm tâm lí, sinh lí, trình độ học vấn, địa phương cư trú nhưng muốn
để giao tiếp được, truyền được thông điệp, yêu cầu của mình tới người khác thì mã
âm thanh sử dụng phải có tính xã hội hoá. Âm thanh người nói là liện tục và các âm
quyện nối vào nhau, mỗi người mỗi giọng .
Một hệ thống nhận dạng lứa tuổi người nói ở nước ta phải được xây dựng trên các
đặc trưng, đặc điểm của lứa tuổi nói tiếng Việt.
Trích chọn Các vector Dò tìm năng Chuẩn hóa
Âm thanh đặc trung đặc trưng lượng đặc trưng
đầu vào
train
Test
Mô hình nền Mô hình GMM
Kiểm tra, so Kết quả
sánh
Hình 1.2: Mô hình nhận dạng lứa tuổi sử dụng công cụ Alize
Ở mô hình 1.2: tín hiệu âm thanh người nói đầu tiên được đưa vào trích chọn
đặc trưng. Kết quả thu được sau quá trình này là tập các đặc trưng âm học, được tạo
thành một hay nhiều vector được gọi là vector đặc trưng. Để có thể thực hiện việc
so sánh, trước hết hệ thống phải được huấn luyện và xây dựng các đặc trưng đưa
vào để ước lượng, tính toán các tham số cho các mẫu (được gọi mẫu tham khảo).
Một mẫu tham khảo chính là các bản mẫu dùng để so sánh và nhận dạng. Trong quá
6
trình nhận dạng dãy các vecctor đặc trưng được đem so sánh với các mẫu tham
khảo. Sau đó hệ thống tính toán độ tương đồng của dãy vector đặc trưng và mẫu
tham khảo. Việc tính toán độ tương đồng được thực hiện bằng cách áp dụng các
thuật toán đã được chứng minh hiệu quả như thuật toán EM (trong GMM). Mẫu có
độ tương đồng cao nhất được cho là kết quả của quá trình nhận dạng.
* Mô hình GMM (Gaussian Mixture Model)
Mô hình hợp Gauss (Gaussian Mixture Model - GMM) là một dạng mô hình thống
kê được xây dựng từ việc huấn luyện các tham số thông qua dữ liệu học. Mô hình
GMM còn có một số tên gọi khác như Weighted Normal Distribution Sums hay
Radial Basis Function Approximations…
Hình 1.3: Hàm mật độ Gauss
`
1 ( x )2
p ( x) exp ( 1.1)
2 2 2
trong đó, μ là giá trị trung bình, σ là độ lệch chuẩn. Trong trường hợp x là vector
gồm D thành phần, hàm mật độ xác suất của phân phối Gauss fN(x, μ, Σ) được cho
bởi công thức:
1 1
p ( x) exp ( x )' 1 ( x )
(2 ) D /2
||1/2
2
7
khi đó, μ là vector trung bình, Σ là ma trận hiệp phương sai. Nếu chọn μ=0 và σ=1,
công thức (1.1) sẽ trở thành hàm mật độ chuẩn Gauss:
1 x2
p ( x) exp
(2 ) 2
Từ “Gauss” được đặt theo tên của nhà toán học người Đức Carl Friedrich Gauss.
Ông đã định nghĩa hàm mật độ Gauss và áp dụng trong phân tích dữ liệu thiên văn.
Hình 1.4: Mô hình GMM
Cho trước M phân phối Gauss p1, p2, …, pM, hàm mật độ xác suất của mô hình
GMM được minh họa trong Hình 2.2 chính là tổng trọng của M phân phối Gauss
theo công thức:
M
PGMM ( x ) wi pi ( x )
i 1
trong đó, wi là trọng số của phân phối Gauss thứ i, thỏa ràng buộc 0≤ wi ≤1 và
Các trọng số này thể hiện mức độ ảnh hưởng của mỗi phân phối
Gaussđối với mô hình GMM. Như vậy, phân phối Gauss có phương sai và trọng số
lớn bao nhiêu thì có mức độ ảnh hưởng lớn bấy nhiêu đối với kết xuất của mô hình.
Hình 2.3 cho thấy mức độ ảnh hưởng của từng phân phối Gauss lên GMM.
8
Hình 1.5: Hàm mật độ của GMM có 3 phân phối Gauss
số λ = { wi, μi, Σi }, i ∈ [1, M]. Trong hướng tiếp cận GMM giải quyết bài toàn định
danh người nói, mỗi người nói sẽ được mô hình hóa bằng một mô hình GMM mà
bộ tham số λ của nó sẽ được xác định thông qua việc huấn luyện trên tập mẫu học
của người nói tương ứng.
Tùy thuộc vào cách tổ chức của ma trận hiệp phương sai (Covariance Matrix),
GMM có thể có một số biến thể khác nhau:
- Nodal covariance matrices GMM: mỗi phân phối Gauss trong GMM có một
ma trận hiệp phương sai riêng.
- Grand Covariance Matrix GMM: mọi phân phối Gauss trong một GMM dùng
chung một ma trận hiệp phương sai.
- Global Covariance Matrix GMM: mọi phân phối Gauss trong tất cả các GMM
dùng chung một ma trận hiệp phương sai.
Ngoài ra, xét về dạng thức, ma trận hiệp phương sai gồm hai loại: Full (dạng đầy
đủ) và Diagonal (dạng ma trận đường chéo). Thông thường, dạng Nodal-Diagonal
Covariance Matrices GMM được sử dụng phổ biến nhất.
1.2. Các công cụ sử dụng trong đề tài
1.2.1. Máy ảo Vmware Workstation v9.0
Máy ảo là phần mềm tạo máy ảo cho các hệ thống máy tính. Một máy ảo là
một chương trình đóng vai trò như một máy vi tính ảo. Nó chạy trên hệ điều hành
hiện tại - hệ điều hành chủ và cung cấp phần cứng ảo tới hệ điều hành khách. Các
hệ điều hành khách chạy trên các cửa sổ của hệ điều hành chủ, giống như bất kỳ
chương trình nào khác của máy. Các máy ảo cung cấp phần cứng ảo, bao gồm CPU
9
ảo, RAM ảo, ổ đĩa cứng, giao diện mạng và những thiết bị khác. Các thiết bị phần
cứng ảo được cung cấp bởi máy ảo và được ánh xạ tới phần cứng thực trên máy
thật. Ví dụ như, ổ đĩa cứng ảo lại được lưu trong một file đặt trên ổ đĩa cứng thực.
Có thể đăng ký và tải miễn phí Vmware Workstation 9.0 ở trang
http://my.vmware.com/web/vmware/into/slug/destop_end_user_computing/vmware
_workstation/9_0.
Hình 1.6: Máy ảo
1.2.2. Hệ điều hành Linux-CentOS
CentOS viết tắt từ cụm từ (Community Enterprise Operating System) một hệ
điều hành của doanh nghiệp cộng đồng Linux, là một hệ thống được phát triển dựa
trên các gói phần mềm của bản RedHat (Red Hat Enterprise Linux system -RHEL),
nhằm đưa các mã nguồn RedHat gốc để biên dịch phát triển tập trung vào phần
mềm mã nguồn mở. Các nhà quản trị mạng đều hay sử dụng CentOS là hệ điều
hành chính để cung cấp Hosting cho khách hàng, bởi các tính năng ổn định và mạnh
mẽ của CentOS mang lại.
10
Hình 1.7: Hệ điều hành Centos
1.2.3. Bộ công cụ ALIZE
Alize là một phần mềm mã nguồn mở có nguồn gốc từ Pháp được sử dụng cho
hệ thống nhận dạng tự động người qua giọng nói. Alize chứa các giải thuật giúp
nhận dạng một người bằng giọng nói của chính họ. Gói Lia-ral được xây dựng trên
thư viện Alize, dùng để ước tính các công việc bên trong Alize. Hai công cụ này
không thể tách rời nhau.
Đây là phần mềm miễn phí, có thể download tại địa chỉ: http://mistral.univ-
avignon.fr/download_en.html. Với 2 gói: ALIZE 3.0 và LIA-RAL 3.0.
Trong luận văn này, tác giả thử nghiệm ALIZE trong môi trường Linux trên
máy ảo Vmware Workstation v9.0.0 và hệ điều hành sử dụng là CentOS6.3.
1.2.4. Ngôn ngữ lập trình Python
Python là một ngôn ngữ lập trình hướng đối tượng ở mức độ cao với cấu trúc gần
gũi, ngôn ngữ tự nhiên do Guido van Rossum tạo ra năm 1990. Và được phát triển
11
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------
PHẠM THU THUẬN
NHẬN DẠNG TỰ ĐỘNG LỨA TUỔI CỦA
TIẾNG VIỆT NÓI
Chuyên ngành: CÔNG NGHỆ THÔNG TIN
LUẬN VĂN THẠC SĨ KỸ THUẬT
CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. NGUYỄN HỒNG QUANG
Hà Nội - 2014
LỜI CAM ĐOAN
Tôi - Phạm Thu Thuận, học viên lớp Cao học CNTT 2012 – 2014 Trường
Đại học Bách khoa Hà Nội – cam kết: Luận văn tốt nghiệp là công trình nghiên cứu
của bản thân tôi dưới sự hướng dẫn của TS. Nguyễn Hồng Quang - Viện Công nghệ
Thông tin và Truyền thông – Đại học Bách Khoa Hà Nội. Các kết quả trong Luận
văn tốt nghiệp là trung thực, không sao chép toàn văn của bất kỳ công trình nào
khác.
Hà Nội, ngày 23 tháng 9 năm 2014
Học viên: Phạm Thu Thuận
Lớp: CNTTHY2012
i
LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn sâu sắc tới Thầy giáo, TS. Nguyễn Hồng Quang –
Bộ môn Kỹ thuật máy tính – Viện Công nghệ Thông tin và Truyền thông – Đại học
Bách khoa Hà Nội, người Thầy kính mến đã hết lòng giúp đỡ, dạy bảo, động viên
và tạo mọi điều kiện thuận lợi cho tôi trong suốt quá trình học tập và hoàn thành
luận văn tốt nghiệp.
Tôi xin chân thành cảm ơn tập thể các thầy, cô giáo trường Đại học Bách
Khoa Hà Nội nói chung và Viện Công nghệ Thông tin và Truyền Thông nói riêng
đã tận tình giảng dạy truyền đạt cho tôi những kiến thức, kinh nghiệm quý báu trong
suốt những năm học vừa qua.
Cuối cùng tôi xin chân thành cảm ơn gia đình, bạn bè đã luôn ủng hộ và
động viên tôi trong những lúc khó khăn nhất.
ii
MỤC LỤC
LỜI CAM ĐOAN ................................................................................................... i
LỜI CẢM ƠN ........................................................................................................ ii
MỤC LỤC............................................................................................................. iii
DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT........................................................... v
DANH MỤC HÌNH .............................................................................................. vi
CHƢƠNG 1. CƠ SỞ LÝ THUYẾT ...................................................................... 3
1.1. Tổng quan về nhận dạng lứa tuổi của tiếng Việt nói ......................................... 3
1.1.1. Cơ sở khoa học về nhận dạng lứa tuổi của tiếng Việt nói: .............................. 3
1.1.2. Nguyên lý làm việc hệ thống nhận dạng lứa tuổi của ngôn ngữ nói ................ 5
1.1.3. Mô hình hệ thống nhận dạng lứa tuổi của tiếng Việt nói ................................ 6
1.2. Các công cụ sử dụng trong đề tài ...................................................................... 9
1.2.1. Máy ảo Vmware Workstation v9.0 ................................................................ 9
1.2.2. Hệ điều hành Linux-CentOS ........................................................................ 10
1.2.3. Bộ công cụ ALIZE ...................................................................................... 11
1.2.4. Ngôn ngữ lập trình Python ........................................................................... 11
CHƢƠNG 2. TRIỂN KHAI HỆ THỐNG THỬ NGHIỆM NHẬN DẠNG
NGƢỜI NÓI TIẾNG VIỆT ................................................................................ 13
2.1. Phương pháp thu âm dữ liệu ........................................................................... 14
2.2. Phân chia cơ sở dữ liệu để thử nghiệm ............................................................ 15
2.3. Mô hình phân cấp nhận dạng lứa tuổi của tiếng Việt nói ................................. 18
2.4. Quy trình nhận dạng lứa tuổi người nói sử dụng ALIZE ................................. 19
2.4.1. Tính tham số MFCC .................................................................................... 19
2.4.2. Chuẩn hóa năng lượng ................................................................................. 20
2.4.3. Phát hiện năng lượng trên các tín hiệu ......................................................... 21
2.4.4. Chuẩn hóa các thông số của tín hiệu ............................................................ 23
2.4.5. Huấn luyện mô hình tổng quát (TrainWorldInit) .......................................... 24
2.4.6. Huấn luyện mô hình đích (TrainWorldFinal) ............................................... 26
iii
2.4.7.Huấn luyện mô hình GMM cho từng lứa tuổi người nói................................ 27
2.4.8. Nhận dạng ................................................................................................... 27
2.5. Phân tích đánh giá kết quả .............................................................................. 30
2.5.1. Kết quả của thử nghiệm với cơ sở dữ liệu không đồng đều: ......................... 30
2.5.2.Kết quả thử nghiệm với cơ sở dữ liệu đồng đều ............................................ 46
CHƢƠNG 3: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN.................................... 56
3.1. Những vấn đề đã giải quyết trong luận văn ..................................................... 56
3.2. Hướng phát triển:............................................................................................ 56
TÀI LIỆU THAM KHẢO ................................................................................... 57
PHỤ LỤC............................................................................................................. 58
iv
DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT
Chữ viết tắt Chữ viết đầy đủ
Automatic Speech Recognition
ASR
Nhận dạng tiếng nói tự động
Central Processing Unit
CPU
Bộ xử lý trung tâm
Expectation – Maximization
EM
Thuật toán tổng quát
Gaussion Mixture Model
GMM
Mô hình hợp Gauss
Hidden Markov Model
HMM
Mô hình Markov ẩn
Mel - Frequency Cepstral Coefficients
MFCC
Hệ số Cepstral theo thang đo tần số Mel
NORMFEST Giai đoạn chuẩn hóa đặc trưng
TARGET MODEL Mô hình người nói
Word Error Rate
WER
Tỷ lệ lỗi nhận dạng
v
DANH MỤC HÌNH
Hình 1.1 Mô hình tổng quát hệ thống nhận dạng lứa tuổi của ngôn ngữ nói ............. 5
Hình 1.2: Mô hình nhận dạng lứa tuổi sử dụng công cụ Alize .................................. 6
Hình 1.3: Hàm mật độ Gauss ................................................................................... 7
Hình 1.4: Mô hình GMM......................................................................................... 8
Hình 1.5: Hàm mật độ của GMM có 3 phân phối Gauss .......................................... 9
Hình 1.7: Hệ điều hành Centos .............................................................................. 11
Hình 2.1: Quy trình nhận dạng lứa tuổi của tiếng Việt nói sử dụng Alize .............. 13
Hình 2.2: Quy trình thu âm dữ liệu ........................................................................ 14
Hình 2.3: Phần mềm hỗ trợ thu âm ........................................................................ 15
Hình 2.4: Phần mềm thu âm .................................................................................. 15
Hình 2.5: Tổ chức các thư mục chứa dữ liệu để thử nghiêm nhận dạng lứa tuổi..... 16
Hình 2.6: Mô hình hệ thống nhận dạng .................................................................. 18
Hình 2.7: Mô hình huấn luyện (Training) .............................................................. 18
Hình 2.9: Phát hiện tiếng nói ................................................................................. 23
vi
DANH MỤC BẢNG
Bảng 2.1: Tổ chức dữ liệu để đưa vào thử nghiệm nhận dạng lứa tuổi ................... 16
Bảng 2.2: Tổng hợp số file âm thanh của từng lứa tuổi .......................................... 30
Bảng 2.3: Tổng hợp số file âm thanh của tập A ..................................................... 31
Bảng 2.4: Tổng hợp số file âm thanh của tập B ..................................................... 31
Bảng 2.5: Kết quả nhận dạng lứa tuổi với giới tính là Nam tập A .......................... 32
Bảng 2.6: Kết quả nhận dạng lứa tuổi với giới tính là Nam tập B .......................... 33
Bảng 2.7: Tỷ lệ % nhận đúng giọng nói của giới tính Nam theo lứa tuổi ............... 34
Bảng 2.8: So sánh tỷ lệ nhận dạng đúng lứa tuổi giọng Nam ở hai tập A và B ....... 36
Bảng 2.9: Kết quả nhận dạng lứa tuổi với giới tính là Nữ tập A ............................. 37
Bảng 2.10: Kết quả nhận dạng lứa tuổi với giới tính là nữ tập B ............................ 38
Bảng 2.11: Tỷ lệ % nhận đúng giọng nói của giới tính Nữ theo lứa tuổi ................ 39
Bảng 2.12: So sánh tỷ lệ nhận dạng đúng lứa tuổi giọng nữ ở hai tập A và B ........ 40
Bảng 2.13: Kết quả nhận dạng lứa tuổi kết hợp cả nam và nữ tập A ...................... 42
Bảng 2.14: Kết quả nhận dạng lứa tuổi kết hợp cả nam và nữ tập B....................... 42
Bảng 2.15: Tỷ lệ % nhận đúng giọng nói kết hợp cả nam và nữ cả 2 tập A và B .... 43
Bảng 2.16: Tỷ lệ nhận dạng đúng lứa tuổi kết hợp nam và nữ với các thành phần
Gause khác nhau.................................................................................................... 45
Bảng 2.17: Tổng hợp số file âm thanh của các lứa tuổi đưa vào nhận dạng thử
nghiệm lần 2 .......................................................................................................... 46
Bảng 2.18: Kết quả nhận dạng lứa tuổi giới tính Nam tập A-thử lần 2 ................... 48
Bảng 2.19: Kết quả nhận dạng lứa tuổi giới tính Nam tập B thử lần 2 ................... 49
Bảng 2.20: Kết quả nhận dạng lứa tuổi giới tính nữ tập A – thử lần 2 .................... 50
Bảng 2.21: Kết quả nhận dạng lứa tuổi giới tính nữ tập B – lần thử 2 .................... 51
Bảng 2.22: Kết quả nhận dạng lứa tuổi kết hợp cả nam và nữ tập A ...................... 52
Bảng 2.23: Kết quả nhận dạng lứa tuổi kết hợp cả nam và nữ tập B....................... 53
Bảng 2.24: Tổng hợp tỷ lệ % nhận dạng lứa tuổi theo giới tính ............................. 54
vii
DANH MỤC BIỂU ĐỒ
Biểu đồ 2.1: Kết quả nhận dạng lứa tuổi với giới tính là Nam tập A ...................... 32
Biểu đồ 2.2: Kết quả nhận dạng lứa tuổi với giới tính là Nam tập B ...................... 34
Biểu đồ 2.3: So sánh tỷ lệ % nhận dạng đúng lứa tuổi của tệp A giới tính Nam ..... 35
Biểu đồ 2.4: So sánh tỷ lệ % nhận dạng đúng lứa tuổi của tệp B giới tính Nam ..... 35
Biểu đồ 2.5: So sánh tỷ lệ nhận dạng đúng lứa tuổi của giọng ở hai tập A và B ..... 36
Biểu đồ 2.6:Kết quả nhận dạng lứa tuổi với giới tính là nữ tập A........................... 37
Biểu đồ 2.7: Kết quả nhận dạng lứa tuổi với giới tính là nữ tập B .......................... 38
Biểu đồ 2.8: So sánh tỷ lệ % nhận dạng đúng lứa tuổi của tệp A giới tính Nữ........ 39
Biểu đồ 2.9: So sánh tỷ lệ % nhận dạng đúng lứa tuổi của tệp B giới tính Nữ ........ 40
Biểu đồ 2.10: So sánh tỷ lệ nhận dạng đúng lứa tuổi của giọng nữ ở tập A và B .... 41
Biểu đồ 2.11: Kết quả nhận dạng lứa tuổi kết hợp cả nam và nữ tập A .................. 42
Biểu đồ 2.12: Kết quả nhận dạng lứa tuổi kết hợp cả nam và nữ tập B................... 43
Biểu đồ 2.13: So sánh tỷ lệ % nhận dạng đúng nam nữ tệp A ................................ 44
Biểu đồ 2.14: So sánh tỷ lệ % nhận dạng đúng nam nữ của tệp B .......................... 44
Biểu đồ 2.15: So sánh tỷ lệ nhận dạng đúng lứa tuổi của giọng Nam và Nữ .......... 45
Biểu đồ 2.16: Kết quả nhận dạng với giới tính nam tập A-thử lần 2 ....................... 49
Biểu đồ 2.17: Kết quả nhận dạng giọng nam tập B-thử lần 2 ................................. 50
Biểu đồ 2.18: Kết quả nhận dạng giọng nữ tập A-thử lần 2.................................... 51
Biểu đồ 2.19: Kết quả nhận dạng giọng nữ tập B-thử lần 2 .................................... 52
Biểu đồ 2.20: Kết quả nhận dạng kết hợp nam và nữ tậpA-thử lần 2...................... 53
Biểu đồ 2.21: Kết quả nhận dạng kết hợp nam và nữ tập B-thử lần 2 ..................... 54
Biểu đồ 2.22: So sánh kết quả nhận dạng từng lứa tuổi theo giới tính .................... 55
viii
MỞ ĐẦU
1. Lý do chọn đề tài
Tiếng Việt là ngôn ngữ của người Việt, là phương tiện giao tiếp chung được sử
dụng rộng rãi trên toàn quốc. Song mỗi địa phương khác nhau, mỗi lứa tuổi khác
nhau, tiếng Việt lại mang những nét riêng biệt vô cùng phong phú, đa dạng. Theo
quy ước của các nhà ngôn ngữ học hiện nay có thể chia đối tượng nói ngôn ngữ
Việt thành 4 nhóm lứa tuổi: thiếu niên, thanh niên, trung niên, người già. Khi âm
thanh của người nói được phát ra, con người dễ dàng nghe được hay cảm nhận được
các thông tin: giới tính, lứa tuổi, cảm xúc…? Từ những điều này, lần lượt ra đời các
ứng dụng thuộc về lĩnh vực nhận dạng tự động lứa tuổi của người qua giọng nói.
Như ứng dụng trong các chương trình, trò chơi giải trí, trong điều tra…
Trên thế giới đã có rất nhiều hệ thống nhận dạng lứa tuổi của người nói (như
lứa tuổi người nói tiếng Anh, tiếng Pháp) đã và đang được ứng dụng rất hiệu quả.
Nhưng trong vấn đề nhận dạng lứa tuổi của người nói tiếng Việt thì còn rất nhiều
hạn chế. Ở Việt Nam trên cơ sở tiếp thu được các thành tựu khoa học công nghệ
trên thế giới, việc đi sâu nghiên cứu các đặc trưng của lứa tuổi người nói tiếng Việt,
khai thác ứng dụng các đặc trưng đó vào hệ thống nhận dạng lứa tuổi người nói
đang là vấn đề cần thiết nhằm tiến tới xây dựng các ứng dụng phù hợp với đặc trưng
ngôn ngữ tiếng Việt của từng lứa tuổi người nói, đáp ứng các nhu cầu ứng dụng
ngày càng cao của xã hội.
Với mục đích tìm hiểu và góp phần phát triển chương trình nhận dạng người nói
tiếng Việt, tác giả đã thực hiện đề tài “ Nhận dạng tự động lứa tuổi của tiếng Việt
nói”.
Mục đích, phạm vi nghiên cứu
Mục đích của đề tài: “Nhận dạng tự động lứa tuổi của tiếng Việt nói” là
- Nghiên cứu cơ sở lý thuyết về giọng nói của từng lứa tuổi.
- Nghiên cứu mô hình GMM và bộ công cụ ALIZE, gói thư viện LIA-RAL để
nhận dạng lứa tuổi người nói tiếng Việt.
1
- Xây dựng hệ thống thử nghiệm nhận dạng tự động lứa tuổi của người nói tiếng
Việt sử dụng công cụ ALIZE.
2. Đối tƣợng nghiên cứu
- Nghiên cứu tổng quan về nhận dạng tự động lứa tuổi của người nói.
- Nghiên cứu về mô hình hỗn hợp GMM.
- Nghiên cứu: Công cụ ALIZE, ngôn ngữ Python.
3. Phƣơng pháp nghiên cứu
- Nghiên cứu lý thuyết về nhận dạng tự động lứa tuổi của người nói tiếng Việt.
- Nghiên cứu sử dụng bộ công cụ ALIZE trên môi trường CentOS trong nhận dạng
người nói.
- Thu âm các câu nói tiếng Việt theo từng lứa tuổi và thử nghiệm nhận dạng.
4. Nhiệm vụ nghiên cứu
- Tìm hiểu khái quát về nhận dạng người nói theo từng lứa tuổi và đặc điểm của
tiếng Việt nói theo lứa tuổi.
- Tìm hiểu mô hình GMM.
- Tìm hiểu về hoạt động của ALIZE, ngôn ngữ lập trình Python…
Nội dung luận văn được trình bày trong 56 trang và được chia thành 3 chương:
- Chương 1: Cơ sở lý thuyết.
- Chương 2: Chương này sẽ trình bày chi tiết về các bước tạo cơ sở dữ liệu tiếng
nói của từng lứa tuổi được sử dụng để thử nghiệm và xây dựng hệ thống nhận
dạng lứa tuổi của người nói sử dụng công cụ ALIZE.
- Chương 3: Trình bày kết luận và một số hướng phát triển tiếp theo của đề tài.
2
CHƢƠNG 1. CƠ SỞ LÝ THUYẾT
Nội dung chủ yếu của chương là trên cơ sở phân tích giọng nói của từng lứa
tuổi để đưa ra luận cứ về nhận dạng lứa tuổi của tiếng Việt nói. Tìm hiểu các
phương pháp nhận dạng lứa tuổi các ngôn ngữ của các nhà nghiên cứu. Từ đó tác
giả đưa ra các luận điểm cơ bản và nghiên cứu phương pháp thử nghiệm nhận dạng
lứa tuổi của tiếng Việt nói.
1.1. Tổng quan về nhận dạng lứa tuổi của tiếng Việt nói
1.1.1. Cơ sở khoa học về nhận dạng lứa tuổi của tiếng Việt nói:
Giọng nói được tạo ra nhờ sự phối hợp của nhiều cơ quan như: não, phổi, thanh
quản mà đặc biệt là 2 dây thanh âm, thanh quản đóng vai trò rất quan trọng trong
việc hình thành lời nói. Lời nói được tạo ra khi có luồng không khí từ phổi đi lên;
sự rung động của dây thanh tác động lên cột không khí này, tạo nên âm thanh. Khi
phát âm, dây thanh đóng kín, hình dạng dây thanh có thể biến đổi lúc dày, lúc
mỏng, khi căng ít, khi căng nhiều, tùy theo nhu cầu phát âm. Mỗi giai đoạn, mỗi lứa
tuổi lại có cách nói và phát âm khác nhau.
Khi mới sinh, kích thước thanh quản của trẻ em chỉ bằng 1/3 thanh quản người
lớn. Trong suốt thời kỳ thiếu niên, giọng của thanh quản xuống thấp rất chậm, từ từ
theo sự phát triển của thanh quản.
Trước tuổi dậy thì, giữa bé trai và bé gái có sự khác nhau về giọng nói nhưng
rất kín đáo, chủ yếu là khác ở cường độ và âm sắc. Ở tuổi dậy thì, tác động của
những yếu tố nội tiết làm cho giọng nói biến đổi đột ngột. Ở trẻ vị thành niên nam,
sự thay đổi giọng thường xuất hiện ở 12-14 tuổi, cùng lúc với sự phát triển nhanh
của cơ thể và kéo dài từ 6 tháng đến một năm. Do kích thước thanh quản lớn lên và
dây thanh dài thêm khoảng 1 cm nên giọng nói trẻ lúc trầm lúc bổng, đôi khi không
kiểm soát được. Tham gia vào quá trình phát âm tạo nên giọng nói mang âm sắc
thanh, trầm... có các bộ phận như: vòm họng; hầu, lưỡi, răng; dây thanh âm; môi;
yếu tố di truyền; thần kinh điều khiển; địa dư; nội tiết (hocmon). Đặc biệt ở tuổi dậy
thì (quãng thời gian thay đổi từ một cậu bé thành một người đàn ông), mức hocmon
3
sinh dục nam sẽ tăng lên mạnh mẽ và khiến cho thanh quản phát triển và thay đổi
hình dạng, giọng nói cũng có sự thay đổi. Khu vực tạo giọng nói được diễn tả như
một dụng cụ âm nhạc với 2 dây thanh âm kéo căng dọc và có tính co giãn đàn hồi.
Khi không khí từ phổi đi qua vùng này, các dây thanh rung lên phát ra âm của giọng
nói. Dây thanh trở nên to hơn và dày hơn và vì thế nó rung lên từ từ ở tần số thấp
hơn khi không khí đi qua chúng. Tần số thấp hơn đem lại cho giọng nói trầm hơn
(ồm ồm). Tuy nhiên, sự thay đổi chỉ qua có vài tuần hoặc vài tháng. Và trong giai
đoạn này thường xen kẽ giữa âm cao (thanh) và trầm (ồm). Sang đến tuổi 20, giọng
trầm sẽ mât dần đi người trưởng thành.
Giọng nói của các bạn gái cũng có những thay đổi ở tuổi dậy thì. Giọng nói
nghe rõ cả tiếng thở và khàn khàn. Có thể sâu hơn bởi đôi dây âm. Đây là thời gian
các bạn gái gặp khó khăn khi hát ở chính xác cao độ. Khi bước vào tuổi trưởng
thành, cách phân biệt nam nữ dễ nhất là nhìn cổ bởi nam giới có “cục” yết hầu nổi
rõ trong khi nữ giới thì không.
Ở thời kỳ mãn kinh, làm giọng nữ sâu sắc hơn, tần số âm tối đa giảm, và âm
vực mở rộng, đạt cao độ thấp hơn. Đó là một trong những lý do tại sao tuổi có thể
được xác định từ mẫu giọng nói là kết quả của những ảnh hưởng nội tiết tố.
Tóm lại thanh niên khi nói thường nhanh, giọng trong đến tuổi trung niên tần
suất nói giảm chất giọng trầm hơn. Đến tuổi người già tần suất nói giảm hẳn.
Trên cơ sở phân tích giọng nói của từng lứa tuổi trên. Ta có thể thấy nhận dạng
tự động lứa tuổi của tiếng Việt nói là một quá trình nhận biết phức tạp, bao gồm
nhiều bước biến đổi.
4
1.1.2. Nguyên lý làm việc hệ thống nhận dạng lứa tuổi của ngôn ngữ nói
Mô hình lứa
tuổi người nói
Huấn luyện
Vector đặc
Âm thanh trưng
đầu vào 1.Trích chọn đặc 2.Nhận dạng, so
Mô hình
trưng sánh sự tương
thống kê
đồng
Đầu ra
Quyết định nhận
dạng thuộc
nhóm tuổi
Hình 1.1 Mô hình tổng quát hệ thống nhận dạng lứa tuổi của ngôn ngữ nói
Một hệ thống nhận dạng lứa tuổi nói chung bao gồm hai phần: phần huấn
luyện (training phase) và phần nhận dạng (recognition phase) như trong hình1.1.
“Huấn luyện là quá trình hệ thống “học” những mẫu chuẩn được cung cấp bởi
những âm thanh của từng lứa tuổi khác nhau (từ hoặc âm), để từ đó hình thành kho
dữ liệu của hệ thống. “Nhận dạng” là quá trình quyết định xem âm thanh đó thuộc
nhóm tuổi nào trong kho dữ liệu đã được huấn luyện.
Cụ thể tín hiệu âm thanh được đưa vào, qua quá trình trích chọn đặc trưng, kết
quả thu được là tập các đặc trưng âm học được tạo dựng thành một vector. Trong
quá trình huấn luyện hệ thống các vector đặc trưng được đưa vào hệ thống để ước
lượng các tham số của mô hình thống kê. Mô hình thống kê là một sự tổng hợp của
tất cả các đặc trưng tương ứng với từng lứa tuổi được rút trích từ nguồn đầu vào.
Những biểu diễn này thường là bộ phận của một cơ sở dữ liệu âm thanh đã được thu
thập trước. Trong quá trình nhận dạng, dãy các vector đặc trưng được đem so sánh
5
với mô hình thống kê đặc trưng. Sau đó, hệ thống tính toán tương đồng, mô hình có
độ tương đồng cao nhất được cho là kết quả của quá trình nhận dạng.
1.1.3. Mô hình hệ thống nhận dạng lứa tuổi của tiếng Việt nói
Con người sống trong xã hội, sống theo cộng đồng nên muốn giao tiếp được với
nhau thì người ta phải có mã do cộng đồng quy định sử dụng. Dẫu người ta có thể
khác nhau đặc điểm tâm lí, sinh lí, trình độ học vấn, địa phương cư trú nhưng muốn
để giao tiếp được, truyền được thông điệp, yêu cầu của mình tới người khác thì mã
âm thanh sử dụng phải có tính xã hội hoá. Âm thanh người nói là liện tục và các âm
quyện nối vào nhau, mỗi người mỗi giọng .
Một hệ thống nhận dạng lứa tuổi người nói ở nước ta phải được xây dựng trên các
đặc trưng, đặc điểm của lứa tuổi nói tiếng Việt.
Trích chọn Các vector Dò tìm năng Chuẩn hóa
Âm thanh đặc trung đặc trưng lượng đặc trưng
đầu vào
train
Test
Mô hình nền Mô hình GMM
Kiểm tra, so Kết quả
sánh
Hình 1.2: Mô hình nhận dạng lứa tuổi sử dụng công cụ Alize
Ở mô hình 1.2: tín hiệu âm thanh người nói đầu tiên được đưa vào trích chọn
đặc trưng. Kết quả thu được sau quá trình này là tập các đặc trưng âm học, được tạo
thành một hay nhiều vector được gọi là vector đặc trưng. Để có thể thực hiện việc
so sánh, trước hết hệ thống phải được huấn luyện và xây dựng các đặc trưng đưa
vào để ước lượng, tính toán các tham số cho các mẫu (được gọi mẫu tham khảo).
Một mẫu tham khảo chính là các bản mẫu dùng để so sánh và nhận dạng. Trong quá
6
trình nhận dạng dãy các vecctor đặc trưng được đem so sánh với các mẫu tham
khảo. Sau đó hệ thống tính toán độ tương đồng của dãy vector đặc trưng và mẫu
tham khảo. Việc tính toán độ tương đồng được thực hiện bằng cách áp dụng các
thuật toán đã được chứng minh hiệu quả như thuật toán EM (trong GMM). Mẫu có
độ tương đồng cao nhất được cho là kết quả của quá trình nhận dạng.
* Mô hình GMM (Gaussian Mixture Model)
Mô hình hợp Gauss (Gaussian Mixture Model - GMM) là một dạng mô hình thống
kê được xây dựng từ việc huấn luyện các tham số thông qua dữ liệu học. Mô hình
GMM còn có một số tên gọi khác như Weighted Normal Distribution Sums hay
Radial Basis Function Approximations…
Hình 1.3: Hàm mật độ Gauss
`
1 ( x )2
p ( x) exp ( 1.1)
2 2 2
trong đó, μ là giá trị trung bình, σ là độ lệch chuẩn. Trong trường hợp x là vector
gồm D thành phần, hàm mật độ xác suất của phân phối Gauss fN(x, μ, Σ) được cho
bởi công thức:
1 1
p ( x) exp ( x )' 1 ( x )
(2 ) D /2
||1/2
2
7
khi đó, μ là vector trung bình, Σ là ma trận hiệp phương sai. Nếu chọn μ=0 và σ=1,
công thức (1.1) sẽ trở thành hàm mật độ chuẩn Gauss:
1 x2
p ( x) exp
(2 ) 2
Từ “Gauss” được đặt theo tên của nhà toán học người Đức Carl Friedrich Gauss.
Ông đã định nghĩa hàm mật độ Gauss và áp dụng trong phân tích dữ liệu thiên văn.
Hình 1.4: Mô hình GMM
Cho trước M phân phối Gauss p1, p2, …, pM, hàm mật độ xác suất của mô hình
GMM được minh họa trong Hình 2.2 chính là tổng trọng của M phân phối Gauss
theo công thức:
M
PGMM ( x ) wi pi ( x )
i 1
trong đó, wi là trọng số của phân phối Gauss thứ i, thỏa ràng buộc 0≤ wi ≤1 và
Các trọng số này thể hiện mức độ ảnh hưởng của mỗi phân phối
Gaussđối với mô hình GMM. Như vậy, phân phối Gauss có phương sai và trọng số
lớn bao nhiêu thì có mức độ ảnh hưởng lớn bấy nhiêu đối với kết xuất của mô hình.
Hình 2.3 cho thấy mức độ ảnh hưởng của từng phân phối Gauss lên GMM.
8
Hình 1.5: Hàm mật độ của GMM có 3 phân phối Gauss
số λ = { wi, μi, Σi }, i ∈ [1, M]. Trong hướng tiếp cận GMM giải quyết bài toàn định
danh người nói, mỗi người nói sẽ được mô hình hóa bằng một mô hình GMM mà
bộ tham số λ của nó sẽ được xác định thông qua việc huấn luyện trên tập mẫu học
của người nói tương ứng.
Tùy thuộc vào cách tổ chức của ma trận hiệp phương sai (Covariance Matrix),
GMM có thể có một số biến thể khác nhau:
- Nodal covariance matrices GMM: mỗi phân phối Gauss trong GMM có một
ma trận hiệp phương sai riêng.
- Grand Covariance Matrix GMM: mọi phân phối Gauss trong một GMM dùng
chung một ma trận hiệp phương sai.
- Global Covariance Matrix GMM: mọi phân phối Gauss trong tất cả các GMM
dùng chung một ma trận hiệp phương sai.
Ngoài ra, xét về dạng thức, ma trận hiệp phương sai gồm hai loại: Full (dạng đầy
đủ) và Diagonal (dạng ma trận đường chéo). Thông thường, dạng Nodal-Diagonal
Covariance Matrices GMM được sử dụng phổ biến nhất.
1.2. Các công cụ sử dụng trong đề tài
1.2.1. Máy ảo Vmware Workstation v9.0
Máy ảo là phần mềm tạo máy ảo cho các hệ thống máy tính. Một máy ảo là
một chương trình đóng vai trò như một máy vi tính ảo. Nó chạy trên hệ điều hành
hiện tại - hệ điều hành chủ và cung cấp phần cứng ảo tới hệ điều hành khách. Các
hệ điều hành khách chạy trên các cửa sổ của hệ điều hành chủ, giống như bất kỳ
chương trình nào khác của máy. Các máy ảo cung cấp phần cứng ảo, bao gồm CPU
9
ảo, RAM ảo, ổ đĩa cứng, giao diện mạng và những thiết bị khác. Các thiết bị phần
cứng ảo được cung cấp bởi máy ảo và được ánh xạ tới phần cứng thực trên máy
thật. Ví dụ như, ổ đĩa cứng ảo lại được lưu trong một file đặt trên ổ đĩa cứng thực.
Có thể đăng ký và tải miễn phí Vmware Workstation 9.0 ở trang
http://my.vmware.com/web/vmware/into/slug/destop_end_user_computing/vmware
_workstation/9_0.
Hình 1.6: Máy ảo
1.2.2. Hệ điều hành Linux-CentOS
CentOS viết tắt từ cụm từ (Community Enterprise Operating System) một hệ
điều hành của doanh nghiệp cộng đồng Linux, là một hệ thống được phát triển dựa
trên các gói phần mềm của bản RedHat (Red Hat Enterprise Linux system -RHEL),
nhằm đưa các mã nguồn RedHat gốc để biên dịch phát triển tập trung vào phần
mềm mã nguồn mở. Các nhà quản trị mạng đều hay sử dụng CentOS là hệ điều
hành chính để cung cấp Hosting cho khách hàng, bởi các tính năng ổn định và mạnh
mẽ của CentOS mang lại.
10
Hình 1.7: Hệ điều hành Centos
1.2.3. Bộ công cụ ALIZE
Alize là một phần mềm mã nguồn mở có nguồn gốc từ Pháp được sử dụng cho
hệ thống nhận dạng tự động người qua giọng nói. Alize chứa các giải thuật giúp
nhận dạng một người bằng giọng nói của chính họ. Gói Lia-ral được xây dựng trên
thư viện Alize, dùng để ước tính các công việc bên trong Alize. Hai công cụ này
không thể tách rời nhau.
Đây là phần mềm miễn phí, có thể download tại địa chỉ: http://mistral.univ-
avignon.fr/download_en.html. Với 2 gói: ALIZE 3.0 và LIA-RAL 3.0.
Trong luận văn này, tác giả thử nghiệm ALIZE trong môi trường Linux trên
máy ảo Vmware Workstation v9.0.0 và hệ điều hành sử dụng là CentOS6.3.
1.2.4. Ngôn ngữ lập trình Python
Python là một ngôn ngữ lập trình hướng đối tượng ở mức độ cao với cấu trúc gần
gũi, ngôn ngữ tự nhiên do Guido van Rossum tạo ra năm 1990. Và được phát triển
11