Nhận dạng giới tính, cảm xúc của người nói và ứng dụng cho tiếng việt

  • 108 trang
  • file .pdf
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------
Phạm Thị Nhung
NHẬN DẠNG GIỚI TÍNH, CẢM XÚC CỦA NGƯỜI NÓI
VÀ ỨNG DỤNG CHO TIẾNG VIỆT
Chuyên ngành: Công nghệ Thông tin
LUẬN VĂN THẠC SĨ KỸ THUẬT
CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. Nguyễn Hồng Quang
Hà Nội – Năm 2014
LỜI CAM ĐOAN
Tôi – Phạm Thị Nhung, học viên lớp cao học 12BCNTT2 Trường Đại học Bách
khoa Hà Nội cam kết: Luận văn tốt nghiệp là công trình nghiên cứu của bản thân tôi
dưới sự hướng dẫn của TS. Nguyễn Hồng Quang – Viện công nghệ Thông tin và
Truyền thông- Đại học Bách khoa Hà Nội. Các kết quả trong luận văn tốt nghiệp là
trung thực, không sao chép toàn văn của bất kỳ công trình nào khác.
Hà Nội, ngày 19 tháng 09 năm 2014
Học viên: Phạm Thị Nhung
Lớp: 12BCNTT2
i
LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn sâu sắc tới Thầy giáo, TS. Nguyễn Hồng Quang –
Bộ môn Kỹ thuật Máy tính – Viện Công nghệ Thông tin và Truyền thông – Đại học
Bách Khoa Hà Nội, người thầy đã hết lòng giúp đỡ, dạy bảo, động viên và tạo mọi
điều kiện thuận lợi cho tôi trong suốt quá trình học tập và hoàn thành luận văn tốt
nghiệp.
Tôi xin chân thành cảm ơn tập thể các thầy, cô giáo trường Đại học Bách khoa
Hà Nội nói chung và Viện Công nghệ Thông tin và Truyền thông nói riêng đã tận
tình giảng dạy truyền đạt cho tôi những kiến thức, kinh nghiệm quý báu trong suốt
thời gian học tập tại trường.
Cuối cùng tôi xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp đã luôn
ủng hộ và động viên tôi trong những lúc khó khăn nhất.
ii
MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................i
LỜI CẢM ƠN ............................................................................................................ ii
MỤC LỤC................................................................................................................. iii
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ ............................................vi
DANH MỤC CÁC BẢNG ...................................................................................... viii
DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ ............................................................... x
PHẦN MỞ ĐẦU ......................................................................................................... 1
Lý do chọn đề tài..................................................................................................... 1
Mục đích, phạm vi nghiên cứu ................................................................................ 2
Đối tượng nghiên cứu.............................................................................................. 3
Phương pháp nghiên cứu ......................................................................................... 3
Nhiệm vụ nghiên cứu .............................................................................................. 3
Đóng góp mới của luận văn ..................................................................................... 4
CHƢƠNG 1: TỔNG QUAN ...................................................................................... 5
1.1. Tổng quan về nhận dạng giới tính, cảm xúc người nói ...................................... 5
1.1.1. Giới thiệu chung ............................................................................................ 5
1.1.2. Ứng dụng nhận dạng cảm xúc của người nói ................................................. 6
1.1.3. Phương pháp nhận dạng giới tính, cảm xúc của người nói ............................. 7
1.1.4. Cơ sở dữ liệu cho nhận dạng cảm xúc.......................................................... 10
1.2. Các giai đoạn xử lý của một hệ thống nhận dạng giới tính, cảm xúc người
nói ......................................................................................................................... 10
1.3. Các thành phần của hệ thống nhận dạng giới tính, cảm xúc người nói ............ 12
1.4. Tìm hiểu về các kết quả nhận dạng giới tính, cảm xúc người nói đã có trên
thế giới .................................................................................................................. 13
1.4.1. Phát hiện các cảm xúc theo thời gian thực tại tổng đài điện thoại [5] ........... 13
1.4.2. Hệ thống nhận dạng cảm xúc phụ thuộc và độc lập giới tính với tiếng
Telugu sử dụng mô hình hỗn hợp Gaussian [4] ..................................................... 15
1.4.3. Cải thiện tự động nhận dạng cảm xúc từ tín hiệu tiếng nói [1] ..................... 17
1.5. Tìm hiểu về các kết quả nhận dạng cảm xúc tại Việt Nam .............................. 18
iii
1.5.1. Robot biết an ủi con người [16] ................................................................... 18
1.5.2. Nhận dạng cảm xúc qua điện não (EEG) theo thời gian thực sử dụng mô
hình máy vector hỗ trợ (SVM- Support Vector Machine) [9] ................................ 18
1.6. Mục tiêu cần phải thực hiện của đề tài ............................................................ 19
CHƢƠNG 2: PHƢƠNG PHÁP THỰC HIỆN VÀ CÔNG CỤ SỬ DỤNG ............ 20
2.1. Phương pháp thực hiện đề tài ......................................................................... 20
2.2. Trích chọn đặc trưng MFCC ........................................................................... 21
2.3. Mô hình GMM sử dụng trong nhận dạng giới tính, cảm xúc của người nói .... 23
2.4. Bộ công cụ ALIZE và LIA-RAL .................................................................. 25
2.5. Bộ công cụ SPro ............................................................................................. 26
2.6. Ngôn ngữ lập trình Python ............................................................................. 26
2.7. Sử dụng các bộ công cụ và ngôn ngữ lập trình cho các bước của bài toán
nhận dạng giới tính, cảm xúc của người nói .......................................................... 27
2.7.1.1. Trích chọn và chuẩn hóa đặc trưng ........................................................... 28
2.7.1.2. Huấn luyện mô hình ................................................................................. 33
2.7.1.3. Nhận dạng ................................................................................................ 38
CHƢƠNG 3: XÂY DỰNG HỆ THỐNG THỬ NGHIỆM NHẬN DẠNG GIỚI
TÍNH, CẢM XÚC NGƢỜI NÓI VÀ ỨNG DỤNG CHO TIẾNG VIỆT................ 41
3.1. Tổng quan quá trình xây dựng hệ thống thử nghiệm nhận dạng giới tính,
cảm xúc người nói ................................................................................................. 41
3.2. Cơ sở dữ liệu cảm xúc cho thử nghiệm hệ thống nhận dạng ........................... 43
3.2.1. CSDL tiếng Đức - EMO-DB ....................................................................... 43
3.2.2. CSDL tiếng Việt VEMO-DB ...................................................................... 44
3.3. Các thử nghiệm nhận dạng giới tính, cảm xúc của người nói .......................... 45
3.3.1. Thử nghiệm với CSDL EMO-DB ................................................................ 46
3.3.1.1. Thử nghiệm nhận dạng giới tính ............................................................... 46
3.3.1.2. Thử nghiệm nhận dạng cảm xúc ............................................................... 47
3.3.2. Thử nghiệm với CSDL VEMO-DB ............................................................ 50
3.3.2.1. Thử nghiệm nhận dạng giới tính ............................................................... 50
3.3.2.2. Thử nghiệm nhận dạng cảm xúc ............................................................... 51
CHƢƠNG 4: KẾT QUẢ THỬ NGHIỆM, KẾT LUẬN VÀ HƢỚNG PHÁT
TRIỂN ....................................................................................................................... 54
4.1. Phân tích, đánh giá các kết quả thử nghiệm .................................................... 54
iv
4.1.1. Kết quả thử nghiệm trên CSDL EMO-DB ................................................... 54
4.1.1.1. Kết quả thử nghiệm nhận dạng giới tính ................................................... 54
4.1.1.2. Thử nghiệm nhận dạng cảm xúc ............................................................... 56
4.1.2. Kết quả thử nghiệm trên CSDL VEMO-DB ................................................ 63
4.1.2.1. Thử nghiệm nhận dạng giới tính ............................................................... 63
4.1.2.2. Thử nghiệm nhận dạng cảm xúc ............................................................... 64
4.2. Kết luận.......................................................................................................... 71
4.3. Hướng phát triển của đề tài............................................................................. 72
TÀI LIỆU THAM KHẢO ........................................................................................ 73
PHỤ LỤC .................................................................................................................. 75
v
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ
Danh mục các chữ viết tắt tiếng anh
Chữ viết tắt Chữ viết đầy đủ tiếng anh Tiếng Việt
GMM Gaussian Mixture Model Mô hình hỗn hợp Gauss
MFCC Mel- Frequency Cepstral Hệ số Cepstral theo thang đo
Coeficients tần số Mel
HMM Hidden Markov Models Mô hình Markov ẩn
EM Expectation Maximization Thuật toán cực đại hóa kỳ
vọng
SVM Support Vector Machines Máy Vector hỗ trợ
EEG Electroencephalography Điện não
HFD Higuchi Fractal Dimension
DFT Discrete Fourier Transform Biến đổi Fourier rời rạc
FFT Fast Fourier Transform Biến đổi Fourier nhanh
VQ Vector Quantization Lượng tử hóa vector
LPC Linear Predictive Coding Mã hóa dự đoán tuyến tính
LSF Line Spectral Frequency
ANN Artificial Neural Network Mạng Neuron nhân tạo
LMT Logistic Model Tree Mô hình cây phân loại
UML Unified Modeling Language Ngôn ngữ mô hình hóa thống
nhất
DCT Discrete Cousine Transform Biến đổi Cousine rời rạc
G Gender Giới tính
E Emotion Cảm xúc
EGM Emotion Gender Male
EGF Emotion Gender Female
EMF Emotion Male Female
vi
EFM Emotion Female Male
EMO-DB Emotion Data Base Cơ sở dữ liệu tiếng Đức
VEMO-DB Vietnamese Emotion Data Base Cơ sở dữ lệu tiếng Việt
Danh mục các chữ viết tắt tiếng Việt
Chữ viết tắt Chữ viết đầy đủ tiếng anh
CSDL Cơ sở dữ liệu
TB Trung bình
vii
DANH MỤC CÁC BẢNG
Bảng 1.1: Đặc điểm của cơ sở dữ liệu
Bảng 1.2: Kết quả nhận dạng (%) theo số đặc trưng được lựa chọn
Bảng 1.3: Kết quả thử nghiệm (tỷ lệ %)
Bảng 3.1: Bảng tổng hợp CSDL EMO-DB
Bảng 3.2: Bảng tổng hợp CSDL VEMO-DB
Bảng 3.3: Bảng tổng hợp các thử nghiệm nhận dạng giới tính
Bảng 3.4: Bảng tổng hợp các thử nghiệm nhận dạng cảm xúc
Bảng 3.5: Bảng tổng hợp các thử nhận dạng cảm xúc khi có nhận dạng giới tính.
Bảng 3.6: Bảng tổng hợp các thử nhận dạng cảm xúc khi có nhận dạng giới tính và
có sự nhầm lẫn.
Bảng 3.7: Bảng tổng hợp các thử nghiệm nhận dạng giới tính
Bảng 3.8: Bảng tổng hợp các thử nghiệm nhận dạng cảm xúc
Bảng 3.9: Bảng tổng hợp các thử nhận dạng cảm xúc khi có nhận dạng giới tính.
Bảng 3.10: Bảng tổng hợp các thử nhận dạng cảm xúc khi có nhận dạng giới tính và
có sự nhầm lẫn
Bảng 4.1: Tổng hợp tỷ lệ (%) của các thử nghiệm nhận dạng giới tính
Bảng 4.2: Ma trận nhầm lẫn của thử nghiệm E01_DI theo tiêu chí 1
Bảng 4.3: Tỷ lệ (%) nhận dạng cảm xúc của các thử nghiệm nhận dạng cảm xúc
trên trên CSDL huấn luyện cảm xúc cả giọng nam và giọng nữ.
Bảng 4.4: Tỷ lệ (%) nhận dạng cảm xúc của các thử nghiệm nhận dạng cảm xúc
trên CSDL cảm xúc huấn luyện của giọng nam
Bảng 4.5: Tỷ lệ (%) nhận dạng cảm xúc của các thử nghiệm nhận dạng cảm xúc
trên CSDL cảm xúc huấn luyện của giọng nữ
Bảng 4.6: Bảng tổng hợp tỷ lệ (%) nhận dạng cảm xúc của 3 thử nghiệm
Bảng 4.7: Tổng hợp tỷ lệ (%) của các thử nghiệm nhận dạng giới tính
Bảng 4.8: Ma trận nhầm lẫn của thử nghiệm E01_DI theo tiêu chí 1
viii
Bảng 4.9: Tỷ lệ (%) nhận dạng cảm xúc của các thử nghiệm nhận dạng cảm xúc
trên CSDL cảm xúc huấn luyện của gọng nam và giọng nữ
Bảng 4.10: Tỷ lệ (%) nhận dạng cảm xúc của các thử nghiệm nhận dạng cảm xúc
trên CSDL cảm xúc huấn luyện của gọng nam
Bảng 4.11: Tỷ lệ (%) nhận dạng cảm xúc của các thử nghiệm nhận dạng cảm xúc
trên CSDL cảm xúc huấn luyện của gọng nữ
Bảng 4.12: Bảng tổng hợp tỷ lệ (%) nhận dạng cảm xúc của 3 thử nghiệm
ix
DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ
Hình 1.1: Sơ đồ khối hệ thống nhận dạng giới tính của người nói theo phương
pháp mẫu
Hình 1.2: Sơ đồ khối hệ thống nhận dạng cảm xúc của người nói theo phương
pháp mẫu
Hình 1.3: Các thành phần hệ thống nhận dạng giới tính của người nói
Hình 1.4: Các thành phần hệ thống nhận dạng cảm xúc của người nói
Hình 1.5: Sơ đồ khối hệ thống nhận dạng cảm xúc
Hình 1.6: Mô hình GMM với 4 cảm xúc
Hình 2.1: Các bước trích chọn đặc trưng MFCC
Hình 2.2: Minh họa một đoạn tín hiệu tiếng nói trước và sau khi lọc hiệu chỉnh
Hình 2.3: Hình 2.3: Hàm mật độ Gauss
Hình 2.4: Mô hình GMM
Hình 2.5: Sơ đồ khối các bước thực hiện nhận dạng giới tính, cảm xúc của người
nói sử dụng ALIZE
Hình 2.6 Mô tả các bước và công cụ liên kết tại các bước thực hiện trích chọn và
chuẩn hóa đặc trưng
Hình 2.7: Sơ đồ trích chọn đặc trưng MFCC
Hình 2.8: Sơ đồ bước dò năng lượng
Hình 2.9: Sơ đồ bước loại bỏ khoảng lặng
Hình 2.10: Sơ đồ bước chuẩn hóa đặc trưng
Hình 2.11: Sơ đồ các bước và công cụ liên kết để thực hiện huấn luyện mô hình
Hình 2.12: Sơ đồ bước huấn luyện mô hình nền - TrainWorldInit
Hình 2.13: Sơ đồ bước huấn luyện mô hình nền - TrainWorldFinal
Hình 2.14: Sơ đồ bước huấn luyện mô hình đích
Hình 2. 15: Sơ đồ các bước và công cụ liên kết để thực hiện nhận dạng
Hình 2.16: Sơ đồ bước nhận dạng
x
Hình 3.1: Sơ đồ các bước thực hiện xây dựng hệ thống dạng giới tính, nhận dạng
cảm xúc của người nói
Hình 3.2: Sơ đồ kết hợp hệ thống nhận dạng giới tính vào hệ thống nhận dạng cảm
xúc
Hình 3.3: Sơ đồ mô hình giới tính sau bước huấn luyện
Hình 3.4: Sơ đồ mô hình 7 cảm xúc sau bước huấn luyện
Hình 3.5: Sơ đồ mô hình 4 cảm xúc sau bước huấn luyện
Hình 4.1: Biểu đồ tỷ lệ nhận dạng giới tính của thử nghiệm G01_EJ với số thành
phần Gauss thay đổi
Hình 4.2: Biểu đồ tỷ lệ nhận dạng giới tính của các thử nghiệm
Hình 4.3: Biểu đồ tỷ lệ nhận dạng chung của các thử nghiệm nhận dạng cảm xúc
trên trên tập dự liệu huấn luyện cảm xúc cả giọng nam và giọng nữ
Hình 4.4: Biểu đồ tỷ lệ nhận dạng trung bình đối với 7 cảm xúc của thử nghiệm
nhận dạng cảm xúc trên trên tập dự liệu huấn luyện cảm xúc cả giọng
nam và giọng nữ
Hình 4.5: Biểu đồ tỷ lệ nhận dạng chung của các thử nghiệm cảm xúc trên CSDL
cảm xúc huấn luyện của giọng nam
Hình 4. 6: Biểu đồ tỷ lệ nhận dạng trung bình đối với 7 cảm xúc của thử nghiệm
nhận dạng cảm xúc trên CSDL cảm xúc huấn luyện của giọng nam
Hình 4.7: Biểu đồ tỷ lệ nhận dạng chung của các thử nghiệm nhận dạng cảm xúc
trên CSDL cảm xúc huấn luyện của giọng nữ
Hình 4.8: Biểu đồ tỷ lệ nhận dạng trung bình đối với 7 cảm xúc của thử nghiệm
nhận dạng cảm xúc trên CSDL cảm xúc huấn luyện của giọng nữ
Hình 4.9: Biểu đồ tỷ lệ nhận dạng trung bình đối với 7 cảm xúc của 3 thử nghiệm
Hình 4.10: Biểu đồ tỷ lệ nhận dạng trung bình của 3 thử nghiệm
Hình 4.11: Biểu đồ tỷ lệ (%) của các thử nghiệm nhận dạng giới tính
Hình 4.12: Biểu đồ tỷ lệ nhận dạng chung của các thử nghiệm nhận dạng cảm xú
trên CSDL huấn luyện của gọng nam và giọng nữ
xi
Hình 4.13: Biểu đồ tỷ lệ nhận dạng trung bình đối với 4 cảm xúc của thử nghiệm
nhận dạng cảm xú trên CSDL huấn luyện của gọng nam và giọng nữ
Hình 4.14: Biểu đồ tỷ lệ nhận dạng chung của các thử nghiệm nhận dạng cảm xúc
trên CSDL huấn luyện của gọng nam
Hình 4.15: Biểu đồ tỷ lệ nhận dạng trung bình đối với 4 cảm xúc của thử nghiệm
nhận dạng cảm xúc trên CSDL huấn luyện của gọng nam
Hình 4. 16: Biểu đồ tỷ lệ nhận dạng chung của các thử nghiệm nhận dạng cảm xúc
trên CSDL huấn luyện của gọng nữ
Hình 4.17: Biểu đồ tỷ lệ nhận dạng trung bình đối với 4 cảm xúc của thử nghiệm
nhận dạng cảm xúc trên CSDL huấn luyện của gọng nữ
Hình 4.18: Biểu đồ tỷ lệ nhận dạng trung bình 4 cảm xúc của 3 thử nghiệm
Hình 4.19 : Biểu đồ tỷ lệ nhận dạng cảm xúc trung bình của 3 thử nghiệm
Hình 4. 20: Biểu đồ so sánh kết quả các thử nghiệm trên 2 bộ CSDL cảm xúc tiếng
Đức và tiếng Việt
xii
xiii
PHẦN MỞ ĐẦU
Lý do chọn đề tài
Ngày nay, với sự phát triển vượt bậc của khoa học kỹ thuật, con người đã đạt
được rất nhiều thành tựu to lớn trong mọi lĩnh vực: sản xuất, kinh doanh, khoa học,
nghiên cứu …Khi khoa học, công nghệ và cuộc sống ngày càng phát triển con
người có nhu cầu sử dụng các dịch vụ tốt hơn, các thiết bị thông minh hơn và con
người mong muốn giao tiếp với các thiết bị đó theo cách tự nhiên và gần gũi hơn.
Đáp ứng các nhu cầu đó của con người cùng với sự phát triển của khoa học kỹ
thuật, các nhà khoa học, các Công ty lớn như: Microsoft, SGI (Nhật Bản), PSA
Peugeot Citroen (Pháp)…. đã nghiên cứu để đưa ra các phần mềm ứng dụng, các
thiết bị trong đó tiêu biểu là phần mềm, thiết bị nhận dạng cảm xúc như: phần mềm
giúp điện thoại nhận biết cảm xúc của người sử dụng, tai nghe nhận biết cảm xúc
người dùng, căn phòng thông minh với máy tỏa mùi theo cảm xúc của người trong
phòng, robot biết an ủi con người hay hệ thống nhận dạng cảm xúc của lái xe….
Để nhận dạng cảm xúc của con người chúng ta có thể nhận dạng qua tiếng nói,
cử động trên khuôn mặt, cử động của môi, nhịp tim, điện não … Tuy nhiên, nhận
dạng qua tiếng nói vẫn được chú trọng phát triển, vì tiếng nói là phương tiện tự
nhiên nhất trong giao tiếp. Tiếng nói của con người mang các thông tin: tần số,
cường độ, nhịp điệu, giai điệu, phổ .v.v. Các thông tin này không phải bất biến từ
lúc người biết nói đến lúc già, nhưng có tính ổn định trong giai đoạn dài của cuộc
đời. Khi con người đã trưởng thành, những đặc trưng khác biệt trong cấu âm sẽ hình
thành và mang tính ổn định cao. Đây chính là cơ sở khoa học cho việc xây dựng hệ
thống nhận dạng cảm xúc người nói.
Nhận dạng cảm xúc của người nói là một trong những lĩnh vực của xử lý tiếng
nói. Mục đích của nhận dạng cảm xúc là để nhận ra người nói đang ở trạng thái cảm
xúc nào: vui, buồn, Vui, tức giận, sợ hãi, bình thường…Tuy nhiên, cảm xúc của con
người rất phức tạp, mỗi người có một cách thể hiện khác nhau nên việc nhận dạng
cảm xúc gặp rất nhiều khó khăn.
1
Trong nhận dạng cảm xúc của người nói thì cảm xúc của nam và nữ thể hiện
qua tiếng nói có sự khác nhau do các thông tin trong tiếng nói của nam và nữ có sự
khác nhau như: tần số cơ bản của giọng nam là 80 Hz -200 Hz, tần số cơ bản của
giọng nữ là 150 Hz-450 Hz [10]. Do đó, khi xây dựng hệ thống nhận dạng cảm xúc
của người nói ta xem xét và kết hợp với phần nhận dạng giới tính của người nói
[3],[4].
Nhận dạng cảm xúc của người nói có nhiều nghiên cứu, ứng dụng được công
bố và được phát triển trên thế giới với các ngôn ngữ khác nhau: tiếng Anh, tiếng
Đức, Đan Mạch…. Ở Việt Nam, hướng nghiên cứu và phát triển các hệ thống nhận
dạng cảm xúc đang được phát triển mạnh, đã có một số công trình được công bố và
ứng dụng đang được thử nghiệm như: robot biết an ủi con người của TS Nguyễn
Đức Thành, khoa Điện- Điện tử, ĐH Bách Khoa TP.HCM. Tuy nhiên, các công
trình, ứng dụng được công bố sử dụng phương pháp nhận dạng cảm xúc qua cử
động trên khuôn mặt hoặc qua điện não (EEG) mà chưa có nhiều công trình nghiên
nghiên cứu về nhận dạng cảm xúc của người nói tiếng Việt.
Với những ứng dụng thiết thực và quan trọng của nhận dạng cảm xúc của
người nói, đề tài: “Nhận dạng giới tính, cảm xúc của ngƣời nói và ứng dụng cho
tiếng Việt” được lựa chọn với mục đích tìm hiểu, xây dựng và thử nghiệm hệ thống
nhận dạng giới tính, cảm xúc của người nói ứng dụng cho tiếng Việt để có thể ứng
dụng vào thực tế.
Mục đích, phạm vi nghiên cứu
- Tìm hiểu tổng quan về nhận dạng giới tính, cảm xúc người nói.
- Tìm hiểu phương pháp trích chọn đặc trưng cần thiết cho bài toán nhận dạng
giới tính, cảm xúc người nói.
- Nghiên cứu mô hình GMM và bộ công cụ ALIZE, gói thư viện LIA-RAL để
nhận dạng giới tính, cảm xúc.
- Xây dựng chương trình nhận dạng giới tính, cảm xúc người nói để thử
nghiệm với bộ dữ liệu tiếng Đức và bộ dữ liệu tiếng Việt.
2
Đối tƣợng nghiên cứu
- Nghiên cứu tổng quan về nhận dạng giới tính, cảm xúc người nói
- Nghiên cứu về mô hình hỗn hợp GMM ứng dụng để nhận dạng giới tính và
cảm xúc người nói.
- Nghiên cứu bộ công cụ ALIZE, gói thư viện LIA-RAL, ngôn ngữ lập trình
Python.
- Sử dụng bộ cơ sở dữ liệu tiếng Đức và bộ cơ sở dữ liệu tiếng Việt.
Phƣơng pháp nghiên cứu
- Nghiên cứu lý thuyết về nhận dạng giới tính, cảm xúc người nói.
- Nghiên cứu sử dụng bộ công cụ ALIZE, gói thư viện LIA-RAL, ngôn ngữ
lập trình Python trên môi trường Linux trong nhận dạng giới tính, cảm xúc người
nói.
- Thử nghiệm nhận dạng giới tính, cảm xúc người nói với bộ cơ sở dữ liệu
tiếng Đức với số lượng người nói ít (10 người), số lượng câu nói ít (10 câu) có độ
dài ngắn khác nhau.
- Thử nghiệm nhận dạng giới tính, cảm xúc người nói với bộ cơ sở dữ liệu
tiếng Việt với số lượng người nói nhiều (50 người), số lượng các câu nói (55 câu)
có độ dài ngắn khác nhau.
Nhiệm vụ nghiên cứu
- Tìm hiểu về nhận dạng giới tính, cảm xúc của người nói.
- Tìm hiểu phương pháp trích chọn các tham số đặc trưng cần thiết cho bài
toán nhận dạng giới tính, cảm xúc của người nói.
- Tìm hiểu về mô hình GMM và hoạt động của bộ công cụ ALIZE, gói thư
viện LIA-RAL, ngôn ngữ lập trình Python.
- Xây dựng hệ thống thử nhận dạng giới tính, hệ thống thử nghiệm nhận dạng
cảm xúc, kết hợp hệ thống nhận dạng giới tính vào hệ thống nhận dạng cảm xúc.
- Thử nghiệm hệ thống với 2 cơ sở dữ liệu khác nhau về ngôn ngữ: cơ sở dữ
liệu tiếng Đức, cơ sở dữ liệu tiếng Việt. Trên cơ sở kết quả thử nghiệm phân tích
đánh giá hệ thống.
3
Đóng góp mới của luận văn
Trên cơ sở nghiên cứu lý thuyết và thử nghiệm luận văn đã có những đóng
góp mới về phương pháp kết hợp hệ thống nhận dạng giới tính vào hệ thống nhận
dạng cảm xúc và đã thực hiện thử nghiệm trên 2 bộ cơ sở dữ liệu cảm xúc khác
nhau về ngôn ngữ.
4
CHƢƠNG 1: TỔNG QUAN
Nội dung của chương này sẽ trình bày các vấn đề sau:
- Lý thuyết về nhận dạng giới tính, cảm xúc người nói và các ứng dụng.
- Phương pháp nhận dạng giới tính, cảm xúc của người nói.
- Các giai đoạn xử lý và các thành phần của hệ thống nhận dạng giới tính,
cảm xúc.
- Các kết quả nhận dạng giới tính, cảm xúc người nói đã có trên thế giới và
tại Việt Nam.
1.1. Tổng quan về nhận dạng giới tính, cảm xúc ngƣời nói
1.1.1. Giới thiệu chung
Tiếng nói là một chuỗi âm thanh phát ra từ bộ máy phát âm của con người,
dùng để trao đổi thông tin, tư tưởng, tình cảm giữa con người với nhau, cụ thể giữa
những thành viên trong xã hội với nhau. Tiếng nói là một trong những phương tiện
trao đổi thông tin cơ bản nhất và quan trọng nhất của con người.
Giống như âm thanh, tiếng nói cũng có những đặc trưng, những đặc điểm
chung của âm thanh như tần số, biên độ, cường độ, năng lượng, phổ .v.v. Ngoài ra,
còn có những đặc điểm riêng biệt thuộc về âm thanh của con người như: formant,
âm sắc, cao độ …Dựa vào những đặc trưng, đặc điểm đó con người có thể xử lý
tiếng nói và ứng dụng vào những lĩnh vực khác nhau. Hiện nay, các nghiên cứu và
ứng dụng liên quan đến lĩnh vực xử lý tiếng nói vẫn đang được chú trọng phát triển
và cải thiện như: tổng hợp tiếng nói, nhận dạng tiếng nói, lưu trữ, xử lý tín hiệu
tiếng nói… Một trong những lĩnh vực đó là nhận dạng giới tính, cảm xúc của người
nói.
Nhận dạng giới tính của người nói là gì?
Nhận dạng giới tính của người nói là một hệ thống thực hiện tính toán xác
thực người nói là nam hay nữ bằng cách sử dụng đặc điểm, đặc trưng riêng lấy từ
tiếng nói của họ.
Nhận dạng cảm xúc người nói là gì?
5
Nhận dạng cảm xúc người nói là một hệ thống thực hiện nhiệm vụ tính toán
xác thực người nói đang ở trạng thái cảm xúc nào: buồn, vui, tức giận, sợ hãi hay là
bình thường … bằng cách sử dụng đặc điểm, đặc trưng riêng lấy từ tiếng nói của họ.
Một hệ thống nhận dạng lý tưởng phải có khả năng nhận dạng đúng trong mọi
môi trường. Tuy nhiên, một số yếu tố ảnh hưởng trong quá trình nhận dạng gây nên
kết quả lỗi như sau:
- Âm thanh được ghi ở môi trường không phù hợp, phòng nhiều tiếng ồn, ảnh
hưởng bởi nhiễu.
- Vị trí đặt của thiết bị thu âm ở mỗi thời điểm ghi âm khác nhau.
- Sử dụng kênh ghi âm, xác thực không phù hợp.
- Trạng thái của người nói như căng thẳng hay bị ép buộc….
- Tốc độ phát âm khi thử nghiệm khác so với dữ liệu huấn luyện.
Các nguồn nêu trên gây ra các lỗi xác minh dẫn đến kết quả việc nhận dạng
giới tính, cảm xúc người nói có sự sai lệch.
1.1.2. Ứng dụng nhận dạng cảm xúc của ngƣời nói
Nhận dạng cảm xúc người nói có nhiều ứng dụng thực tiễn:
- Tương tác người máy được cải thiện: Robot biết an ủi con người, máy tính
nhận biết cảm xúc người sử dụng đang tức giận thì máy tính sẽ giảm tông màu màn
hình, vặn nhỏ nhạc hoặc đơn giản là xin lỗi [16].
- Điều khiển: căn phòng thông minh (RoomRender) nhận dạng cảm xúc của
những người ở trong phòng nhờ phân tích giọng nói. Căn phòng bao gồm một bức
tường có thể thay đổi màu khác nhau dựa theo tính khí của những người ở trong
phòng. RoomRender còn có một máy tỏa mùi thích nghi với cảm xúc của người ở
trong phòng [16].
- Các trung tâm dịch vụ khách hàng (Call center) có thể sử dụng ứng dụng
trong phân tích hành vi của khách hàng để phục vụ khách hàng tốt hơn hoặc để tạo
ra các chiến lược cải thiện kinh doanh [4].
- Ứng dụng trong du lịch (E-touring), đối thoại với tội phạm [4].
- Ứng dụng để giám sát người già và người bệnh.
6