Nhận dạng người nói phụ thuộc từ khóa tiếng việt

  • 107 trang
  • file .pdf
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------
ĐÀO THỊ THU DIỆP
ĐÀO THỊ THU DIỆP
CÔNG NGHỆ THÔNG TIN
NHẬN DẠNG NGƯỜI NÓI PHỤ THUỘC TỪ KHÓA
TIẾNG VIỆT
LUẬN VĂN THẠC SĨ KỸ THUẬT
NGÀNH CÔNG NGHỆ THÔNG TIN
2011-2013
Hà Nội - Năm 2013
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------
ĐÀO THỊ THU DIỆP
NHẬN DẠNG NGƯỜI NÓI PHỤ THUỘC TỪ KHÓA TIẾNG VIỆT
CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN
LUẬN VĂN THẠC SĨ KỸ THUẬT
CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. NGUYỄN HỒNG QUANG
Hà Nội – Năm 2013
LỜI CAM ĐOAN
Tôi – Đào Thị Thu Diệp, học viên lớp Cao học CNTT 2011 – 2013 Trường
Đại học Bách khoa Hà Nội – cam kết. Luận văn tốt nghiệp là công trình nghiên
cứu của bản thân tôi dưới sự hướng dẫn của TS. Nguyễn Hồng Quang - Viện Công
nghệ Thông tin và Truyền thông – Đại học Bách Khoa Hà Nội. Các kết quả trong
Luận văn tốt nghiệp là trung thực, không sao chép toàn văn của bất kỳ công trình
nào khác.
Hà Nội, ngày 20 tháng 9 năm 2013
Học viên: Đào Thị Thu Diệp
Lớp:11ACNTT-HY
1
LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn sâu sắc tới Thầy giáo, TS. Nguyễn Hồng Quang
–Bộ môn kỹ thuật máy tính – Viện Công nghệ Thông tin và Truyền thông – Đại
học Bách khoa Hà Nội, người Thầy kính mến đã hết lòng giúp đỡ, dạy bảo, động
viên và tạo mọi điều kiện thuật lợi cho tôi trong suốt quá trình học tập và hoàn
thành luận văn tốt nghiệp.
Tôi xin chân thành cảm ơn tập thể các thầy, cô giáo trường Đại học Bách
Khoa Hà Nội nói chung và Viện Công nghệ Thông tin và Truyền Thông nói riêng
đã tận tình giảng dạy truyền đạt cho tôi những kiến thức, kinh nghiệm quý báu
trong suốt những năm học vừa qua.
Tôi cũng xin cảm ơn các giảng viên đồng nghiệp ở trường Đại học Sư phạm
Kỹ thuật Hưng Yên đã tạo điều kiện về thời gian để tôi có thể học tập và hoàn
thành luận văn.
Cuối cùng tôi xin chân thành cảm ơn gia đình, bạn bè đã luôn ủng hộ và
động viên tôi trong những lúc khó khăn nhất.
2
MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... 1
LỜI CẢM ƠN ............................................................................................................ 2
MỤC LỤC.................................................................................................................. 3
DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT ............................................................. 7
DANH MỤC HÌNH................................................................................................... 8
DANH MỤC BẢNG .................................................................................................. 9
MỞ ĐẦU .................................................................................................................. 10
Lý do chọn đề tài ..................................................................................................... 10
Mục đích, phạm vi nghiên cứu............................................................................... 11
Đối tượng nghiên cứu ............................................................................................. 12
Phương pháp nghiên cứu ....................................................................................... 12
Nhiệm vụ nghiên cứu .............................................................................................. 12
CHƯƠNG 1. CƠ SỞ LÝ THUYẾT ...................................................................... 13
1.1. Tổng quan về nhận dạng người nói ............................................................. 13
1.1.1. Nhận dạng người nói là gì? ............................................................... 13
1.1.2. Các ứng dụng của nhận dạng người nói ............................................ 14
1.2. Phương pháp nhận dạng người nói phụ thuộc từ khóa................................ 14
1.2.1. Giới thiệu chung ................................................................................ 14
1.2.2. Các thành phần của một hệ thống nhận dạng người nói phụ thuộc từ
khóa …………………………………………………………………….18
1.2.3. Các giai đoạn xử lý của một hệ thống nhận dạng người nói phụ
thuộc từ khóa..................................................................................................... 20
1.3. Tìm hiểu về các kết quả nhận dạng người nói đã có với Tiếng Việt .......... 21
1.3.1. Định danh người nói tiếng Việt sử dụng mô hình hỗn hợp Gaussian
của nhóm tác giả Đinh Lê Thành, Nguyễn Quốc Linh, Trịnh Văn Loan ........ 21
3
1.3.2. Xây dựng và khảo sát độ dài từ khóa trong nhận dạng người nói phụ
thuộc vào từ khóa tiếng Việt theo mô hình Markov ẩn tác giả: Ngô Minh
Dũng, Đặng Văn Chuyết ................................................................................... 22
CHƯƠNG 2. CÁC CÔNG CỤ SỬ DỤNG TRONG ĐỂ TÀI ............................. 25
2.1. Bộ công cụ ALIZE ...................................................................................... 25
2.1.1. Nguồn gốc ......................................................................................... 25
2.1.2. Giới thiệu về ALIZE ......................................................................... 25
2.1.3. Bộ công cụ SPro ................................................................................ 27
2.1.4. Các công cụ nhận dạng người nói sử dụng SPro và ALIZE ............. 28
2.2. Bộ công cụ Sphinx3 .................................................................................... 36
2.2.1. Giới thiệu........................................................................................... 36
2.2.2. Tổng quan về bộ giải mã s3.X .......................................................... 37
2.2.3. Công cụ nhận dạng tiếng nói sử dụng Sphinx3................................. 39
CHƯƠNG 3. TRIỂN KHAI HỆ THỐNG THỬ NGHIỆM NHẬN DẠNG
NGƯỜI NÓI TIẾNG VIỆT ................................................................................... 42
3.1. Sơ đồ tổng quan quá trình xây dựng hệ thống nhận dạng người nói phụ
thuộc từ khóa tiếng Việt ........................................................................................ 42
3.2. Chuẩn bị dữ liệu .......................................................................................... 43
3.2.1. Chuẩn bị dữ liệu cho nhận dạng bởi công cụ ALIZE ....................... 47
3.2.2. Chuẩn bị dữ liệu cho nhận dạng bởi công cụ Sphinx3 ..................... 50
3.3. Nhận dạng người nói sử dụng ALIZE ......................................................... 53
3.3.1. Bước 1: Tạo thư mục làm việc .......................................................... 54
3.3.2. Bước 2: Tính tham số MFCC ............................................................ 54
3.3.3. Bước 3: Dò tìm năng lượng............................................................... 54
3.3.4. Bước 4: Phát hiện tiếng nói trong tín hiệu ........................................ 55
3.3.5. Bước 5: Chuẩn hóa các tham số của tín hiệu .................................... 55
3.3.6. Bước 6: Chuẩn hóa TrainWorldInit .................................................. 55
3.3.7. Bước 7: Chuẩn hóa TrainWorldFinal................................................ 56
4
3.3.8. Bước 8: Huấn luyện GMM cho từng người nói ................................ 56
3.3.9. Bước 9: Nhận dạng người nói ........................................................... 56
3.4. Nhận dạng tiếng nói sử dụng Sphinx3 ........................................................ 57
3.4.1. Bước 1: Tạo cấu trúc thư mục và các file cấu hình cần thiết ............ 58
3.4.2. Bước 2: Cập nhật dữ liệu huấn luyện ................................................ 58
3.4.3. Bước 3: Huấn luyện mô hình âm học ............................................... 58
3.4.4. Bước 4: Tính tham số MFCC của file Wav ...................................... 59
3.4.5. Bước 5: Tính điểm số từng từ khóa qua Sphinx3 ............................. 59
3.5. Nhận dạng người nói phụ thuộc từ khóa tiếng Việt .................................... 61
3.5.1. Nhận dạng người nói sử dụng ALIZE và Sphinx3 ........................... 61
3.5.2. Phân tích và đánh giá kết quả ............................................................ 65
Chương 4. KẾT LUẬN VÀ KIẾN NGHỊ ............................................................. 68
4.1. Những vấn đề đã giải quyết trong luận văn................................................. 68
4.2. Hướng phát triển của đề tài ......................................................................... 69
TÀI LIỆU THAM KHẢO ...................................................................................... 70
PHỤ LỤC ................................................................................................................. 72
A. Mô hình hỗn hợp Gauss .............................................................................. 72
A.1. Đặc tả mô hình .......................................................................................... 72
A.2. Bài toán ước lượng mật độ ........................................................................ 74
B. Ba bài toán cơ bản của HMM .......................................................................... 76
B.1. Bài toán thứ nhất: Đánh giá xác suất ........................................................ 76
B.2. Thuật toán thứ hai: Tìm dãy trạng thái tối ưu ........................................... 78
B.3. Thuật toán thứ ba: Ước lượng tham số của mô hình................................. 79
C. Cấu trúc các gói trong thư viện LIA-RAL ....................................................... 81
C.1. Cấu trúc file NormFeat.cfg ....................................................................... 81
C.2. Cấu trúc file NormFeat_energy.cfg........................................................... 82
C.4. Cấu trúc file TrainWorldInit.cfg ............................................................... 85
C.5. Cấu trúc file TrainWorldFinal.cfg............................................................. 86
5
C.6. Cấu trúc gói TrainTarget .......................................................................... 87
C.7. Cấu trúc gói ComputeTest ....................................................................... 88
D. Code chương trình nhận dạng người nói tiếng Việt ........................................ 89
D.1. Code chương trình tổng hợp xác suất của ALIZE và Sphinx ................... 89
D.2. Code chương trình chạy xác suất tiên nghiệm với ALIZE và Sphinx .... 102
6
DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT
Chữ viết tắt Chữ viết đầy đủ
ANN Artificial Neural Network
ASV Automatic Speaker Identification
ASI Automatic Speaker Verification
ASR Automatic Speaker Recognition
DTW Dynamic Time Warping
EM Expectance Maximization
FSG Finite State Grammar
GMM Gaussion Mixture Model
HMM Hidden Markov Model
MFCC Mel-Frequency Cepstral Coefficients
LM Language Model
UML Unified Modeling Language
VQ Vector Quantization
7
DANH MỤC HÌNH
Hình 1.1. Hệ thống xác định người nói...................................................................15
Hình 1.2. Mô hình xác định người nói....................................................................16
Hình 1.3. Hệ thống xác minh người nói .................................................................17
Hình 1.4. Mô hình xác minh người nói...................................................................17
Hình 1.5. Các thành phần của một hệ thống nhận dạng người nói.........................19
phụ thuộc từ khóa....................................................................................................19
Hình 1.6. Hệ thống định danh người nói sử dụng giải thuật GMM .......................21
Hình 1.7. Pha nhận dạng hệ nhận dạng người nói phụ thuộc từ khóa thay đổi ......23
Hình 1.8. Kết quả khảo sát độ chính xác nhận dạng người nói phụ thuộc độ dài từ
khóa .........................................................................................................................24
Hình 2.1. Thành phần của gói công cụ ALIZE .......................................................26
Hình 2.2. Sơ đồ các công cụ sử dụng ALIZE trong nhận dạng người nói ............28
Hình 3.1. Hệ nhận dạng người nói phụ thuộc từ khóa tiếng Việt ...........................42
Hình 3.2. File wav biểu diễn tín hiệu phát âm từ khóa 0 đến 9 của người nói .......45
Hình 3.3. Các bước xây dựng hệ nhận dạng người nói sử dụng SPro & ALIZE ...53
Hình 3.4. Sơ đồ tổng quát xây dựng Forced alignment proces...............................57
Hình 3.5. Biểu đồ thể hiện kết quả nhận dạng với Test 1 .......................................63
Hình 3.6. Biểu đồ thể hiện kết quả nhận dạng với Test 2 .......................................64
Hình 3.7. Biểu đồ thể hiện kết quả nhận dạng với các thử nghiệm ........................66
Hình A.1. Hàm mật độ Gauss .................................................................................72
Hình A.2. Mô hình GMM .......................................................................................73
Hình A.3. Hàm mật độ của GMM có 3 phân phối Gauss .......................................74
8
DANH MỤC BẢNG
Bảng 2.1: Mô tả tùy chọn sử dụng tiêu chuẩn hóa năng lượng ..............................30
Bảng 2.2: Mô tả tùy chọn sử dụng phát hiện tín hiệu tiếng nói ..............................31
Bảng 2.3: Mô tả tùy chọn chuẩn hóa đặc trưng ......................................................32
Bảng 2.4: Mô tả tùy chọn chính sử dụng huấn luyện mô hình từ ...........................33
Bảng 2.5: Mô tả tùy chọn trong huấn luyện mô hình đích .....................................34
Bảng 2.6: Mô tả tùy chọn tính điểm số của mô hình GMM ...................................36
Bảng 3.1: Thông tin về dữ liệu 48 người nói ..........................................................43
Bảng 3.2: Kết quả nhận dạng người nói thử nghiệm với Test 1: sử dụng xác suất
tiên nghiệm lấy từ mô hình HMM và GMM của người nói ...................................63
Bảng 3.3: Kết quả nhận dạng người nói thử nghiệm với Test 2: Xác suất tiên
nghiệm lấy từ mô hình GMM và xác suất hậu nghiệm lấy từ mô hình HMM của
từng người nói .........................................................................................................64
Bảng 3.4: Kết quả tổng hợp các thử nghiệm theo thời gian ...................................65
Bảng 3.5: Bảng tổng hợp kết quả nhận dạng các chương trình đã thử nghiệm ......66
9
MỞ ĐẦU
Lý do chọn đề tài
Sinh trắc học là nhận dạng tự động một người dựa trên đặc điểm sinh lý hay
hành vi của người đó. Có rất nhiều loại công nghệ sinh trắc học hiện nay như:
nhận dạng khuôn mặt, dấu vân tay, nhận dạng ngón tay, nhận dạng mống mắt,
nhận dạng tĩnh mạch, nhận dạng giọng nói hay nhận dạng chữ ký.
Mỗi ngày chúng ta sử dụng nhiều thông tin như : thẻ, số điện thoại, mã số pin,
mật khẩu… để xác nhận được danh tính của bản thân mình. Phương pháp nhận
dạng sinh trắc học được ưa thích hơn phương pháp truyền thống liên quan đến mật
khẩu và số PIN, mặc dù trong phương pháp truyền thống cơ chế đảm bảo truy cập
an toàn là khá tốt nhưng có điểm bất lợi như:
- Sự gia tăng việc sử dụng mã PIN và mật khẩu như một kết quả của cuộc
cách mạng công nghệ thông tin để truy cập vào cơ sở dữ liệu cá nhân. Bằng
cách thay thế mã PIN và mật khẩu bởi nhận dạng sinh trắc học được thuận
lợi hơn trong việc ngăn chặn truy cập trái phép hoặc gian lận khi sử dụng
ATM, điện thoại di động, thẻ thông minh, máy tính…
- Mã PIN và mật khẩu cá nhân có thể bị lãng quên do lâu không sử dụng
hoặc bị đánh cắp, hoặc bị mất
Chúng ta đều biết, tiếng nói là phương tiện tự nhiên nhất cho con người giao
tiếp với nhau. Vì lý do này, công nghệ nhận dạng như: nhận dạng giọng nói, nhận
dạng cảm xúc, xử lý ngôn ngữ tự nhiên, tổng hợp giọng nói và nhận dạng người
nói ra đời nhằm khai thác sức mạnh của phương thức này và để đơn giản hóa
tương tác giữa con người và máy tính.
Trong khi những phương pháp nhận dạng vân tay và nhận dạng võng mạc
thường là những phương pháp đáng tin cậy hơn trong việc xác định một người, thì
việc xác định giọng nói lại có thuận lợi trong việc thu thập dữ liệu dễ dàng micro,
điện thoại.
Các tổ chức tài chính cũng như các công ty thường cấp quyền truy cập có giới
hạn vào hệ thống cơ sở dữ liệu của họ, và đều muốn cung cấp dịch vụ khách hàng
10
tự động bằng điện thoại, việc sử dụng kết quả nhận dạng người nói khi đó tỏ ra là
một phương pháp có hiệu quả.
Nhận dạng người nói là một trong những lĩnh vực của xử lý tiếng nói. Nhận
dạng người nói mục đích là để nhận ra người nói là ai và/hoặc là xác minh liệu
người đang nói có đúng là người mà máy tính đã được biết trước hay không (tính
xác thật của giọng nói). Trong đó lĩnh vực nhận dạng người nói phụ thuộc vào từ
khóa có ứng dụng rất lớn. Thông thường các đơn vị ngôn ngữ dùng để xây dựng
mô hình người nói là các cụm từ, từ và dưới mức từ (âm tiết hay âm vị). Tuy nhiên
nhược điểm chính của các mô hình cụm từ là từ khóa bị cố định hoàn toàn và vì
thế tính bảo mật không cao. Ngược lại mô hình dựa trên âm bị rất linh hoạt, chỉ
với một số nhỏ các âm vị cũng có thể tạo ra vô số các từ khóa khác nhau. Dung
hòa giữa 2 loại này chính là các mô hình dựa trên các từ
Ở Việt Nam, hướng nghiên cứu và phát triển các hệ thống nhận dạng người nói
đang được phát triển mạnh mẽ. Mặt khác lợi thế của hệ thống nhận dạng người nói
là yêu cầu phần cứng rất rẻ, hầu hết các máy tính đều có một card âm thanh và
micro. Chúng rất dễ sử dụng và thực hiện với các ứng dụng cho viễn thông. Do
tiếng Việt có những đặc thù riêng, nên việc chọn lựa cách tiếp cận bài toán sao cho
phù hợp với tiếng Việt là một vấn đề quan trọng và tương đối khó khăn. Với mục
đích tìm hiểu và góp phần phát triển chương trình nhận dạng người nói tiếng Việt,
tác giả đã thực hiện đề tài “ Nhận dạng người nói phụ thuộc vào từ khóa tiếng
Việt” cụ thể hơn là sử dụng công cụ ALIZE và Sphinx3.
Mục đích, phạm vi nghiên cứu
- Tìm hiểu tổng quan về nhận dạng người nói và các đặc điểm của tiếng Việt nói
- Nghiên cứu mô hình GMM và bộ công cụ ALIZE, gói thư viện LIA-RAL để
nhận dạng người nói
- Tìm hiểu mô hình HMM và bộ công cụ Sphinx3 để nhận dạng tiếng nói
- Xây dựng chương trình kết hợp của công cụ ALIZE và Sphinx3 để thử nghiệm
nhận dạng người nói với bộ từ khóa tiếng Việt
11
Đối tượng nghiên cứu
- Nghiên cứu tổng quan về nhận dạng người nói tiếng Việt
- Nghiên cứu về mô hình hỗn hợp GMM
- Nghiên cứu: Công cụ ALIZE, công cụ Sphinx3
Phương pháp nghiên cứu
- Nghiên cứu lý thuyết về nhận dạng người nói
- Nghiên cứu sử dụng bộ công cụ ALIZE trên môi trường Linux trong nhận dạng
người nói
- Nghiên cứu sử dụng bộ công cụ Sphinx3 trên môi trường Linux trong nhận
dạng tiếng nói
- Thu âm các từ khóa tiếng Việt và thử nghiệm nhận dạng cho tiếng Việt
Nhiệm vụ nghiên cứu
- Tìm hiểu khái quát về nhận dạng người nói và đặc điểm của tiếng Việt nói
- Tìm hiểu mô hình GMM, HMM
- Tìm hiểu về hoạt động của ALIZE, Sphinx3
Nội dung luận văn được trình bày trong 105 trang và được chia thành 4 chương:
- Chương 1: Trình bày tổng quan về nhận dạng người nói, các ứng dụng của nhận
dạng người nói và đi sâu vào nhận dạng người nói phụ thuộc từ khóa tiếng Việt.
Chương này cũng trình bày các kết quả nghiên cứu đã được thực hiện về đề tài
nhận dạng người nói tiếng Việt
- Chương 2: Trên cơ sở lý thuyết đã được tìm hiểu ở chương 1, trong chương này
sẽ trình bày về cài đặt, cũng như chi tiết từng chức năng của công cụ nhận dạng
người nói sử dụng ALIZE và nhận dạng tiếng nói sử dụng Sphinx3
- Chương 3: Chương này sẽ trình bày chi tiết về các bước tạo cơ sở dữ liệu tiếng
nói được sử dụng để thử nghiệm và xây dựng hệ thống nhận dạng người nói phụ
thuộc từ khóa tiếng Việt thông qua sử dụng công cụ ALIZE và kết hợp sử dụng
công cụ Sphinx3.
- Chương 4: Trình bày kết luận và một số hướng phát triển tiếp theo của đề tài
12
CHƯƠNG 1. CƠ SỞ LÝ THUYẾT
1.1. Tổng quan về nhận dạng người nói
1.1.1. Nhận dạng người nói là gì?
Nhận dạng người nói là một hệ thống sinh trắc học, thực hiện các nhiệm vụ
tính toán chứng thực người dùng trên cơ sở khẳng định danh tính của một người
bằng cách sử dụng đặc điểm đặc trưng riêng lấy từ tiếng nói của họ. Nhận dạng
tiếng nói đã phát triển hơn bốn thập kỷ và sử dụng các tính năng âm thanh của
tiếng nói phân biệt khác nhau của từng cá nhân. Đặc điểm tiếng nói của con người
được phát ra chứa 2 thông tin như sau:
- Thông tin mức thấp: độ cao, trường độ, cường độ, tần số, nhịp điệu, giai
điệu, quang phổ, âm formant …những đặc điểm này thường được nhận
dạng bởi hệ thống nhận dạng qua quá trình huấn luyện để đưa ra quyết định
- Thông tin mức cao: bao gồm phương ngữ, dấu nhấn khi nói chuyện, ngữ
cảnh, phong cách chủ đề của bối cảnh ... những đặc điểm này thường liên
quan đến việc áp dụng khả năng tự nhiên của con người để xác định ai là
người nói?
Các thông tin này không phải bất biến từ lúc người biết nói đến lúc già,
nhưng nó có tính khá ổn định trong giai đoạn dài của cuộc đời. Khi con người
đã trưởng thành, những thói tật khi nói, những đặc trưng khu biệt trong cấu âm
sẽ hình thành và mang tính ổn định cao. Đây chính là cơ sở khoa học cho việc xây
dựng các hệ thống nhận dạng người nói.
Một hệ thống nhận dạng người nói lý tưởng phải có khả năng nhận dạng đúng
người nói trong mọi môi trường. Tuy nhiên, một số yếu tố ảnh hưởng trong quá
trình nhận dạng gây nên kết quả lỗi như sau:
- Trạng thái cảm xúc của người nói. Ví dụ như căng thẳng hay ép buộc…
- Vị trí đặt của thiết bị thu âm ở mỗi thời điểm ghi âm khác nhau
- Âm thanh được ghi ở môi trường không phù hợp: phòng nhiều tiếng ồn, bị
ảnh hưởng bởi nhiễu
13
- Sử dụng kênh ghi âm, xác thực không phù hợp
- Tốc độ phát âm khi thử nghiệm khác so với dữ liệu huấn luyện
- Người thử nghiệm bị bệnh (như cảm lạnh… ảnh hưởng đến đường âm),
người cao tuổi (đường âm thanh bị thay đổi theo độ tuổi)
Các nguồn nêu các lỗi xác minh dẫn đến kết quả việc nhận dạng người nói thực
sự khá phức tạp.
1.1.2. Các ứng dụng của nhận dạng người nói
Nhận dạng người nói là lĩnh vực ứng dụng rất nhiều trong đời sống:
- Xác minh danh tính và kiểm soát truy cập:
 Truy cập ngân hàng qua điện thoại
 Mua thẻ điện thoại
 Truy cập cơ sở dữ liệu, thông tin bí mật máy tính từ xa
- Nhận dạng tội phạm:
 Kiểm soát sử dụng điện thoại trong nhà tù khi người nhà phạm nhân
tới thăm
 Tìm ra tội phạm thông qua việc so khớp giọng nói
- Hệ thống bán hàng gián tiếp (lấy lại thông tin khách hàng)
 Lấy được thông tin khách hàng gọi tới trung tâm.
 Lấy mẫu giọng nói của khách hàng qua điện thoại.
- Mục đích pháp y
1.2. Phương pháp nhận dạng người nói phụ thuộc từ khóa
1.2.1. Giới thiệu chung
Tùy thuộc vào ứng dụng, nhận dạng người nói đươc chia thành 2 bài toán cụ
thể: nhận dạng (Identification), phát hiện /xác minh (Detection/Verification). Cả 2
bài toán đều sử dụng một cơ sở dữ liệu các mẫu tham khảo cho N người nói đã
biết trước và đều sử dụng các kỹ thuật phân tích và quyết định tương tự nhau.
Nhận dạng người nói (Speaker Identification) là xác định người nói là ai trong
một nhóm người nói mà máy tính đã có đầu vào là các mẫu tiếng nói biết trước.
14
Xác minh người nói (Speaker Verification) là xác định xem tiếng nói được phát
ra có đúng là giọng của người cần kiểm tra hay không? Cách này còn được gọi là
xác nhận giọng nói, chứng thực, xác thực người nói, phát hiện người nói.
Xác minh người nói thì đơn giản hơn nhận dạng người nói vì nó chỉ yêu cầu so
sánh mẫu kiểm tra so với một mẫu tham khảo và cho ra quyết định mẫu kiểm tra
có khớp với mẫu tham khảo hay không? Trong khi đó nhận dạng người nói lại yêu
cầu chọn ra trong số N giọng nói được báo trước cho hệ thống, giọng nào khớp tốt
nhất là giọng kiểm tra. Vì phải thực hiện N so sánh và quyết định nên sai số trong
nhận dạng có thể nhiều hơn trong xác minh người nói.
Tôi muốn đăng
nhập hệ thống Xin chào,
Dương
bạn Dương !
Tôi muốn đăng
Identification
Xin chào,
nhập hệ thống bạn Cường !
System
Cường
Tôi muốn đăng Xin lỗi, bạn không được
nhập hệ thống hệ thống nhận dạng!
??
Hình 1.1. Hệ thống xác định người nói
Hình 1.1. là một hệ thống xác định người nói thông qua cách truy cập bằng dữ liệu
tiếng nói vào hệ thống. Với những người nói đã được lưu trữ giọng nói có trong dữ
liệu của hệ thống, sau khi đăng nhập bằng mật khẩu tiếng nói, hệ thống sẽ xác định
xem ai là người đang nói, đã có trong dữ liệu chưa. Nếu đã có rồi thì hệ thống đưa
15
ra lời chào và đồng ý đăng nhập. Nếu chưa có trong hệ thống thì sẽ đưa ra thông
báo không hợp lệ và không được truy cập vào hệ thống
Huấn luyện Cơ sở
người nói dữ liệu
người nói
Huấn luyện Tính
Trích chọn độ
đặc trưng tương
Thử Lựa chọn
nghiệm đồng tốt nhất
của mô
hình
Người nói
được nhận dạng
Hình 1.2. Mô hình xác định người nói
Hình 1.2 là mô hình xác định người nói, ở mô hình này sẽ mô tả các bước cho giai
đoạn huấn luyện và thử nghiệm của một hệ thống xác định người nói. Đầu tiên hệ
thống sẽ lấy ra đặc trưng từ dữ liệu tiếng nói. Sau đó, ở bước huấn luyện sẽ tạo ra
mô hình của từng người nói riêng biệt, tất cả mô hình này được đưa vào cơ sở dữ
liệu chung. Ở bước thử nghiệm: dữ liệu tiếng nói sau khi được trích chọn đặc
trưng sẽ đem so khớp với dữ liệu tiếng nói ở trong cơ sở dữ liệu của toàn bộ người
nói đã được lưu trong bước huấn luyện. Kết quả nào có độ tương đồng cao nhất
hoặc điểm số lớn nhất sẽ được đưa ra và tương ứng là tên của người nói cần tìm
16
Tôi là Dương!
Xin chào,
Dương
Verification
bạn Dương !
System
Tôi là Tuấn! Xin lỗi,
Cường Không phải bạn Tuấn!
Hình 1.3. Hệ thống xác minh người nói
Hình 1.3. là một hệ thống xác minh người nói thông qua cách truy cập bằng dữ
liệu tiếng nói vào hệ thống. Bước thử nghiệm như sau: dữ liệu tiếng nói được đưa
kèm theo tên của người cần kiểm tra. Nếu dữ liệu tiếng nói đúng với tên của người
cần kiểm tra, hệ thống sẽ hiển thị lời chào cùng tên. Ngược lại, nếu là giả mạo thì
hệ thống cũng đưa ra cảnh báo.
Cơ sở
Huấn luyện dữ liệu
người nói
Huấn luyện
Tính
độ
tương
Trích chọn đồng So khớp
đặc trưng
Thử của mô
nghiệm hình
người
nói
Quyết định
Đúng/Sai
Hình 1.4. Mô hình xác minh người nói
17
Hình 1.4. là mô hình xác minh người nói, mô hình này có cách thực hoạt động
gần giống như mô hình xác minh người nói đã trình bày ở trên. Nhưng chương
trình đơn giản hơn khá nhiều, ở bước thử nghiệm để đưa ra kết quả nhận dạng, hệ
thống không cần so khớp với tất cả dữ liệu tiếng nói có trong cơ sở dữ liệu mà chỉ
so khớp với dữ liệu tiếng nói của người cần kiểm tra và câu trả lời là có Đúng/Sai
người cần kiểm tra với giọng nói đưa vào hay không?
Theo các ràng buộc về tín hiệu tiếng nói sử dụng trong hệ thống huấn luyện và
kiểm tra. Hệ thống nhận dạng người nói được chia thành 2 loại: Độc lập văn bản
và phụ thuộc văn bản.
Trong nhận dạng phụ thuộc văn bản, người sử dụng phải nói vào cụm từ được
biết trước của hệ thống, có thể được cố định hoặc gợi ý từ hệ thống. Tức là sử
dụng cùng một văn bản cho cả giai đoạn huấn luyện và kiểm tra. Với thông tin biết
trước của cụm từ đã cung cấp sẽ cho kết quả nhận dạng tốt hơn. Hệ thống phụ
thuộc văn bản đòi hỏi đoạn văn được nói khi sử dụng hệ thống (trong giai đoạn
kiểm tra) phải giống với đoạn văn được dùng trong lúc huấn luyện (trong giai đoạn
lưu giữ) hoặc phải là một sự kết hợp của đoạn văn được dùng trong lúc huấn
luyện. Trong luận văn này, tác giả sử dụng mô hình phụ thuộc văn bản với các từ
khóa để huấn luyện và thử nghiệm.
Trong hệ thống nhận dạng độc lập văn bản, hệ thống không biết cụm từ mà
người sử dụng sẽ nói. Mặc dù điều này sẽ thêm tính linh hoạt của một ứng dụng,
nhưng nó có thể giảm độ chính xác của hệ thống nhận dạng. Để có thể thu được
kết quả tốt của hệ nhận dạng độc lập văn bản, ta thường cần thu nhiều dữ liệu tiếng
nói hơn cho cả giai đoạn huấn luyện và giai đoạn kiểm tra so với hệ phụ thuộc văn
bản.
1.2.2. Các thành phần của một hệ thống nhận dạng người nói phụ thuộc từ
khóa
Cũng như một hệ nhận dạng người nói nói chung, hệ nhận dạng người nói phụ
thuộc từ khóa có thành phần tổng quát như hình vẽ dưới đây:
18