Một số phương pháp xử lý tri thức không nhất quán trong ontology

  • 132 trang
  • file .pdf
ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KHOA HỌC
NGUYỄN VĂN TRUNG
MỘT SỐ PHƯƠNG PHÁP
XỬ LÝ TRI THỨC KHÔNG NHẤT QUÁN
TRONG ONTOLOGY
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
HUẾ - NĂM 2018
ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KHOA HỌC
NGUYỄN VĂN TRUNG
MỘT SỐ PHƯƠNG PHÁP
XỬ LÝ TRI THỨC KHÔNG NHẤT QUÁN
TRONG ONTOLOGY
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 62.48.01.01
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học:
PGS. TS. HOÀNG HỮU HẠNH
HUẾ - NĂM 2018
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện dưới sự hướng
dẫn của PGS. TS. Hoàng Hữu Hạnh. Những nội dung trong các công trình đã công bố
chung với các tác giả khác đã được sự đồng ý của đồng tác giả khi đưa vào luận án.
Các số liệu và kết quả nghiên cứu trình bày trong luận án là trung thực, khách quan
và chưa được công bố bởi tác giả nào trong bất cứ công trình nào khác.
Nghiên cứu sinh
Nguyễn Văn Trung
i
LỜI CẢM ƠN
Luận án này được thực hiện và hoàn thành tại Khoa Công nghệ Thông tin, Trường
Đại học Khoa học, Đại học Huế. Trong suốt quá trình học tập và thực hiện luận án,
tôi đã nhận được rất nhiều sự quan tâm, động viên, giúp đỡ của thầy giáo hướng dẫn,
thầy cô giáo trong Khoa Công nghệ Thông tin, Phòng Đào tạo Sau đại học và Ban
giám hiệu Trường Đại học Khoa học.
Tôi xin bày tỏ lòng biết ơn sâu sắc đến PGS. TS. Hoàng Hữu Hạnh là người thầy
tận tình hướng dẫn, động viên và truyền đạt những kinh nghiệm quý báu trong nghiên
cứu khoa học để tôi có thể hoàn thành luận án này.
Tôi xin chân thành cảm ơn quý thầy cô giáo trong Khoa Công nghệ Thông tin đã
tạo điều kiện thuận lợi trong công tác để tôi có thể hoàn thành công việc nghiên cứu
của mình. Tôi xin cảm ơn quý thầy cô và cán bộ của Phòng Đào tạo Sau đại học, Ban
giám hiệu Trường Đại học Khoa học đã giúp đỡ tôi trong việc hoàn thành kế hoạch
học tập.
Tôi xin trân trọng cảm ơn quý thầy cô giáo trong Hội đồng Khoa học của Khoa
Công nghệ Thông tin đã đọc và đưa ra những góp ý xác đáng cho luận án này.
Tôi xin trân trọng cảm ơn quý thầy cô giáo và các anh chị đồng nghiệp trong Khoa
Công nghệ Thông tin đã giúp đỡ, chia sẻ trong quá trình công tác, học tập, nghiên cứu
và thực hiện luận án.
Cuối cùng tôi xin cảm ơn những người thân trong gia đình đã luôn ủng hộ, chia sẻ
khó khăn trong suốt quá trình học tập, nghiên cứu và thực hiện luận án.
Nghiên cứu sinh
Nguyễn Văn Trung
ii
MỤC LỤC
Lời cam đoan i
Lời cảm ơn ii
Mục lục iii
Danh mục từ viết tắt, thuật ngữ v
Danh mục ký hiệu vi
Danh mục bảng, biểu vii
Danh mục hình vẽ viii
Mở đầu 1
Chương 1. TỔNG QUAN VỀ XỬ LÝ TRI THỨC KHÔNG NHẤT
QUÁN TRONG ONTOLOGY 9
1.1 Ontology và tri thức không nhất quán . . . . . . . . . . . . . . . . . . 9
1.2 Khung lập luận với ontology không nhất quán sử dụng chiến lược phát
triển tuyến tính tập tiên đề diễn giải . . . . . . . . . . . . . . . . . . . 15
1.2.1 Các khái niệm cơ bản . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.2 Hàm chọn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2.3 Phép suy luận không chuẩn sử dụng hàm chọn đơn điệu . . . . 20
1.2.4 Phép suy luận không chuẩn sử dụng hàm chọn dựa trên sự liên
quan cú pháp . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.2.5 Các nghiên cứu liên quan đến khung lập luận với ontology không
nhất quán sử dụng chiến lược mở rộng tuyến tính tập tiên đề
diễn giải . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.3 Xử lý tri thức không nhất quán trong quá trình tích hợp ontology theo
phương pháp đồng thuận . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.3.1 Hồ sơ xung đột . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.3.2 Sự không nhất quán tri thức . . . . . . . . . . . . . . . . . . . . 33
1.3.3 Hàm đồng thuận . . . . . . . . . . . . . . . . . . . . . . . . . . 40
1.3.4 Các nghiên cứu liên quan xử lý không nhất quán tri thức trong
quá trình tích hợp ontology bằng phương pháp đồng thuận . . . 44
1.4 Tiểu kết Chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Chương 2. SUY LUẬN VỚI ONTOLOGY KHÔNG NHẤT QUÁN SỬ
DỤNG HÀM CHỌN DỰA TRÊN ĐỘ LIÊN QUAN NGỮ
NGHĨA 47
2.1 Khoảng cách ngữ nghĩa giữa hai khái niệm trong ontology . . . . . . . 48
iii
2.2 Khoảng cách ngữ nghĩa giữa hai biểu thức khái niệm theo ontology tham
chiếu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.3 Khoảng cách ngữ nghĩa giữa hai tiên đề theo ontology tham chiếu . . . 55
2.4 Suy luận với ontology không nhất quán sử dụng hàm chọn dựa trên
khoảng cách ngữ nghĩa . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.5 Thực nghiệm và đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . 67
2.6 Tiểu kết Chương 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
Chương 3. XỬ LÝ XUNG ĐỘT MỨC KHÁI NIỆM TRONG QUÁ
TRÌNH TÍCH HỢP ONTOLOGY 72
3.1 Mô hình tích hợp tri thức dựa trên lý thuyết đồng thuận . . . . . . . . 72
3.2 Các mức xung đột trong quá trình tích hợp ontology . . . . . . . . . . 75
3.3 Xử lý xung đột mức khái niệm trong quá trình tích hợp ontology . . . 78
3.4 Vấn đề xây dựng hàm đánh giá khoảng cách cho các miền giá trị của
các thuộc tính . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.4.1 Hàm đánh giá khoảng cách giữa hai biểu thức khái niệm . . . . 85
3.4.2 Hàm đánh giá khoảng cách giữa hai khoảng dữ liệu . . . . . . . 86
3.5 Tiểu kết Chương 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Chương 4. XỬ LÝ XUNG ĐỘT MỨC TIÊN ĐỀ TRONG QUÁ TRÌNH
TÍCH HỢP ONTOLOGY 94
4.1 Mô hình xử lý xung đột tri thức cấp độ cú pháp . . . . . . . . . . . . . 95
4.1.1 Bài toán tìm đồng thuận của các công thức hội và các tiêu chuẩn
cho đồng thuận . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.1.2 Phân tích các tiêu chuẩn đồng thuận . . . . . . . . . . . . . . . 100
4.1.3 Thuật toán xác định đồng thuận . . . . . . . . . . . . . . . . . 109
4.2 Xử lý xung đột mức tiên đề trong quá trình tích hợp ontology . . . . . 115
4.3 Tiểu kết Chương 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
KẾT LUẬN 120
DANH MỤC CÁC CÔNG TRÌNH CỦA TÁC GIẢ LIÊN QUAN ĐẾN
LUẬN ÁN 122
TÀI LIỆU THAM KHẢO 123
iv
DANH MỤC TỪ VIẾT TẮT, THUẬT NGỮ
Từ viết tắt, thuật ngữ Diễn giải
ODP Over-determined Processing
Quy trình xử lý quá xác định
OWL Ontology Web Language
Ngôn ngữ ontology dùng cho Web
W3C World Wide Web Consortium
Tổ chức tiêu chuẩn quốc tế về World Wide Web
Conflict profile Hồ sơ xung đột
Consensus theory Lý thuyết đồng thuận
Data property Thuộc tính dữ liệu
Domain Miền xác định (của thuộc tính)
Object property Thuộc tính đối tượng
Open World Assumption Giả thiết thế giới mở
Range Miền giá trị (của thuộc tính)
Semantic wiki Wiki ngữ nghĩa
v
DANH MỤC KÝ HIỆU
Ký hiệu Diễn giải ý nghĩa
O Ontology
Σ Ontology không nhất quán
Σ0 , Σ00 Ontology nhất quán với các tiên đề được chọn từ một
ontology không nhất quán khác
|≈ Phép suy luận không chuẩn
|≈Syn Phép suy luận không chuẩn sử dụng hàm chọn dựa trên
độ liên quan cú pháp
|≈O Phép suy luận không chuẩn sử dụng hàm chọn dựa trên
khoảng cách ngữ nghĩa của ontology tham chiếu O
R, S Các tên vai trò, thuộc tính
A, B Các tên cá thể
DPO (C) Tập khái niệm cha trực tiếp của khái niệm trên một
ontology
DCO (C) Tập khái niệm con trực tiếp của khái niệm trên một
ontology
LCPO (C, D) Tập khái niệm cha chung tối thiểu của hai khái niệm
trên một ontology
C, D Các tên khái niệm
CE 1 , CE 2 Các biểu thức khái niệm
DR1 , DR2 Các khoảng dữ liệu
DT Kiểu dữ liệu
U Tập vũ trụ
X, Y Các hồ sơ xung đột
P1a , P1b Các tiêu chuẩn cho hàm nhất quán
T1 , T2 Các tiêu chuẩn cho bộ tri thức tích hợp
H1 , H2 Các tiêu chuẩn cho công thức hội
vi
DANH MỤC BẢNG, BIỂU
Bảng 1.1. Tính thoả tiêu chuẩn của một số hàm nhất quán thông dụng . . . . . 40
Bảng 2.1. Các tiên đề về biểu thức khái niệm . . . . . . . . . . . . . . . . . . . 58
Bảng 2.2. Các tiên đề về thuộc tính đối tượng . . . . . . . . . . . . . . . . . . . 59
Bảng 2.3. Các tiên đề về thuộc tính dữ liệu, định nghĩa kiểu dữ liệu, khoá của
biểu thức khái niệm, phát biểu về dữ kiện . . . . . . . . . . . . . . . 60
Bảng 2.4. Các ontology thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 68
Bảng 2.5. So sánh theo số lượng kết quả xác định của truy vấn . . . . . . . . . 69
Bảng 2.6. So sánh sự phát triển tập tiên đề diễn giải . . . . . . . . . . . . . . . 69
Bảng 3.1. Cấu trúc của khái niệm Course trong 5 ontology . . . . . . . . . . . . 91
Bảng 4.1. Ví dụ về các công thức hội của 3 tác tử mô tả tính chất của thuộc
tính hasSpouse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
Bảng 4.2. Trạng thái tri thức của các tác tử cho bài toán minh hoạ . . . . . . . 114
vii
DANH MỤC HÌNH VẼ
Hình 1.1. Truy vấn với ontology không nhất quán . . . . . . . . . . . . . . . . . 13
Hình 1.2. Chiến lược mở rộng tuyến tính [21] . . . . . . . . . . . . . . . . . . . 21
Hình 1.3. Sơ đồ áp dụng hàm đồng thuận . . . . . . . . . . . . . . . . . . . . . 43
Hình 1.4. Trích dẫn của ontology tham chiếu OREF −T REE . . . . . . . . . . . . 44
Hình 1.5. Trích dẫn ontology của 4 chuyên gia . . . . . . . . . . . . . . . . . . . 45
Hình 2.1. Cây phân cấp khái niệm minh hoạ . . . . . . . . . . . . . . . . . . . . 50
Hình 2.2. Ontology tham chiếu O . . . . . . . . . . . . . . . . . . . . . . . . . . 65
viii
MỞ ĐẦU
1. Tính cấp thiết của đề tài
Năm 2001, Tim Berners Lee cùng cộng sự đã đưa ra phác thảo cho một “dạng
thức mới về nội dung web mà dạng thức này có ý nghĩa đối với máy tính” [4].
Thế hệ web sử dụng dạng thức nội dung này – gọi là Web ngữ nghĩa (Semantic
Web) – cho phép máy tính có thể “hiểu” tri thức được lưu trữ, theo đó có thể
chia sẻ và tái sử dụng các cơ sở tri thức trong các hệ thống thông tin thuộc
nhiều lĩnh vực khác nhau. So với Web hiện tại – là một kho tài liệu được liên
kết với nhau – Web ngữ nghĩa là một nền tảng dữ liệu mà trong đó thông tin
được lưu ở dạng định nghĩa tường minh, cho phép máy tính và con người có thể
làm việc được cùng nhau [4].
Web ngữ nghĩa là một lĩnh vực nghiên cứu đang phát triển nhanh và nhận
được sự quan tâm của cộng đồng nghiên cứu trong thập niên vừa qua. Công
nghệ Web ngữ nghĩa đang được áp dụng vào nhiều lĩnh vực khác nhau trong
thực tế như tin-sinh học, tin học trong y tế, quản trị tri thức, công nghệ phần
mềm, . . . Thành phần quan trọng trong các ứng dụng web ngữ nghĩa là ontology.
Trong một ontology người ta định nghĩa các thực thể (bao gồm khái niệm,
thuộc tính, cá thể) và mối quan hệ giữa các thực thể này theo ngữ nghĩa được
quy định tường minh bởi một ngôn ngữ logic xác định. Ngôn ngữ ontology được
sử dụng phổ biến và chuẩn hoá bởi tổ chức tiêu chuẩn quốc tế W3C (World
Wide Web Consortium) là OWL, được xây dựng dựa trên logic mô tả: Phiên
bản đầu tiên của OWL (được giới thiệu vào năm 2004) dựa trên logic mô tả
SHOIN (D), trong khi đó phiên bản thứ hai là OWL 2 (được giới thiệu vào năm
2009) dựa trên logic mô tả SROIQ(D). Các tác vụ lập luận cơ bản với một
ontology OWL – bao gồm kiểm tra tính nhất quán và truy vấn tri thức không
được phát biểu tường minh trong ontology – đã được cài đặt trong các bộ lập
luận RACER [15], FaCT+ [59], Pellet [56], HermiT [36], . . . Danh sách đầy đủ
các bộ lập luận dùng với ontology OWL được tổ chức W3C cập nhật thường
xuyên tại địa chỉ https://www.w3.org/2001/sw/wiki/OWL/Implementations.
1
Theo [13], vấn đề quan trọng của Web ngữ nghĩa là phải xử lý tri thức
không nhất quán trong các ontology. Điều này bắt nguồn từ chính đặc điểm xây
dựng và sử dụng ontology trong các ứng dụng Web ngữ nghĩa: Đặc tính có thể
mở rộng, có thể chia sẻ, tái sử dụng, phân tán và đa người dùng luôn tiềm ẩn
khả năng làm xuất hiện tri thức không nhất quán trong các ontology [22]. Trên
thực tế, nếu một ontology là không nhất quán, các truy vấn trên nó là không
có nghĩa [26]. Điều này là bởi bất kỳ tiên đề nào cũng là hệ quả logic của một
ontology không nhất quán. Nói cách khác, sự không nhất quán làm mất đi ý
nghĩa sử dụng của ontology trong các ứng dụng Web ngữ nghĩa. Chính vì vậy,
xử lý tri thức không nhất quán trong ontology là bài toán quan trọng, có ý nghĩa
thực tiễn và được cộng đồng khoa học máy tính quan tâm nghiên cứu.
2. Động lực nghiên cứu và cách tiếp cận nghiên cứu của luận án
Các phương pháp xử lý tri thức không nhất quán trong ontology có thể được
phân làm hai nhóm: (1) nhóm phương pháp chấp nhận tồn tại tri thức không
nhất quán trong ontology, và (2) nhóm phương pháp tìm cách loại bỏ tri thức
không nhất quán khỏi ontology:
(1) Các giải pháp thuộc nhóm thứ nhất – chấp nhận tồn tại tri thức không
nhất quán trong ontology. Một số tiếp cận thuộc nhóm này định nghĩa các logic
mô tả với ngữ nghĩa nửa nhất quán và xây dựng ontology dựa trên các logic
đó [31, 32, 38, 50]. Tác vụ truy vấn với các ontology dựa trên logic nửa nhất
quán vẫn có thể sử dụng các bộ lập luận dành cho logic mô tả xây dựng nên
OWL (bằng cách chuyển các bài toán lập luận trên các logic này về bài toán lập
luận trên các logic mô tả của OWL). Việc sử dụng logic với ngữ nghĩa nửa nhất
quán để xây dựng ontology, mặc dù tạo ra được mô hình biểu diễn tri thức toàn
diện nhưng lại khó triển khai trong thực tế do tính phổ biến của các ngôn ngữ
ontology đã được chuẩn hoá và khuyến nghị sử dụng bởi tổ chức W3C.
Trong rất nhiều trường hợp thực tế, các ứng dụng Web ngữ nghĩa cần truy
vấn thông tin được tổng hợp từ các ontology đến từ nhiều nguồn khác nhau (và
có thể không nhất quán) mà không được phép chỉnh sửa hay tạo mới ontology.
Một giải pháp phù hợp cho vấn đề này là khung lập luận với ontology không
nhất quán sử dụng chiến lược phát triển tuyến tính tập tiên đề diễn giải, được
2
đề xuất bởi nhóm tác giả Zhisheng Huang, Frank van Harmelen và cộng sự [21].
Khung lập luận này tìm câu trả lời có nghĩa cho truy vấn với ontology không
nhất quán bằng cách chọn ra một tập con gồm các tiên đề nhất quán từ ontology
đầu vào – gọi là tập tiên đề diễn giải truy vấn: tập tiên đề này có liên quan với
truy vấn theo một tiêu chí cụ thể cho trước và có thể trả lời được truy vấn. Quá
trình chọn tập tiên đề diễn giải có thể được diễn ra trong nhiều bước theo chiến
lược gọi là chiến lược mở rộng tuyến tính. Phần quan trọng nhất của khung lập
luận với ontology không nhất quán là hàm chọn để xây dựng tập tiên đề diễn
giải truy vấn. Hai hàm chọn điển hình được nhóm tác giả phát triển là hàm
chọn dựa trên sự liên quan cú pháp [21] và hàm chọn dựa trên khoảng cách ngữ
nghĩa theo máy tìm kiếm Google [23]. Hai hàm chọn này đều có chung nhược
điểm là phụ thuộc vào cú pháp (tên khái niệm trong tiên đề) trong quá trình
phát triển tập tiên đề diễn giải. Khắc phục nhược điểm này chính là một động
lực nghiên cứu của luận án: Luận án đề xuất xây dựng tập tiên đề diễn giải theo
độ liên quan ngữ nghĩa giữa các tiên đề với truy vấn đầu vào. Độ liên quan này
được xác định dựa trên khoảng cách ngữ nghĩa giữa các khái niệm, giữa các biểu
thức khái niệm khi đặt chúng trên cây phân cấp khái niệm của một ontology,
ontology này được gọi là ontology tham chiếu.
(2) Các giải pháp thuộc nhóm thứ hai – tìm cách loại bỏ tri thức không nhất
quán thông qua việc xây dựng mới ontology từ một hoặc nhiều ontology đầu vào.
Việc tạo mới ontology như vậy diễn ra theo hai chiến lược: chiến lược thứ nhất,
dò tìm, đề xuất chỉnh sửa hoặc loại bỏ một số tiên đề gây nên sự không nhất
quán khỏi ontology [25, 29, 51, 54]; và chiến lược thứ hai, áp dụng lý thuyết đồng
thuận để xây dựng tập tiên đề hợp lý nhất (theo một tiêu chuẩn xác định trước)
có thể đại diện cho các ontology đầu vào [39, 40, 41, 43, 45, 46, 47, 48, 49]. Chiến
lược thứ nhất thường được sử dụng để duy trì sự nhất quán của một ontology,
trong khi đó, chiến lược thứ hai thường được sử dụng để xử lý xung đột trong
quá trình tích hợp ontology đến từ nhiều nguồn phân tán, độc lập nhau.
Xử lý tri thức không nhất quán theo phương pháp đồng thuận được thực
hiện thông qua việc xây dựng mô hình biểu diễn sự không nhất quán tri thức
(gọi là xung đột tri thức) – dưới dạng hồ sơ xung đột. Dựa vào độ sai khác giữa
các trạng thái tri thức (xác định bởi hàm đánh giá khoảng cách giữa hai trạng
3
thái tri thức) và tập tiêu chuẩn cho tri thức đồng thuận, người ta sẽ đề xuất
phương pháp xác định trạng thái tri thức đồng thuận có thể đại diện cho tập
trạng thái tri thức đầu vào. Phương pháp này được tác giả Nguyễn Ngọc Thành
đề xuất vào năm 2002 [40] và cùng với các cộng sự mở rộng trong các công trình
sau đó [42, 43, 46, 47].
• Trong các công trình [44, 45, 48], tác giả Nguyễn Ngọc Thành đã phân
loại xung đột trong quá trình tích hợp ontology theo các mức (mức khái
niệm, mức quan hệ, mức cá thể) và đề xuất các phương pháp để xử lý
xung đột theo các mức này. Xung đột mức khái niệm là chủ đề được đặc
biệt quan tâm xử lý bởi các khái niệm là thành phần quan trọng trong
ontology. Nhóm tác giả Dương Trọng Hải, Nguyễn Ngọc Thành và cộng
sự [9] kết hợp lý thuyết đồng thuận và xét thêm phân loại khái niệm của
các ontology đầu vào để cải tiến chất lượng của quá trình tích hợp. Nhóm
tác giả Nguyễn Ngọc Thành và Trương Hải Bằng [49, 58], Dương Trọng
Hải, Nguyễn Ngọc Thành và Kozierk [9] đã mở rộng các kết quả trên để
xử lý xung đột mức khái niệm trong quá trình tích hợp ontology mờ.
Trong bài toán xử lý xung đột mức khái niệm, cấu trúc khái niệm được
xét theo hai khía cạnh: tập thuộc tính mô tả khái niệm và miền giá trị của
thuộc tính. Tuy vậy, các nghiên cứu xử lý xung đột mức khái niệm trong
quá trình tích hợp ontology hiện nay chỉ tập trung xây dựng danh sách
thuộc tính của khái niệm cần tích hợp. Trong khi đó, miền giá trị của các
thuộc tính chỉ được xác định bằng cách lấy hợp của các miền giá trị thành
phần. Điều này có nghĩa xung đột về miền giá trị của thuộc tính là chưa
được xét đến. Luận án sẽ áp dụng mô hình tổng quát tích hợp tri thức
theo phương pháp đồng thuận [45] và đề xuất phương án xử lý xung đột
mức khái niệm trong quá trình tích hợp ontology, trong đó có xét đến cả
hai khía cạnh: danh sách thuộc tính và miền giá trị của thuộc tính.
• Một mức xung đột khác cũng có thể xảy ra trong quá trình tích hợp
ontology đó là xung đột mức tiên đề, theo đó, tập tiên đề của các ontology
tham gia tích hợp là có sai khác nhau hoặc thậm chí mâu thuẫn nhau.
Tình huống này cũng có thể thường xuyên xảy ra trong quá trình xây
dựng ontology theo kiểu phân tán, cộng tác, đa người dùng [6, 60, 61] mà
4
trong đó, một ontology có thể được xây dựng bởi nhiều người dùng tự
nguyện thông qua một wiki ngữ nghĩa [17, 27, 37] hoặc bởi các chuyên gia
được thuê [34].
Tuy nhiên, xung đột mức tiên đề trong quá trình tích hợp ontology hiện
vẫn là bài toán chưa có giải pháp tốt và thuyết phục như các mức khái
niệm, quan hệ hay cá thể. Bằng cách biểu diễn một tiên đề dưới dạng một
literal , mỗi ontology thành phần có thể được biểu diễn dưới dạng hội của
các literal đó. Như vậy, bài toán xử lý xung đột tập tiên đề có thể được dẫn
về bài toán xử lý xung đột ở cấp độ cú pháp của các công thức hội [45].
Luận án sẽ xây dựng khoảng cách giữa hai công thức hội, phân tích các
tiêu chuẩn cho công thức hội đồng thuận và đề xuất phương án tìm công
thức hội đồng thuận. Kết quả này có thể áp dụng cho bài toán xử lý xung
đột mức tiên đề.
3. Mục tiêu, đối tượng và phạm vi nghiên cứu của luận án
Đối tượng nghiên cứu của luận án là ontology, tri thức không nhất quán trong
ontology, và các phương pháp xử lý tri thức không nhất quán trong ontology.
Trên cơ sở phân tích các động lực nghiên cứu, luận án xác định mục tiêu xử lý
tri thức không nhất quán trong ontology theo hai tác vụ truy vấn và tích hợp.
Mục tiêu nghiên cứu cụ thể của luận án được giới hạn theo ba bài toán sau đây:
• Bài toán thứ nhất: Xác định câu trả lời có nghĩa khi truy vấn với ontology
không nhất quán. Trong bài toán này, luận án nghiên cứu đề xuất phương
pháp sử dụng ontology tham chiếu để tính khoảng cách ngữ nghĩa giữa hai
khái niệm, giữa hai biểu thức khái niệm, giữa hai tiên đề. Khoảng cách
ngữ nghĩa này sẽ được dùng để xây dựng hàm chọn của khung lập luận với
ontology không nhất quán [21].
• Bài toán thứ hai: Xử lý xung đột mức khái niệm trong quá trình tích hợp
ontology. Luận án sẽ áp dụng mô hình tổng quát tích hợp tri thức theo
phương pháp đồng thuận [45] để tìm đồng thuận cho cấu trúc khái niệm.
Sự không nhất quán trong cấu trúc khái niệm sẽ được giải quyết ở cả danh
sách thuộc tính và miền giá trị của các thuộc tính.
• Bài toán thứ ba: Xử lý xung đột mức tiên đề trong quá trình tích hợp
5
ontology. Trên cơ sở biểu diễn xung đột mức tiên đề trong quá trình tích
hợp ontology dưới dạng xung đột về cú pháp [45], luận án đánh giá độ sai
khác của các tập tiên đề và xây dựng phương pháp tìm tập tiên đề đồng
thuận theo các tiêu chuẩn dựa trên độ sai khác này.
4. Ý nghĩa khoa học và thực tiễn của luận án
Luận án nghiên cứu về các phương pháp xử lý tri thức không nhất quán
trong ontology. Các điểm mới trong nghiên cứu của luận án là:
• Đề xuất phương pháp sử dụng khoảng cách ngữ nghĩa theo ontology tham
chiếu trong hàm chọn của khung lập luận với ontology không nhất quán.
Hàm chọn được xây dựng sẽ không bị phụ thuộc cú pháp biểu diễn của các
tiên đề trong ontology.
• Đề xuất phương pháp dựa trên lý thuyết đồng thuận để xử lý xung đột
mức khái niệm trong quá trình tích hợp ontology ở cả hai khía cạnh: danh
sách thuộc tính và miền giá trị của các thuộc tính.
• Đề xuất phương pháp dựa trên lý thuyết đồng thuận để xử lý xung đột
mức tiên đề trong quá trình tích hợp ontology.
Các đóng góp về mặt lý thuyết của luận án có ý nghĩa lớn trong các vấn đề
thực tiễn:
• Góp phần giải quyết bài toán truy vấn với ontology không nhất quán. Đây
là vấn đề bức thiết trong thời đại dữ liệu liên kết mở (open linked data),
trong đó tri thức không nhất quán được xem là một đặc tính phải chấp
nhận.
• Góp phần giải quyết xung đột trong quá trình tích hợp ontology theo hướng
xây dựng trí tuệ nhóm (collective intelligence): Các kết quả lý thuyết về xử
lý xung đột mức khái niệm và về mức tiên đề có thể được áp dụng trong
bài toán xây dựng ontology theo kiểu cộng tác, đa người dùng của một
wiki hay wiki ngữ nghĩa – một nền tảng đang rất phổ biến hiện nay.
5. Nội dung và bố cục của luận án
Chương 1 trình bày tổng quan về xử lý tri thức không nhất quán trong
6
ontology theo hai hướng: (1) lập luận với ontology không nhất quán sử dụng
chiến lược mở rộng tuyến tính tập tiên đề diễn giải theo truy vấn đầu vào,
và (2) xử lý tri thức không nhất quán trong quá trình tích hợp ontology theo
phương pháp đồng thuận. Trong chương này luận án trình bày các khái niệm
cơ bản về khung lập luận với ontology không nhất quán sử dụng hàm chọn để
mở rộng tuyến tính tập tiên đề diễn giải. Hàm chọn dựa trên sự liên quan cú
pháp được giới thiệu trong chương như là ví dụ áp dụng khung lập luận và cũng
làm cơ sở để so sánh với hàm chọn dựa trên khoảng cách ngữ nghĩa sẽ được xây
dựng trong luận án. Luận án cũng trình bày phương pháp biểu diễn sự không
nhất quán tri thức theo mô hình hồ sơ xung đột. Phương pháp xây dựng đồng
thuận từ hồ sơ xung đột thông qua hàm đồng thuận cùng với các tiêu chuẩn cho
hàm đồng thuận cũng sẽ được trình bày trong chương. Các cơ sở lý thuyết này
được liên hệ đến bài toán xử lý tri thức không nhất quán trong quá trình tích
hợp ontology theo phương pháp đồng thuận.
Trong Chương 2, luận án trình bày cách xác định khoảng cách ngữ nghĩa
giữa hai thực thể trên ontology (dựa vào số cung nối của chúng trên cây phân
cấp). Trên cơ sở đó luận án xây dựng phương pháp hiệu quả để tính khoảng
cách ngữ nghĩa giữa hai biểu thức thực thể bất kỳ khi đặt trên cây phân cấp của
ontology này – gọi là ontology tham chiếu. Biểu thức thực thể ở đây có thể là biểu
thức lớp, biểu thức thuộc tính đối tượng hoặc thuộc tính dữ liệu trong ontology
OWL. Phần nội dung quan trọng của chương trình bày phương pháp xác định
tập biểu thức thực thể của một tiên đề trong ontology OWL và xây dựng hàm
chọn tập tiên đề diễn giải dựa vào khoảng cách ngữ nghĩa theo ontology tham
chiếu. Chương này cũng trình bày các kết quả thực nghiệm cho việc áp dụng
hàm chọn được đề xuất của luận án khi truy vấn với một số ontology không
nhất quán.
Chương 3 trình bày phương pháp đồng thuận xử lý tri thức không nhất quán
mức khái niệm trong quá trình tích hợp ontology. Trong chương này, luận án
giới thiệu mô hình tổng quát tích hợp tri thức theo phương pháp đồng thuận.
Luận án áp dụng mô hình này để xử lý tri thức không nhất quán mức khái
niệm theo hai khía cạnh: về danh sách thuộc tính và về miền giá trị của thuộc
tính trong đặc tả khái niệm cần tích hợp. Phương pháp xác định khoảng cách
7
giữa hai miền giá trị của thuộc tính đối tượng và thuộc tính dữ liệu trong các
ontology OWL cũng được trình bày trong chương này.
Trong Chương 4, luận án trình bày mô hình biểu diễn sự không nhất quán
tri thức mà trong đó một trạng thái tri thức được biểu diễn bằng một cấu trúc
hội của các literal. Sau khi xây dựng hàm đánh giá khoảng cách với cấu trúc
này, luận án phân tích các tiêu chuẩn của hàm đồng thuận và đưa ra phương
pháp xây dựng đồng thuận của hồ sơ các cấu trúc hội. Áp dụng kết quả này
luận án đề xuất phương pháp xử lý sự không nhất quán mức tiên đề trong quá
trình tích hợp ontology.
Phần kết luận trình bày tóm tắt những đóng góp chính của luận án, hướng
phát triển và những vấn đề cần giải quyết trong tương lai.
8
Chương 1.
TỔNG QUAN VỀ
XỬ LÝ TRI THỨC KHÔNG NHẤT QUÁN
TRONG ONTOLOGY
1.1. Ontology và tri thức không nhất quán
Có nhiều định nghĩa về ontology, nhưng định nghĩa thể hiện rõ bản chất của
ontology và được trích dẫn nhiều nhất là của T. Gruber và W. Brost [5, 14]:
“Ontology là một đặc tả hình thức, tường minh về một sự khái niệm hoá được
chia sẻ”. Một “sự khái niệm hoá” nói đến một mô hình trừu tượng của một hiện
tượng, chủ đề cụ thể bằng cách chỉ ra các khái niệm có liên quan của chủ đề đó.
Tính “tường minh” được hiểu theo nghĩa, các kiểu khái niệm được sử dụng, các
ràng buộc giữa chúng là được định nghĩa rõ ràng. Tính “hình thức” cho phép
ontology có thể được sử dụng bởi máy tính. Cuối cùng, tính “được chia sẻ” cho
biết, tri thức được mô tả bởi ontology được sự chấp nhận của một cộng đồng
chứ không phải một cá nhân đơn lẻ.
Các thành phần cấu trúc nên một ontology bao gồm tập các khái niệm, tập
các cá thể, tập các quan hệ và tập các tiên đề như định nghĩa dưới đây.
Định nghĩa 1.1 (Ontology [45]). Một ontology là một bộ bốn hC, I, R, Zi, trong
đó:
• C là tập hợp các khái niệm (các lớp).
• I là tập hợp các cá thể của các khái niệm.
• R là tập hợp các quan hệ.
• Z là tập hợp các tiên đề biểu diễn các ràng buộc toàn vẹn dùng để mô tả
các thực thể (khái niệm, cá thể, quan hệ).

9
Ở Định nghĩa 1.1, R còn được gọi là tập thuộc tính. Các thuộc tính p ∈ R
được định nghĩa bởi ánh xạ p : D → R, trong đó: D ⊆ C được gọi là miền xác
định của thuộc tính và R được gọi là miền giá trị của thuộc tính. Người ta phân
biệt hai loại thuộc tính: thuộc tính đối tượng dùng để liên kết các cá thể với
nhau, và thuộc tính dữ liệu dùng để liên kết các cá thể với các giá trị dữ liệu.
Một ontology có thể được xem là một tập tiên đề mô tả một tình huống cụ
thể, gọi là một trạng thái tri thức – trong một lĩnh vực đang được quan tâm
nào đó [26]. Chẳng hạn, ontology ở ví dụ dưới đây mô tả trạng thái tri thức cụ
thể thuộc lĩnh vực sở hữu thú nuôi của con người.
Ví dụ 1.1. Xét ontology Σ = hC, I, R, Zi với:
• C = {Animal, Person, AnimalLover, Pet, Cat, Dog }.
• I = { TOM, KITTY, MARY, JOHN }.
• R = { hasPet, hasAge }.
• Z = { Person v Animal,
Pet v Animal,
Cat v Pet,
Dog v Pet,
AnimalLover ≡ Person u (⩾3 hasPet.>),
Pet u Person v ⊥,
Dog u Cat v ⊥,
∃hasPet.> v Person,
> v ∀ hasPet.Pet,
∃hasAge.> v Person,
> v ∀hasAge.unsignedInt,
Cat(TOM),
Cat(KITTY),
Person(MARY),
Person(JOHN),
hasPet(MARY, KITTY),
hasAge(MARY, 25) }.
10