Luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng

pdf
Số trang Luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng 138 Cỡ tệp Luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng 3 MB Lượt tải Luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng 0 Lượt đọc Luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng 3
Đánh giá Luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng
4.4 ( 7 lượt)
Nhấn vào bên dưới để tải tài liệu
Đang xem trước 10 trên tổng 138 trang, để tải xuống xem đầy đủ hãy nhấn vào bên trên
Chủ đề liên quan

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN MAI VŨ NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CÓ TÊN VÀ THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG DỤNG LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2018 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN MAI VŨ NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CÓ TÊN VÀ THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG DỤNG Chuyên ngành: Hệ thống thông tin Mã số: 62.48.05.01 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS. Hà Quang Thụy 2. PGS.TS. Nguyễn Lê Minh Hà Nội – 2018 LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của các đồng tác giả trước khi đưa vào luận án. Các kết quả nêu trong luận án là trung thực và chưa từng được công bố trong các công trình nào khác. Tác giả Trần Mai Vũ 1 LỜI CẢM ƠN Luận án được thực hiện tại Bộ môn Hệ thống thông tin - Khoa Công nghệ thông tin - Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, dưới sự hướng dẫn khoa học của PGS.TS. Hà Quang Thụy và PGS.TS. Nguyễn Lê Minh. Trước tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy PGS.TS. Hà Quang Thụy và PGS.TS. Nguyễn Lê Minh, những người đã đưa tôi đến với lĩnh vực nghiên cứu này. Các thầy đã tận tình giảng dạy, hướng dẫn giúp tôi tiếp cận và đạt được thành công trong công việc nghiên cứu của mình. Các thầy đã luôn tận tâm động viên, khuyến khích và chỉ dẫn giúp tôi hoàn thành được bản luận án này. Tôi xin bày tỏ lòng biết ơn tới các Thầy Cô thuộc Khoa Công nghệ thông tin và cán bộ Phòng Đào tạo - Trường Đại học Công nghệ, đã tạo mọi điều kiện thuận lợi giúp đỡ tôi trong quá trình học tập và nghiên cứu tại trường. Tôi xin cảm ơn PGS. TS. Nigel Collier và cộng sự đã đóng góp ý kiến quý báu giúp tôi hoàn thiện bản luận án. Sự động viên, cổ vũ của bạn bè là nguồn động lực quan trọng để tôi hoàn thành luận án. Tôi xin bày tỏ lòng biết ơn sâu sắc tới gia đình, vợ và các con tôi đã tạo điểm tựa vững chắc cho tôi có được thành công như ngày hôm nay. Tác giả Trần Mai Vũ 2 MỤC LỤC LỜI CAM ĐOAN 1 LỜI CẢM ƠN 2 MỤC LỤC 3 DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT 7 DANH MỤC CÁC BẢNG 8 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 10 MỞ ĐẦU 11 Lý do chọn đề tài 11 Mục tiêu cụ thể và phạm vi nghiên cứu của luận án 12 Cấu trúc của luận án 15 Chương 1 - KHÁI QUÁT VỀ NHẬN DẠNG THỰC THỂ 1.1. Một số khái niệm cơ bản 17 17 1.1.1. Định nghĩa bài toán nhận dạng thực thể 17 1.1.2. Thách thức 19 1.1.3. Độ đo đánh giá 19 1.1.4. Ứng dụng của nhận dạng thực thể 21 1.2. Sơ lược về lịch sử nghiên cứu và một số hướng giải quyết bài toán 22 1.3. Nhận dạng thực thể trong dữ liệu văn bản tiếng Việt và một số nghiên cứu liên quan 24 1.3.1. Những thách thức đối với xử lý dữ liệu tiếng Việt 24 1.3.2. Động cơ nghiên cứu 26 1.3.3. Các nghiên cứu liên quan 26 1.4. Nhận dạng thực thể trong dữ liệu văn bản y sinh tiếng Anh và một số nghiên cứu liên quan 29 1.4.1. Những thách thức đối với xử lý dữ liệu y sinh 29 1.4.2. Động cơ nghiên cứu 30 1.4.3. Các nghiên cứu liên quan 31 3 1.5. Tổng kết chương 34 Chương 2 – NHẬN DẠNG THỰC THỂ TÊN NGƯỜI KẾT HỢP VỚI NHẬN DẠNG THUỘC TÍNH THỰC THỂ CÓ TÊN TRONG VĂN BẢN TIẾNG VIỆT 36 2.1. Giới thiệu 36 2.2. Các nghiên cứu liên quan 38 2.2.1. Các nghiên cứu liên quan trên thế giới 38 2.2.2. Các nghiên cứu liên quan ở Việt Nam 39 2.3. Một mô hình giải quyết bài toán nhận dạng thực thể tên người kết hợp với nhận dạng thuộc tính thực thể 40 2.3.1. Mô hình Entropy cực đại giải mã bằng tìm kiếm chùm (MEM+BS) 40 2.3.2. Phương pháp trường ngẫu nhiên có điều kiện (CRF) 41 2.3.3. Mô hình đề xuất 42 2.3.4. Tập đặc trưng 46 2.4. Thực nghiệm, kết quả và đánh giá 47 2.4.1. Công cụ và dữ liệu đánh giá 47 2.4.2. Kết quả thực nghiệm đánh giá trên toàn hệ thống 49 2.4.3. Kết quả thực nghiệm đánh giá trên từng nhãn 50 2.5. Mô hình áp dụng vào hệ thống hỏi đáp tên người tiếng Việt 52 2.5.1. Khái quát bài toán 52 2.5.2. Đặc trưng câu hỏi liên quan đến thực thể tên người trong tiếng Việt 53 2.5.3. Mô hình đề xuất 55 2.5.4. Phương pháp và dữ liệu đánh giá mô hình hỏi đáp tự động 61 2.5.6. Thực nghiệm và đánh giá 61 2.6. Tổng kết chương 64 Chương 3 – NHẬN DẠNG THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN Y SINH TIẾNG ANH 66 3.1. Giới thiệu 66 3.1.1. Động cơ và khái quát bài toán nhận dạng thực thể biểu hiện 4 66 3.1.2. Một số khái niệm cơ bản liên quan đến thực thể biểu hiện và một số thực thể liên quan 69 3.1.3. Vấn đề về thích nghi miền trong nhận dạng thực thể y sinh 74 3.2. Mô hình nhận dạng thực thể biểu hiện và một số thực thể liên quan 75 3.2.1. Cơ sở lý thuyết 76 3.2.2. Dữ liệu đánh giá và tài nguyên hỗ trợ 77 3.2.3. Mô hình đề xuất 82 3.2.4. Tập đặc trưng và đánh giá đặc trưng 84 3.2.5. Phương pháp đánh giá 88 3.3. Thực nghiệm 89 3.3.1. Thực nghiệm 1: đánh giá hiệu quả của mô hình đề xuất với các kỹ thuật học máy khác nhau 89 3.3.2. Thực nghiệm 2: so sánh kết quả của mô hình đề xuất với một số nghiên cứu liên quan 90 3.3.3. Thực nghiệm 3: đánh giá đóng góp của từng tài nguyên đối với kết quả nhận diện thực thể 94 3.3.4. Thực nghiệm 4: ứng dụng mô hình đề xuất để nhận dạng thực thể y sinh trong cuộc thi BioCreAtIvE V CDR Task 95 3.4. Thích nghi miền dữ liệu trong nhận dạng thực thể y sinh 97 3.4.1. Thực nghiệm 98 3.4.2. Kết quả và đánh giá 99 3.5. Tổng kết chương 101 Chương 4 – MỘT MÔ HÌNH NÂNG CẤP HIỆU QUẢ NHẬN DẠNG THỰC THỂ Y SINH DỰA TRÊN KỸ THUẬT LAI GHÉP VÀ HỌC XẾP HẠNG 103 4.1. Mô hình nâng cấp nhận dạng thực thể biểu hiện và các thực thể liên quan 103 4.2. Các phương pháp lai ghép được đề xuất 105 4.2.1 Phương pháp lai ghép sử dụng luật 105 4.2.2 Phương pháp lai ghép sử dụng học máy gán nhãn chuỗi 108 4.2.3 Phương pháp lai ghép sử dụng học xếp hạng 109 5 4.3. Thực nghiệm và đánh giá kết quả 111 4.3.1. Phương pháp đánh giá 111 4.3.2 Thực nghiệm đánh giá hiệu quả của từng phương pháp lai ghép 112 4.3.3 Thực nghiệm kiểm thử tin cậy trong quá trình đánh giá hiệu quả của các tài nguyên 114 4.3.4 Thảo luận và phân tích lỗi 115 4.4. Kết luận chương 118 KẾT LUẬN 120 DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ CÓ LIÊN QUAN ĐẾN LUẬN ÁN 122 TÀI LIỆU THAM KHẢO 123 6 DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT Kí hiệu Tiếng Anh Tiếng Việt NER Named Entity Recognition Nhận dạng thực thể định danh NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên BioNLP Biomedical Natural Language Xử lý ngôn ngữ tự nhiên cho Processing dữ liệu y sinh IE Information Extraction Trích xuất thông tin CRF Conditional Random Fields Trường ngẫu nhiên có điều kiện SVM Support Vector Machine Máy véctơ hỗ trợ SVM-LTR SVM-Learn to rank Học xếp hạng máy véctơ hỗ trợ ME Model, Maximum Entropy Model Maxent Model MEM+BS Maximum Entropy with Beam Search Mô hình Entropy cực đại Model Mô hình Entropy cực đại với giải mã tìm kiếm chùm 7 DANH MỤC CÁC BẢNG Bảng 2.1. Một ví dụ về trích chọn thực thể tên người và các thuộc tính liên quan 37 Bảng 2.2. Các nhãn được sử dụng trong mô hình 43 Bảng 2.3. Tập đặc trưng được sử dụng 46 Bảng 2.4. Thống kê thực thể trong tập dữ liệu được gán nhãn 48 Bảng 2.5. Kết quả đánh giá toàn hệ thống trên hai mô hình với hai phương pháp MEM+BS và CRF 49 Bảng 2.6. Kết quả thực nghiệm đối với từng nhãn 51 Bảng 2.7. Ví dụ về một số thành phần câu hỏi 56 Bảng 2.8. Các thành phần xuất hiện trong câu hỏi về thực thể tên người 57 Bảng 2.9. Ví dụ gán nhãn tổng quát cho câu hỏi về thực thể tên người tiếng Việt 58 Bảng 2.10. Thống kê trên tập dữ liệu câu hỏi đánh giá 61 Bảng 2.11. Kết quả đánh giá thành phần phân tích câu hỏi 62 Bảng 2.12. Kết quả đánh giá của hệ thống trả lời tự động 63 Bảng 3.1. Danh sách các bệnh tự miễn dịch được sử dụng để xây dựng dữ liệu Phenominer A 78 Bảng 3.2. Các đặc điểm của dữ liệu Phenominer A về bệnh tự miễn dịch và Phenominer B về bệnh tim mạch 80 Bảng 3.3. Các đặc trưng sử dụng trong thực nghiệm 84 Bảng 3.4. Thực nghiệm so sánh các phương pháp học máy khác nhau 90 Bảng 3.5. Thực nghiệm so sánh mô hình đề xuất và các hệ thống khác 92 Bảng 3.6. Kết quả đánh giá tài nguyên của mô hình nhận dạng thực thể 94 Bảng 3.7. Thống kê trên ba tập dữ liệu của nhiệm vụ CDR [WPL15] 96 Bảng 3.8. Kết quả mô hình nhận dạng trên tập dữ liệu kiểm thử 96 Bảng 3.9. Kết quả F1 của hệ thống NER sử dụng phương pháp thực nghiệm 1-6. 99 Bảng 4.1. Các đặc trưng được MEM + BS sử dụng để quyết định kết quả 109 Bảng 4.2. Kết quả của mô hình trên tập dữ liệu Phenominer A khi sử dụng các phương pháp khác nhau để lai ghép kết quả 8 112
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.