Luận án tiến sĩ Kỹ thuật: Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet

pdf
Số trang Luận án tiến sĩ Kỹ thuật: Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet 153 Cỡ tệp Luận án tiến sĩ Kỹ thuật: Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet 3 MB Lượt tải Luận án tiến sĩ Kỹ thuật: Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet 0 Lượt đọc Luận án tiến sĩ Kỹ thuật: Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet 0
Đánh giá Luận án tiến sĩ Kỹ thuật: Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet
4.9 ( 11 lượt)
Nhấn vào bên dưới để tải tài liệu
Đang xem trước 10 trên tổng 153 trang, để tải xuống xem đầy đủ hãy nhấn vào bên trên
Chủ đề liên quan

Nội dung

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Dương Trần Đức MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội – Năm 2018 i HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Dương Trần Đức MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET Chuyên ngành: Kỹ thuật máy tính Mã số: 9.48.01.06 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS PHẠM BẢO SƠN 2. TS. TÂN HẠNH Hà Nội – Năm 2018 ii LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện. Các số liệu và kết quả trình bày trong luận án là trung thực, chưa được công bố bởi bất kỳ tác giả nào hay ở bất kỳ công trình nào khác. Tác giả Dương Trần Đức iii LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành tới Khoa Đào tạo Sau Đại học, Khoa Công nghệ Thông tin, Ban Lãnh đạo Học viện Công nghệ Bưu chính Viễn thông, các Quý Thầy Cô đã giúp tôi trang bị kiến thức, tạo điều kiện thuận lợi cho tôi trong suốt quá trình thực hiện Luận án này. Đồng thời, tôi xin bày tỏ lòng cảm ơn chân thành và sâu sắc tới PGS. TS. Phạm Bảo Sơn và TS. Tân Hạnh, những người đã tận tình khuyến khích và hướng dẫn trong quá trình thực hiện để tôi có thể hoàn thành Luận án. Xin chân thành cảm ơn các đồng nghiệp, các nhà khoa học, các thầy cô giáo công tác tại Khoa Công nghệ Thông tin, Học viện Công nghệ Bưu chính Viễn thông, Đại học Công nghệ - Đại học Quốc gia Hà Nội đã động viên, hỗ trợ tôi trong quá trình thực hiện Luận án. Cuối cùng, xin gửi lời tri ân sâu sắc tới gia đình, bạn bè, những người đã luôn động viên, khuyến khích, là chỗ dựa tinh thần cho tôi trong thời gian thực hiện Luận án. iv MỤC LỤC Trang TRANG PHỤ BÌA ................................................................................................... i LỜI CAM ĐOAN ................................................................................................... ii LỜI CẢM ƠN ........................................................................................................ iii MỤC LỤC ............................................................................................................. iv DANH MỤC BẢNG BIỂU ................................................................................... vii DANH MỤC HÌNH VẼ ....................................................................................... viii DANH MỤC CÁC TỪ VIẾT TẮT ........................................................................ ix MỞ ĐẦU ................................................................................................................ 1 1. LÝ DO LỰA CHỌN ĐỀ TÀI ...................................................................... 1 2. MỤC TIÊU CỦA LUẬN ÁN ...................................................................... 3 3. PHẠM VI NGHIÊN CỨU ........................................................................... 4 4. CÁC ĐÓNG GÓP CỦA LUẬN ÁN ............................................................ 4 5. BỐ CỤC CỦA LUẬN ÁN ........................................................................... 5 CHƯƠNG 1: TỔNG QUAN VỀ XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG ............ 1 1.1 XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA PHÂN TÍCH VĂN BẢN ........................................................................................................... 1 1.1.1 Giới thiệu............................................................................................. 1 1.1.2 Đặc điểm của văn bản trực tuyến ......................................................... 4 1.1.3 Các dạng thức trong phân tích tác giả văn bản ..................................... 5 1.1.4 Các kỹ thuật phân tích........................................................................ 11 1.1.5 Các đặc trưng nhận diện..................................................................... 15 1.2 NHẬN DIỆN ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA PHÂN TÍCH HÀNH VI .......................................................................................................... 24 1.2.1 Giới thiệu........................................................................................... 24 1.2.2 Tập đặc trưng hành vi ........................................................................ 25 1.2.3 Các kỹ thuật phân tích........................................................................ 28 1.2.4 Nhận xét và đánh giá ......................................................................... 29 v 1.3 CÔNG CỤ THỰC NGHIỆM ................................................................... 30 1.4 KẾT LUẬN CHƯƠNG ............................................................................ 31 CHƯƠNG 2: XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG VIỆT ..................................................................................................................... 33 2.1 XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG VIỆT SỬ DỤNG CÁC ĐẶC TRƯNG CƠ BẢN ......................................................... 34 2.1.1 Giới thiệu........................................................................................... 34 2.1.2 Phương pháp ...................................................................................... 35 2.1.3 Thực nghiệm...................................................................................... 40 2.1.4 Kết luận ............................................................................................. 47 2.2 SỬ DỤNG CÁC ĐẶC TRƯNG NỘI DUNG ........................................... 47 2.2.1 Giới thiệu........................................................................................... 47 2.2.2 Phương pháp ...................................................................................... 48 2.2.3 Thực nghiệm...................................................................................... 49 2.2.4 Kết luận ............................................................................................. 61 2.3 SỬ DỤNG CÁC ĐẶC TRƯNG VẦN VÀ ÂM TIẾT TIẾNG VIỆT ........ 62 2.3.1 Giới thiệu........................................................................................... 62 2.3.2 Tổng quan về các nghiên cứu phân tích tác giả sử dụng các đặc trưng dựa trên từ vựng............................................................................................. 63 2.3.3 Âm tiết và vần trong tiếng Việt .......................................................... 66 2.3.4 Phương pháp ...................................................................................... 68 2.3.5 Thực nghiệm...................................................................................... 70 2.3.6 Kết luận ............................................................................................. 78 2.4 KẾT LUẬN CHƯƠNG ............................................................................ 79 CHƯƠNG 3: XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG DỰA TRÊN DỮ LIỆU LỊCH SỬ TRUY CẬP HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ ............................ 81 3.1 PHƯƠNG PHÁP TÁI CHỌN MẪU ........................................................ 82 3.1.1 Giới thiệu........................................................................................... 82 3.1.2 Phương pháp ...................................................................................... 82 3.1.3 Thực nghiệm...................................................................................... 87 vi 3.1.4 Kết luận ............................................................................................. 93 3.2 PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN BIỂU DIỄN CÂY ................................................................................................................. 94 3.2.1 Giới thiệu........................................................................................... 94 3.2.2 Phương pháp ...................................................................................... 95 3.2.3 Thực nghiệm ................................................................................... 101 3.3 KẾT LUẬN CHƯƠNG .......................................................................... 106 KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO ..................................... 107 1. KẾT LUẬN ............................................................................................. 107 2. HƯỚNG NGHIÊN CỨU TIẾP THEO..................................................... 109 DANH MỤC CÔNG TRÌNH CÔNG BỐ ............................................................ 110 TÀI LIỆU THAM KHẢO ................................................................................... 112 PHỤ LỤC 1: XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ VĂN BẢN TIẾNG VIỆT.................................................................... 125 1.1 ĐẶT VẤN ĐỀ ....................................................................................... 125 1.2 MÔ TẢ HỆ THỐNG .............................................................................. 126 1.2.1 Sơ đồ hệ thống ................................................................................. 126 1.2.2 Chức năng Thu thập dữ liệu ............................................................. 126 1.2.3 Chức năng Xử lý dữ liệu .................................................................. 127 1.2.4 Chức năng Trích chọn đặc trưng ...................................................... 128 1.2.5 Chức năng Xây dựng mô hình nhận diện ......................................... 129 1.2.6 Chức năng Xây dựng dịch vụ nhận diện ........................................... 129 1.2.7 Chức năng Ứng dựng Web thử nghiệm sử dụng dịch vụ .................. 129 1.3 XÂY DỰNG HỆ THỐNG...................................................................... 130 1.3.1 Mô đun Thu thập dữ liệu.................................................................. 130 1.3.2 Mô đun Xử lý dữ liệu và trích chọn đặc trưng .................................. 130 1.3.4 Mô đun Xây dựng dịch vụ nhận diện ............................................... 133 1.3.5 Mô đun ứng dụng thử nghiệm sử dụng dịch vụ ................................ 133 1.4 KẾT LUẬN ............................................................................................ 135 vii DANH MỤC BẢNG BIỂU Bảng 1.1. Các đặc trưng dựa theo phong cách ....................................................... 19 Bảng 2.1 Các đặc trưng cơ bản.............................................................................. 39 Bảng 2.2. Thống kê về tập dữ liệu huấn luyện ....................................................... 41 Bảng 2.3. Kết quả xác định đặc điểm tác giả bài viết diễn đàn .............................. 44 Bảng 2.4. Kết quả thực nghiệm sử dụng các đặc trưng nâng cao ........................... 55 Bảng 2.5. Kết quả trên thuật toán SMO sau khi điều chỉnh tham số ...................... 58 Bảng 2.6. Những đặc trưng nội dung (từ nội dung) quan trọng nhất ...................... 60 Bảng 2.7. Cấu trúc âm tiết tiếng Việt .................................................................... 68 Bảng 2.9. Các đặc trưng ........................................................................................ 70 Bảng 2.10. Kết quả xác định đặc điểm tác giả sử dụng các đặc trưng vần và âm tiết .............................................................................................................................. 71 Bảng 2.11. Các vần và âm tiết quan trọng trong nhận diện tác giả ......................... 73 Bảng 3.2. Các đặc trưng chung ............................................................................. 84 Bảng 3.3. Các đặc trưng dựa trên sản phẩm .......................................................... 85 Bảng 3.3. Các đặc trưng dựa trên sản phẩm chuyển tiếp........................................ 85 Bảng 3.4. Thống kê dữ liệu ................................................................................... 88 Bảng 3.5. Ma trận chi phí ...................................................................................... 90 Bảng 3.6. Kết quả của các thực nghiệm trên các thuật toán khác nhau (chưa áp dụng kỹ thuật hỗ trợ) ...................................................................................................... 91 Bảng 3.8. Kết quả thực nghiệm khi áp dụng thêm các kỹ thuật hỗ trợ ................... 92 Bảng 3.9. Các đặc trưng về sản phẩm/loại sản phẩm riêng rẽ ................................ 95 Bảng 3.10. Các đặc trưng nâng cao ..................................................................... 100 Bảng 3.11. Kết quả thực nghiệm khi sử dụng ClassBalancer kết hợp CosSensitiveClassifier với ma trận chi phí 1:3 ..................................................... 102 Bảng 3.12. Kết quả phân loại sau khi lựa chọn đặc trưng và tối ưu tham số ........ 105 viii DANH MỤC HÌNH VẼ Hình 2.2. Độ chính xác nhận diện trên các số lượng đặc trưng khác nhau ............. 59 Hình 3.1. Biểu diễn dạng cây của danh mục sản phẩm/loại sản phẩm được xem ... 96 Hình 3.2. Biểu diễn dạng cây của lượt xem có 1 loại sản phẩm mức A ................. 97 Hình 3.3. Biểu diễn dạng cây của lượt xem có nhiều loại sản phẩm mức A........... 97 Hình 1 Sơ đồ tổng quát của hệ thống .................................................................. 127 Hình 2 Giao diện mô đun xử lý dữ liệu và trích chọn đặc trưng ......................... 131 Hình 3 Giao diện mô đun Xây dựng mô hình nhận diện...................................... 132 Hình 4 Giao diện mô đu thử nghiệm nhận diện tác giả văn bản........................... 132 Hình 5 Mã nguồn dịch vụ Web xác định đặc điểm tác giả................................... 134 Hình 6 Giao diện ứng dụng Web sử dụng dịch vụ ............................................... 134 Hình 7 Mã nguồn mô đun ứng dụng Web sử dụng dịch vụ ................................. 135 ix DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt BAC Balanced Accuracy Độ đo chính xác cân bằng BMR Bayesian Multinomial Regression Hồi quy đa thức Bayes BN Bayesian Networks Mạng Bayes BNC British National Corpus Kho ngữ liệu quốc gia Anh BPN Back Propagation Network Mạng truyền ngược DT Decision Tree Cây quyết định EG Exponential Gradient Gradient mũ EM Expectation Maximization Cực đại hóa kỳ vọng ID Information Gain Độ lợi thông tin IRS Information Retrieval Similarity Độ tương tự trích xuất thông tin JAX-RS Java API for RESTful Web Services Giao diện lập trình ứng dụng Java cho dịch vụ Web REST JSON Javascript Object Notion KLS Kullback–Leibler Similarity Độ tương tự Kullback–Leibler National Institute of Standards Viện Tiêu chuẩn và Công nghệ and Technology Quốc gia (Hoa Kỳ) – Pacific Asia Knowledge Discovery and Data Mining Hội nghị về Phát hiện tri thức và Khai phá dữ liệu Châu Á TBD NIST PAKDD
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.