Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng mô hình đối thoại cho Tiếng Việt trên miền mở dựa vào phương pháp học chuỗi liên tiếp

pdf
Số trang Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng mô hình đối thoại cho Tiếng Việt trên miền mở dựa vào phương pháp học chuỗi liên tiếp 65 Cỡ tệp Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng mô hình đối thoại cho Tiếng Việt trên miền mở dựa vào phương pháp học chuỗi liên tiếp 2 MB Lượt tải Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng mô hình đối thoại cho Tiếng Việt trên miền mở dựa vào phương pháp học chuỗi liên tiếp 0 Lượt đọc Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng mô hình đối thoại cho Tiếng Việt trên miền mở dựa vào phương pháp học chuỗi liên tiếp 2
Đánh giá Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng mô hình đối thoại cho Tiếng Việt trên miền mở dựa vào phương pháp học chuỗi liên tiếp
4.9 ( 11 lượt)
Nhấn vào bên dưới để tải tài liệu
Đang xem trước 10 trên tổng 65 trang, để tải xuống xem đầy đủ hãy nhấn vào bên trên
Chủ đề liên quan

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  NHỮ BẢO VŨ XÂY DỰNG MÔ HÌNH ĐỐI THOẠI CHO TIẾNG VIỆT TRÊN MIỀN MỞ DỰA VÀO PHƯƠNG PHÁP HỌC CHUỖI LIÊN TIẾP LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  NHỮ BẢO VŨ XÂY DỰNG MÔ HÌNH ĐỐI THOẠI CHO TIẾNG VIỆT TRÊN MIỀN MỞ DỰA VÀO PHƯƠNG PHÁP HỌC CHUỖI LIÊN TIẾP Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Nguyễn Văn Nam HÀ NỘI – 2016 LỜI CAM ĐOAN Tôi là Nhữ Bảo Vũ, học viên khóa K21, ngành Công nghệ thông tin, chuyên ngành Hệ Thống Thông Tin. Tôi xin cam đoan luận văn “Xây dựng mô hình đối thoại cho tiếng Việt trên miền mở dựa vào phương pháp học chuỗi liên tiếp” là do tôi nghiên cứu, tìm hiểu và phát triển dưới sự hướng dẫn của TS. Nguyễn Văn Nam. Luận văn không phải sự sao chép từ các tài liệu, công trình nghiên cứu của người khác mà không ghi rõ trong tài liệu tham khảo. Tôi xin chịu trách nhiệm về lời cam đoan này. Hà Nội, ngày tháng năm 2016 LỜI CẢM ƠN Đầu tiên tôi xin gửi lời cảm ơn tới các thầy cô Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội đã tận tình giảng dạy và truyền đạt kiến thức trong suốt khóa học cao học vừa qua. Tôi cũng xin được gửi lời cảm ơn đến các thầy cô trong Bộ môn Hệ thống thông tin cũng như Khoa công nghệ thông tin đã mang lại cho tôi những kiến thức vô cùng quý giá và bổ ích trong quá trình học tập tại trường. Đặc biệt xin chân thành cảm ơn thầy giáo, TS. Nguyễn Văn Nam, người đã định hướng, giúp đỡ, trực tiếp hướng dẫn và tận tình chỉ bảo tôi trong suốt quá trình nghiên cứu, xây dựng và hoàn thiện luận văn này. Tôi cũng xin được cảm ơn tới gia đình, những người thân, các đồng nghiệp và bạn bè đã thường xuyên quan tâm, động viên, chia sẻ kinh nghiệm, cung cấp các tài liệu hữu ích trong thời gian học tập, nghiên cứu cũng như trong suốt quá trình thực hiện luận văn tốt nghiệp. Hà Nội, ngày tháng năm 2016 MỤC LỤC LỜI CAM ĐOAN ............................................................................................................2 LỜI CẢM ƠN ..................................................................................................................3 MỤC LỤC .......................................................................................................................4 DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT .....................................................6 DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ .............................................................................7 TÓM TẮT........................................................................................................................8 GIỚI THIỆU CHUNG ....................................................................................................9 1. CHƯƠNG 1: TỔNG QUAN VỀ HỆ THỐNG TRẢ LỜI TỰ ĐỘNG...................12 1.1 Hệ thống đối thoại người máy .........................................................................12 1.2 Tình hình nghiên cứu trong và ngoài nước ......................................................13 1.3 Phân loại các mô hình trả lời tự động ..............................................................15 1.3.1 Phân loại theo miền ứng dụng ...................................................................16 1.3.2 Phân loại theo khả năng trả lời mẫu hỏi ....................................................16 1.3.3 Phân loại theo mức độ dài, ngắn của đoạn đối thoại.................................17 1.3.4 Phân loại theo hướng tiếp cận ...................................................................18 2. CHƯƠNG 2: CƠ SỞ MẠNG NƠ RON NHÂN TẠO ...........................................20 2.1 Kiến trúc mạng nơ ron nhân tạo.......................................................................20 2.2 Hoạt động của mạng nơ-ron nhân tạo ..............................................................22 2.3 Mạng nơ-ron tái phát và ứng dụng...................................................................25 2.3.1 Mạng nơ-ron tái phát .................................................................................25 2.3.2 Các ứng dụng của RNN ............................................................................26 2.3.3 Huấn luyện mạng ......................................................................................27 2.3.4 Các phiên bản mở rộng của RNN ..................................................................28 2.4 Mạng Long Short Term Memory.....................................................................29 2.4.1 Vấn đề phụ thuộc quá dài ...........................................................................29 2.4.2 Kiến trúc mạng LSTM ................................................................................31 2.4.3 Phân tích mô hình LSTM ...........................................................................32 3. CHƯƠNG 3: MÔ HÌNH ĐỐI THOẠI VỚI MẠNG NƠ-RON .............................36 3.1 Mô hình ngôn ngữ phát sinh văn bản...............................................................36 3.2 Mô hình chuỗi tuần tự liên tiếp seq2seq ..........................................................38 3.3 Mô hình đối thoại seq2seq ...............................................................................41 3.4 Những thách thức chung khi xây dựng mô hình đối thoại ..............................41 3.4.1 Phụ thuộc bối cảnh......................................................................................42 3.4.2 Kết hợp tính cách ........................................................................................42 4. CHƯƠNG 4: XÂY DỰNG MÔ HÌNH ĐỐI THOẠI CHO TIẾNG VIỆT ............43 4.1 Kiến trúc ứng dụng...............................................................................................43 4.2 Cài đặt mô hình ....................................................................................................45 4.3 Các vấn đề và giải pháp khắc phục ......................................................................46 5. CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ MÔ HÌNH ................................50 4.1 Dữ liệu và công cụ thực nghiệm ......................................................................50 4.2 Tách từ tập dữ liệu tiếng Việt ..........................................................................52 4.3 Khung làm việc Tensorflow.............................................................................52 4.4 Kết quả thực nghiệm ........................................................................................53 KẾT LUẬN ...................................................................................................................59 TÀI LIỆU THAM KHẢO .............................................................................................60 DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Từ viết tắt AI ML ANN RNN CNN LSTM NLP Từ chuẩn Artificial Intelligence Machine Learning Artificial Nerual Network Recurrent Neural Network Convolutional Neural Networks Long short-term memory NLTK Natural Languague Processing Vietnamese Languague Toolkit Natural Language Toolkit Python Python VNTK SDK CPU GPU Support Development Kit Central Processing Unit Graphics Processing Unit API Application Programming Interface Question Answering Bilingual Evaluation Understudy QA BLEU Diễn giải Trí tuệ nhân tạo Máy học, máy móc có khả năng học tập Mạng nơ ron nhân tạo Mạng nơ ron tái phát Mạng nơ ron tích chập Mạng cải tiến để giải quyết vấn đề phụ thuộc quá dài Xử lý ngôn ngữ tự nhiên Bộ công cụ xử lý ngôn ngữ tiếng Việt Bộ công cụ xử lý ngôn ngữ tự nhiên bằng Python Ngôn ngữ lập trình python, nền tảng lập trình phía máy chủ Bộ công cụ hỗ trợ phát triển Bộ xử lý trung tâm Bộ vi xử lý chuyên dụng nhận nhiệm vụ tăng tốc, xử lý đồ họa cho bộ vi xử lý trung tâm CPU Giao diện lập trình ứng dụng Các cặp câu hỏi đáp Thuật toán để đánh giá chất lượng của một văn bản được sinh ra từ một mô hình ngôn ngữ tự nhiên DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ Hình 1.1: Mô hình chuỗi có thể sinh sản ............................................................ 18 Hình 2.1: Kiến trúc mạng nơ-ron nhân tạo ......................................................... 21 Hình 2.2: Quá trình xử lý thông tin của một mạng nơ-ron nhân tạo. ................. 22 Hình 2.3: Ứng dụng RNN trong máy dịch. ......................................................... 26 Hình 2.4: Ứng dụng RNN phát sinh mô tả cho ảnh. ........................................... 27 Hình 2.5: Mạng RNN hai chiều. ......................................................................... 28 Hình 2.6: Mạng RNN nhiều tầng. ....................................................................... 29 Hình 2.7: RNN phụ thuộc short-term. ................................................................. 30 Hình 2.8: RNN phụ thuộc long-term................................................................... 30 Hình 2.9: Các mô-đun lặp của mạng RNN chứa một layer. ............................... 31 Hình 2.10: Các mô-đun lặp của mạng LSTM chứa bốn layer. ........................... 32 Hình 2.11: Các kí hiệu sử dụng trong mạng LSTM............................................ 32 Hình 2.12: Tế bào trạng thái LSTM giống như một băng truyền. ...................... 33 Hình 2.13: Cổng trạng thái LSTM. ..................................................................... 33 Hình 2.14: LSTM focus f. ................................................................................... 34 Hình 2.15: LSTM focus i. ................................................................................... 34 Hình 2.16: LSTM focus c.................................................................................... 35 Hình 2.17: LSTM focus o. .................................................................................. 35 Hình 3.1: Mô hình phát sinh văn bản .................................................................. 37 Hình 3.2: Quá trình huấn luyện và phát sinh văn bản ......................................... 37 Hình 3.3: Mô hình chuỗi liên tiếp (chuỗi sang chuỗi) seq2seq. ......................... 40 Hình 3.4: Mô hình đối thoại seq2seq. ................................................................. 41 Hình 3.6: Vấn đề phụ thuộc bối cảnh và tính cách. ............................................ 42 Hình 4.1: Kiến trúc mô hình đối thoại cho tiếng Việt. ....................................... 44 TÓM TẮT Con người và máy móc luôn có các mối quan hệ chặt chẽ với nhau. Chúng ta đang tham gia vào một sự thay đổi văn hóa rất lớn trong vài năm qua, vì con người vốn là sinh vật chịu trách nhiệm về hành động, trong khi máy móc là thiết bị an toàn trong một số tình huống không mong muốn. Tuy nhiên, hiện nay các vai trò đã được đảo ngược, các máy móc thường phụ trách công việc trong khi con người chỉ đơn giản là giám sát, theo dõi. Mô hình hóa đối thoại là một nhiệm vụ quan trọng trong bài toán hiểu ngôn ngữ tự nhiên, và máy học thông minh. Các phương pháp tiếp cận trước đây thường giới hạn trong một lĩnh vực cụ thể, ví dụ như đặt vé trực tuyến, tư vấn ghi danh trực tuyến, tìm kiếm thông tin y tế, … và yêu cầu phải thiết kế được các bộ luật học bằng tay, mất nhiều công sức mà hiệu quả đạt được không cao, khó mở rộng mô hình và các ứng dụng có liên quan. Trong đề tài này, chúng tôi sẽ nghiên cứu, xây dựng một mô hình đối thoại cho tiếng Việt, dựa trên phương pháp học chuỗi liên tiếp, sequence-to-sequence, để sinh ra câu trả lời từ một chuỗi đầu vào tương ứng. Lợi thế của phương pháp này là mô hình có thể được huấn luyện end-to-end trên tập dữ liệu có sẵn, và yêu cầu ít hơn các luật bằng tay. Kết quả chính của chúng tôi đạt được một mô hình đối thoại sử dụng các mạng học sâu để sinh ra câu trả lời bằng tiếng Việt, tương ứng với một câu hỏi chuỗi đầu vào. Mô hình ban đầu đã cho kết quả rất tính cực, có thể giải quyết được những vấn đề cơ bản về ngữ nghĩa, ngữ cảnh và tính cách riêng trong hệ thống đối thoại. GIỚI THIỆU CHUNG Máy học (ML) và trí tuệ nhân tạo (AI) đang nhanh chóng được đưa vào ứng dụng trong các sản phẩm công nghiệp, thúc đẩy tính dân chủ về trí thông minh, mặc dù điều này chỉ đúng đối với tri thức bậc thấp. Bởi vì một mặt, một lượng lớn các dịch vụ, các công cụ sẵn sàng cho người dùng cuối, mặt khác, quyền lực thực sự đang tập trung vào tay của các ông lớn với các dữ liệu lớn sẵn có và tài nguyên tính toán thực sự để khai thác AI/ML đến các mức độ cao cấp hơn. 1. Động lực nghiên cứu và tính cấp thiết của bài toán thực tế Trong bối cảnh mạng xã hội đã trở nên rất phổ biến như hiện nay, con người kết nối với con người thông qua mạng xã hội, bất cứ thời gian nào và ở bất cứ nơi đâu. Sẽ thật tốt hơn nếu có một hệ thống tự động thông minh hỗ trợ con người bằng cách trò chuyện, có khả năng nhắc nhở, làm trợ lý công việc và có thể theo dõi tình trạng sức khỏe cá nhân mọi lúc, mọi nơi. Khái niệm Trợ lý ảo, Chatbot, hay Hệ thống trả lời tự động đang là chủ đề rất nóng từ đầu năm nay 2016, khi chính thức các công ty lớn như Microsoft (Cortana), Google (Google Assistant), Facebook (M), Apple (Siri), Samsung (Viv), WeChat, Slack đã giới thiệu các trợ lý ảo của mình, là các hệ thống trả lời tự động. Chính thức đặt cược lớn vào cuộc chơi chatbot, với mong muốn tạo ra một trợ lý ảo thực sự thông minh tồn tại trong hệ sinh thái các sản phẩm của mình. Không chỉ các ông lớn! Một làn sóng khởi nghiệp mới đang cố gắng tạo ra các dịch vụ nhằm thay đổi cách khách hàng tương tác bằng các dịch vụ trợ lý ảo. Nhằm trợ giúp người dùng, khách hàng của mình có những trải nghiệm tốt nhất về sản phẩm và cách dịch vụ cung cấp. Nổi bật nhất trong đó phải kể đến các ứng dụng tích hợp trợ lý ảo như operator.com, x.ai, reply.ai, các nền tảng dịch vụ như Chatfuel. Gần đây nhất Microsoft đã tạo ra một framework cho phép các nhà phát triển tạo ra các chatbot trên nền tảng Web, hay Facebook cũng phát hành F8 SDK cho phép nhà phát triển tích hợp vào Messenger. Ở trong nước, một số công ty như Quản lý Hồ sơ y tế điện tử ERM.,JSC và Vietcare đã phát triển tạo ra hệ thống trả lời tự động về kiến thức y khoa, hỏi đáp về sức khỏe thông tin y tế, hay RiveHub, Subiz, … cũng đang cố gắng tạo ra cho mình một hệ thống hỗ trợ, chăm sóc khách hàng và bán hàng tự động.
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.