Luận văn thạc sĩ: Xây dựng hệ thống trợ giúp người cơ tu học tin học văn phòng

pdf
Số trang Luận văn thạc sĩ: Xây dựng hệ thống trợ giúp người cơ tu học tin học văn phòng 25 Cỡ tệp Luận văn thạc sĩ: Xây dựng hệ thống trợ giúp người cơ tu học tin học văn phòng 792 KB Lượt tải Luận văn thạc sĩ: Xây dựng hệ thống trợ giúp người cơ tu học tin học văn phòng 0 Lượt đọc Luận văn thạc sĩ: Xây dựng hệ thống trợ giúp người cơ tu học tin học văn phòng 0
Đánh giá Luận văn thạc sĩ: Xây dựng hệ thống trợ giúp người cơ tu học tin học văn phòng
4.1 ( 14 lượt)
Nhấn vào bên dưới để tải tài liệu
Đang xem trước 10 trên tổng 25 trang, để tải xuống xem đầy đủ hãy nhấn vào bên trên
Chủ đề liên quan

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG BÙI THANH PHÚ XÂY DỰNG HỆ THỐNG TRỢ GIÚP NGƯỜI CƠ TU HỌC TIN HỌC VĂN PHÒNG Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2013 Công trình được hoàn thành tại ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS. PHAN HUY KHÁNH Phản biện 1: TS. HUỲNH CÔNG PHÁP Phản biện 2: TS. NGUYỄN MẬU HÂN Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật họp tại Đại học Đà Nẵng vào ngày 18 tháng 5 năm 2013. Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại Học Đà Nẵng 1 MỞ ĐẦU 1. Lý do chọn đề tài Văn hóa Cơtu có từ lâu đời, đó là văn hóa Làng, văn hóa cộng đồng và văn hóa dân gian lành mạnh, trong sáng. Văn hóa dân tộc Cơtu nói chung, chữ viết của người Cơtu nói riêng là một trong những bộ phận cấu thành tạo nên một “Nền văn hóa Việt Nam đậm đà bản sắc dân tộc”. Tiếng Cơtu đang có nguy cơ bị mai một và mất đi. Đặc biệt, thế hệ trẻ ngày nay nhiều người đã tiếp cận nền văn hóa hiện đại từ nhỏ nên không biết tiếng mẹ đẻ. Nguy cơ thất truyền chữ viết của đồng bào Cơtu đang là vấn đề rất cấp thiết, rất cần một giải pháp nhằm bảo tồn chữ viết của đồng bào. Các địa phương miền Trung tổ chức dạy học nội trú cho con em đồng bào Cơtu. Nhằm giúp đồng bào có nhiều kinh nghiệm về phát triển kinh tế, chăm sóc sức khoẻ, bảo tồn và phát huy các giá trị văn hoá đặc sắc của các dân tộc, giữ vững an ninh biên giới... Quá trình dạy của giáo viên đối với học sinh người Cơtu còn gặp nhiều khó khăn, trong cùng lớp học thì các em thường có số điểm thấp hơn các em học sinh khác. Đồng thời vì trở ngại về mặt ngôn ngữ nên các em học sinh người Cơtu vẫn khó khăn trong việc tiếp thu kiến thức, đặt biệt là các môn tự nhiên, trong đó có môn Tin học. Ngày nay, chúng ta không thể tìm thấy một văn bản chính thức nào của nhà nước mà không được thực hiện trên máy tính. Việc soạn thảo văn bản giờ đây đã trở nên quen thuộc với tất cả mọi người. Tuy nhiên, không phải ai cũng nắm vững các nguyên tắc gõ văn bản cơ bản nhất, đa số sinh viên tốt nghiệp các trường đại học không nắm vững các qui tắc này! Từ các thực tế đó, chúng tôi đề xuất đề tài: “Xây dựng hệ thống trợ giúp học sinh người Cơtu học tin học văn phòng”. 2 2. Mục tiêu của đề tài c tiêu chính mà đề tài hướng đến là nghiên cứu các vấn đề về xử lý ngôn tiếng Việt như kỹ thuật tách từ tiếng Việt, kho ngữ vựng song ngữ, xây dựng hệ thống hỏi-đáp tự động. Xây dựng kho ngữ vựng Cơtu có cấu trúc mở và dễ kế thừa để ph c v cho các chương trình xử lý ngôn ngữ tự nhiên (Việt-Cơtu) khác. Khai thác kho ngữ vựng để xây dựng hệ hỏi-đáp tự động ViệtCơtu trong ngữ cảnh hạn chế để hỗ trợ cho học sinh người Cơtu học tin học văn phòng. 3. Đối tượng và phạm vi nghiên cứu Để đáp ứng m c tiêu đã nêu, đề tài giải quyết những vấn đề chính sau Tìm hiểu lý thuyết Tìm hiểu đặc trưng ngữ pháp của tiếng Việt, tiếng Cơtu. Tìm hiểu các đặc điểm khác nhau giữa tiếng Việt và tiếng Cơtu. Tìm hiểu lý thuyết về hệ thống hỏi-đáp tự động, kỹ thuật tách từ tiếng Việt, cơ sở dữ liệu đa ngữ, cách tổ chức kho ngữ vựng song ngữ bằng XML. Phân tích cấu trúc các câu hỏi thường gặp và đưa ra cấu trúc câu Việt-Cơtu tương ứng cho các câu. Cập nhật kho ngữ vựng Cơtu Thu thập dữ liệu từ các mẫu câu, trích rút từ vựng từ các mẫu câu để xây dựng kho ngữ vựng Việt-Cơtu ph c v cho hệ thống hỏiđáp tự động. Xây dựng ứng dụng Xây dựng hệ thống hỏi-đáp tự động Việt-Cơtu để hỗ trợ học sinh người Cơtu học tin học văn phòng. 3 4. Giả thiết nghiên cứu Hệ thống sẽ phát huy hết tác d ng nếu được đầu tư cơ sở vật chất và nguồn nhân lực về công nghệ thông tin tại các địa phương đã hoàn thiện. Việc ứng d ng của tin học vào cuộc sống được chính quyền địa phương quan tâm và tạo điều kiện để phát triển. Đồng bào nhiệt tình hưởng ứng và sử d ng các hệ thống máy tính để tìm hiểu về nền văn hóa và cuộc sống. 5. Phương pháp nghiên cứu Thu thập dữ liệu từ các học sinh trong quá trình học. Phân tích từ vựng và mẫu câu Việt-Cơtu tương ứng. Xây dựng kho ngữ vựng có cấu trúc dưới dạng X L để ta có thể miêu tả dễ dàng nội dung của tài liệu cũng như truy xuất, mở rộng, chuyển đổi các định dạng dữ liệu. Tìm hiểu các công c phù hợp để ph c v cho công việc lập trình, Khai thác kho ngữ vựng để xây dựng ứng d ng hỏi-đáp tự động. Kiểm thử chương trình, nhận xét và đánh giá kết quả. 6. Ý nghĩa khoa học và thực tiễn của đề tài: Ý nghĩa khoa học: Nắm bắt được các vấn đề cơ bản trong xử lý tiếng Việt, tiếng Cơtu. Đây là tiền đề cho các bài toán xử lý ngôn ngữ tự nhiên cho ngôn ngữ của các dân tộc thiểu số (như hỏi-đáp tự động, từ điển, website đa ngữ…). Ý nghĩa thực tiễn: Ph c v cho công tác dạy và học của thầy và trò trường THPT Phạm Phú Thứ nhằm tạo thuận lợi cho học sinh trong việc tiếp thu kiến thức khoa học, góp phần nâng cao dân trí cho đồng bào người Cơtu. 7. Cấu trúc luận văn áo cáo của luận văn được tổ chức thành chương 4 Chương 1. Nghiên cứu tổng quan: Trình bày các vấn đề tổng quan về hệ thống hỏi-đáp tự động và các phương pháp phân tích câu hỏi và tìm kiếm câu trả lời trong hệ thống hỏi-đáp tự động. Các quy tắc soạn thảo văn bản. Chương 2. Tìm hiểu ngôn ngữ : Chương này tìm hiểu về các đặc điểm của hai ngôn ngữ tiếng Việt và tiếng Cơtu. So sánh sự giống và khác nhau của hai ngôn ngữ. Chương 3. Xây dựng hệ thống hỏi-đáp tự động Việt-Cơtu nhằm hỗ trợ học sinh người Cơtu học tin học văn phòng: Đề xuất giải pháp rút trích từ khóa, gom c m và tìm kiếm câu trả lời. 5 CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN 1.1 HỆ THỐNG HỎI-ĐÁP TỰ ĐỘNG Những thắc mắc của người dùng dưới dạng truy vấn sẽ được tìm kiếm và trả về một cách ngắn gọn, súc tích, chính xác nhất là những gì mà họ mong muốn. Đó chính là m c tiêu của hệ thống hỏiđáp tự động. Phần này sẽ trình bày các vấn đề sau 1.1.1 Giới thiệu hệ thống hỏi-đáp tự động và lịch sử phát triển a) Giới thiệu hệ thống hỏi-đáp tự động Hệ thống hỏi-đáp tự động liên quan đến 3 lĩnh vực lớn là xử lý ngôn ngữ tự nhiên (Natural Language Processing), tìm kiếm thông tin (Information Retrieval) và rút trích thông tin (Information Extraction). Có hai loại hệ thống hỏi-đáp: • Hệ thống hỏi-đáp lĩnh vực hẹp • Hệ thống hỏi-đáp lĩnh vực rộng b) Sơ lược lịch sử phát triển 1.1.2. Kiến trúc hệ thống hỏi-đáp tự động Mô hình cơ bản của hệ thống IR có kiến trúc như sau: Hình 1.2 - Hệ thống tìm kiếm thông tin 6 Các hệ thống IR thường không giúp được người sử d ng tìm ra chính xác thông tin mà người dùng cần, nó chỉ có thể tổng hợp các thông tin tồn tại trong hệ thống và tìm các văn bản có liên quan đến yêu cầu của người sử d ng. Tính năng này là một bước tiến gần hơn để xây dựng một hệ thống hỏi-đáp. Kiến trúc chung của các hệ thống hỏi-đáp thường có dạng như sau: Hình 1.3- Kiến trúc hệ thống hỏi-đáp a) Giao diện người dùng (User Interface) b) Phân tích câu hỏi (Question Analyzer) c) Tìm kiếm dữ liệu (Data Retrieval) d) Rút trích câu trả lời (Answer Extraction) e) Chiến lược xếp hạng (Ranking) f) Xác minh câu trả lời (Answer Verification) 1.1.3 Một số vấn đề quan tâm khi xây dựng hệ thống hỏiđáp tự động  Loại câu hỏi  Xử lý câu hỏi  Ngữ cảnh và hệ thống hỏi đáp  Nguồn dữ liệu cho hệ thống hỏi đáp 7  Trích xuất câu trả lời 1.2 CÁC PHƯƠNG PHÁP PHÂN TÍCH CÂU HỎI VÀ TÌM KIẾM CÂU TRẢ LỜI Ba bước quan trọng nhất trong hệ thống hỏi-đáp là: phân tích câu hỏi, tìm kiếm tài liệu có chứa câu trả lời và rút trích câu trả lời từ tài liệu. Do m c tiêu của luận văn là hướng đến một hệ thống hỏi-đáp tự động cho một miền c thể là tin học văn phòng với các đặc thù trình bày trong phần mở đầu, không có nhu cầu rút trích thông tin câu trả lời từ tài liệu, nên chúng tôi trình bày trong chương này hai nội dung chính là các phương pháp phân tích câu hỏi và các phương pháp tìm kiếm câu trả lời. 1.2.1 Phương pháp phân tích câu hỏi Phân tích câu hỏi đóng vai trò quan trọng trong bất kỳ loại hình hệ thống hỏi-đáp nào. Trong giai đoạn này, câu hỏi được phân tích và xử lý để trích lọc càng nhiều thông tin càng tốt để có thể được sử d ng trong giai đoạn tìm kiếm dữ liệu sau này. Có hai phương pháp phân tích câu hỏi, cũng được xem như hai phương pháp của hệ thống hỏi-đáp tự động. Đó là phương pháp nông và phương pháp sâu. a) Phương pháp nông (Shallow Method) b) Phương pháp sâu (Deep Method) 1.2.2 Tìm kiếm thông tin Để tìm kiếm thông tin có hiệu quả, các tài liệu thường được chuyển đổi thành các cách biểu diễn tài liệu thích hợp. Có rất nhiều phương pháp khác nhau được đề xuất, được tổng hợp như sau:  Các mô hình lý thuyết tập hợp  Các mô hình đại số  Các mô hình xác suất  Mô hình không gian vector 8 1.2.3 Phương pháp gom cụm dữ liệu a) Thuật toán K-Means Input: K, và dữ liệu về n mẫu của một cơ sở dữ liệu. Output: ột tập K c m sao cho cực tiểu về tổng bình phương sai. Thuật toán:  ước 1: Chọn ngẫu nhiên K mẫu vào K c m. Coi tâm của c m chính là mẫu có trong c m.  ước 2: Tìm tâm mới của c m.  ước 3: Gán (gán lại) các mẫu vào từng c m sao cho khoảng cách từ mẫu đó đến tâm của c m đó là nhỏ nhất.  ước 4: Nếu các c m không có sự thay đổi nào sau khi thực hiện bước 3 thì chuyển sang bước 5, ngược lại chuyển sang bước 2.  Bước 5: Dừng thuật toán. b) Thuật toán HAC HAC (Hierarchical Agglomerative Clustering) là thuật toán phân c m không giám sát (không cần biết trước số c m cần phân vào) nhưng phải cung cấp điều kiện dừng. Thuật toán HAC có thể tóm gọn như sau: Giả sử có N phần tử và ma trận khoảng cách N*N  ước 1: Bắt đầu cho mỗi phần từ vào một phân vùng của nó. Nếu có N phần tử thì có N phân vùng khởi tạo  ước 2: Tìm cặp phân vùng có khoảng cách nhỏ nhất và hợp lại thành một phân vùng. Lúc này số phân vùng đã giảm đi một  ước 3: Tính khoảng cách giữa phân vùng mới với các phân vùng còn lại  ước 4: Lặp lại bước 2, cho đến khi chỉ còn lại một phân vùng hoặc thỏa mản điều kiện dừng nào đó
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.