Luận văn:Nghiên cứu và phát triển các công cụ xử lý tiếng Việt trên UIMA

pdf
Số trang Luận văn:Nghiên cứu và phát triển các công cụ xử lý tiếng Việt trên UIMA 50 Cỡ tệp Luận văn:Nghiên cứu và phát triển các công cụ xử lý tiếng Việt trên UIMA 2 MB Lượt tải Luận văn:Nghiên cứu và phát triển các công cụ xử lý tiếng Việt trên UIMA 0 Lượt đọc Luận văn:Nghiên cứu và phát triển các công cụ xử lý tiếng Việt trên UIMA 2
Đánh giá Luận văn:Nghiên cứu và phát triển các công cụ xử lý tiếng Việt trên UIMA
4 ( 13 lượt)
Nhấn vào bên dưới để tải tài liệu
Đang xem trước 10 trên tổng 50 trang, để tải xuống xem đầy đủ hãy nhấn vào bên trên
Chủ đề liên quan

Nội dung

ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI -------- Nguyễn Đức Nam Nghiên cứu và phát triển các công cụ xử lý tiếng Việt trên UIMA KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Hà Nội – 2010 ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI -------- Nguyễn Đức Nam Nghiên cứu và phát triển các công cụ xử lý tiếng Việt trên UIMA KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: GV hướng dẫn: Hà Nội – 2010 Công Nghệ Thông Tin TS. Phạm Bảo Sơn Nghiên cứu, phát triển các công cụ xử lý tiếng Việt trên UIMA Nguyễn Đức Nam Lời cảm ơn Trước tiên, em xin gửi lời cảm ơn sâu sắc nhất đến thầy Phạm Bảo Sơn, người đã không quản vất vả hướng dẫn em trong suốt thời gian làm khóa luận tốt nghiệp vừa qua. Em cũng xin chân thành cảm ơn anh Nguyễn Quốc Đại đã luôn chỉ bảo và giải đáp vướng mắc cho em trong quá trình làm khóa luận. Em xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo trong Trường Đại Học Công Nghệ đã tận tình dạy dỗ em suốt bốn năm học qua. Tôi xin cảm ơn tập thể phòng HMI những người luôn động viên và cho tôi những lời khuyên có ích trong quá trình làm khóa luận. Xin cảm ơn những người bạn luôn ở bên cạnh quan tâm, ủng hộ và động viên tôi. Con xin cảm ơn bố, mẹ và gia đình đã luôn bên con, cho con động lực để làm việc tốt hơn. Hà Nội, ngày 20 tháng 5 năm 2010 Nguyễn Đức Nam i Nghiên cứu, phát triển các công cụ xử lý tiếng Việt trên UIMA Nguyễn Đức Nam Lời mở đầu Kiến trúc xử lý thông tin phi cấu trúc (Unstructured Information Management Architecture - UIMA) giúp phân tích nguồn thông tin không có cấu trúc thành những thông tin có cấu trúc mang giá trị cao. Kiến trúc này linh hoạt và hiệu quả trong việc ghép nối giải pháp nhỏ thành một công cụ lớn hơn, hoàn thiện hơn. Chúng tôi tận dụng những đặc điểm này để xây dựng công cụ phân tích tiếng Việt bằng cách tích hợp các công cụ xử lý tiếng Việt có sẵn lên UIMA và đưa ra một số phương hướng để phát triển chúng. ii Nghiên cứu, phát triển các công cụ xử lý tiếng Việt trên UIMA Nguyễn Đức Nam Mục lục Lời cảm ơn .............................................................................................................................................................. i Lời mở đầu ............................................................................................................................................................. ii Mục lục .................................................................................................................................................................. iii Danh sách hình vẽ .................................................................................................................................................. v Danh sách thuật ngữ ............................................................................................................................................ vi Chương 1: Giới thiệu ............................................................................................................................................. 1 Chương 2: Tổng quan kiến trúc xử lý thông tin phi cấu trúc ............................................................................ 3 2.1 Giới thiệu UIMA ........................................................................................................................................ 3 2.2 Nền tảng phân tích .................................................................................................................................... 6 2.2.1 Hệ thống kiểu và chú giải ................................................................................................................. 9 2.2.2 Máy phân tích ................................................................................................................................. 10 2.2.3 Bộ miêu tả XML .............................................................................................................................. 15 2.3 Mô tả đối tượng trong tài liệu ................................................................................................................. 17 2.4 Xây dựng ứng dụng và xử lý tập tài liệu ................................................................................................. 17 2.4.1 Tương tác giữa ứng dụng và UIMA ................................................................................................. 18 2.4.2 Giới thiệu máy xử lý tập tài liệu....................................................................................................... 20 2.4.3 Quản lý xử lý tập tài liệu .................................................................................................................. 21 2.5 Khai thác kết quả phân tích .................................................................................................................... 21 2.5.1 Tìm kiếm ngữ nghĩa ......................................................................................................................... 22 2.5.2 Cơ sở dữ liệu .................................................................................................................................... 22 2.6 Xử lý đa phương tiện................................................................................................................................ 24 Chương 3: Xây dựng công cụ phân tích tiếng Việt trên UIMA ....................................................................... 24 3.1 Cài đặt Plugins cho UIMA....................................................................................................................... 26 3.2 Document Analyzer .................................................................................................................................. 28 3.3 Các công cụ phân tích tiếng Việt ............................................................................................................. 29 iii Nghiên cứu, phát triển các công cụ xử lý tiếng Việt trên UIMA Nguyễn Đức Nam 3.3.1 Giới thiệu tách từ tiếng Việt ............................................................................................................. 29 3.3.2 Giới thiệu nhận dạng thực thể tiếng Việt có tên............................................................................... 30 3.4 Ứng dụng công cụ phân tích tiếng Việt trên UIMA ................................................................................. 30 3.4.1 Tách từ tiếng Việt trên UIMA ........................................................................................................... 30 3.4.2 Áp dụng nhận dạng thực thể có tên trên GATE vào UIMA ............................................................... 34 3.4.3 Kết hợp nhận dạng các chú giải ....................................................................................................... 37 Chương 4: Tổng kết và hướng phát triển .......................................................................................................... 40 Tài liệu tham khảo ................................................................................................................................................ A iv Nghiên cứu, phát triển các công cụ xử lý tiếng Việt trên UIMA Nguyễn Đức Nam Danh sách hình vẽ Hình 2.1 – UIMA là cầu nối 2 “thế giới” thông tin có cấu trúc và phi cấu trúc ............................................... 4 Hình 2.2 – Các chú giải trong hệ thống kiểu ....................................................................................................... 7 Hình 2.3 – Kết hợp các chú giải ............................................................................................................................ 8 Hình 2.4 – Máy phân tích tổng hợp ................................................................................................................... 10 Hình 2.5 – Biểu diễn đối tượng trong tài liệu .................................................................................................... 16 Hình 2.6 – UIMA tương tác với các ứng dụng .................................................................................................. 17 Hình 2.7 – Luồng làm việc của CPE .................................................................................................................. 19 Hình 2.8 – CPM tương tác với ứng dụng ........................................................................................................... 20 Hình 2.9 – Xử lý audio ........................................................................................................................................ 22 Hình 3.1 – Cài đặt Plugins cho UIMA .............................................................................................................. 25 Hình 3.2 – Các công cụ trong SDK .................................................................................................................... 26 Hình 3.3 – Document Analyzer .......................................................................................................................... 26 Hình 3.4 –Kết quả phân tích sử dụng Token_VN ............................................................................................. 27 Hình 3.5 – Style Map Editor ............................................................................................................................... 28 Hình 3.6 –Kết quả chạy tách từ tiếng Việt ....................................................................................................... 33 Hình 3.7 –Gán nhãn từ loại................................................................................................................................. 34 Hình 3.8 – Kết quả phân tích một số chú giải ................................................................................................... 36 Hình 3.9 – Kết quả phân tích tổng hợp .............................................................................................................. 39 v Nghiên cứu, phát triển các công cụ xử lý tiếng Việt trên UIMA Nguyễn Đức Nam Danh sách thuật ngữ AE (Analysis Engine): các máy phân tích dùng trong xử lý Annotator: các chú giải dùng để phân tích tài liệu Aggregate AE (Aggregate Analysis Engine): máy phân tích tổng hợp CAS (Common Analysis Structure): cấu trúc phân tích thường gặp, nó là một cấu trúc dữ liệu lưu lại các mô tả về đối tượng trong tài liệu CAS Consumer: tổng hợp các cấu trúc dữ liệu từ các CAS và là thành phần kết nối dữ liệu tới máy tìm kiếm hay cơ sở dữ liệu CPE (Collection Processing Engine): máy phân tích dùng để xử lý các tập tài liệu bao gồm từ khâu lấy tài liệu tới trích xuất kết quả ra cơ sở dữ liệu hay máy tìm kiếm CPM (Collection Processing Management): bộ quản lý hoạt động của máy xử lý tập tài liệu Primitive AE (Primitive Analysis Engine): máy phân tích đơn nó dùng để phân tích tài liệu mà chỉ dùng một chú giải Type System: hệ thống kiểu lưu lại các kiểu của hệ thống và các chú giải được đăng ký vào hệ thống UIMA (Unstructured Information Management Architecture): kiến trúc xử lý thông tin phi cấu trúc UIMA SDK (UIMA Software Development Kit): bộ phần mềm của UIMA bao gồm thành phần hỗ trợ việc phát triển kiến trúc vi Chương 1: Giới thiệu Nguyễn Đức Nam Chương 1 Giới thiệu Với sự bùng nổ của thông tin trong thời đại ngày nay, kho dữ liệu ngày càng lớn việc tìm ra những thông tin có ích, mang giá trị cao là điều cấp thiết. Các thông tin trong các kho dữ liệu thường là những thông tin phi cấu trúc còn những thông tin có cấu trúc thường là những thông tin có ích, mang giá trị cao, do vậy việc đầu tiên cần quan tâm là phải có một hệ thống để chuyển những thông tin phi cấu trúc thành những thông tin có cấu trúc. Thông tin phi cấu trúc là nguồn thông tin lớn nhất, nhanh nhất và ngày càng tăng trong nguồn thông tin có sẵn cho các doanh nghiệp và chính phủ hiện nay. Xem xét các thông tin được lưu trữ trong các doanh nghiệp và phương tiện truyền thông trên thế giới bao gồm văn bản, âm thanh, video v.v…Các nội dung có giá trị cao trong các nguồn thông tin phi cấu trúc thường nằm lẫn lộn trong kho nội dung lớn. Chúng được giấu trong các nguồn thông tin khác nhau. Tự động tìm ra những thông tin mang giá trị cao, chuyển chúng thành những thông tin có cấu trúc, lưu trữ vào cơ sở dữ liệu hay sử dụng những thông tin có cấu trúc này vào các ứng dụng khác là hướng phát triển của một kiến trúc quản lý thông tin hiện đại. Kiến trúc quản lý thông tin phi cấu trúc (Unstructure Information Management Architecture - UIMA) [10][11] được xây dựng để thực hiện nhiệm vụ trên. Trên thế giới đã có rất nhiều các ứng dụng kiến trúc UIMA để xử lý tiếng Anh, tiếng Đức v.v… Kho dữ liệu về tiếng Việt ngày càng phát triển và các nhu cầu xử lý nguồn thông tin này ngày càng tăng. Xây dựng các hệ thống xử lý tiếng Việt trên UIMA trở nên cấp thiết. Điểm khó khăn trong xử lý trên ngôn ngữ tiếng Việt ở chỗ tiếng Việt đa dạng, phong phú và có nhiều điểm còn nhập nhằng. 1 Chương 1: Giới thiệu Nguyễn Đức Nam Các công cụ xử lý tiếng Việt tại thời điểm hiện tại thường tách ra thành những phần riêng biệt như tách từ, gán nhãn từ loại, nhận dạng tên thực thể v.v…Các công cụ này cũng hoạt động trên các hệ thống khác nhau. Trong khóa luận chúng tôi nghiên cứu về UIMA, tích hợp các công cụ xử lý tiếng Việt như tách từ [1][2] và nhận dạng thực thể tiếng Việt có tên [3] trên kiến trúc UIMA nhằm tạo ra một hệ thống phân tích tiếng Việt bao gồm nhiều công cụ nhỏ, tận dụng được các ưu điểm của kiến trúc UIMA và tiết kiệm được thời gian để xây dựng một hệ thống hoàn toàn mới. Phần còn lại của khóa luận được chia thành 4 chương:  Chương 2: Giới thiệu một cách tổng quan nhất về UIMA cũng như các ứng dụng cơ bản của UIMA.  Chương 3: Xây dựng công cụ phân tích tiếng Việt từ các công cụ có sẵn như tách từ và nhận dạng thực thể có tên.  Chương 4: Tổng kết lại kết quả và đưa ra những hướng phát triển mới cho đề tài trong tương lai. 2
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.