LUẬN VĂN: NGHIÊN CỨU XÂY DỰNG TIÊU CHUẨN BẢN RÕ TIẾNG ANH CỦA NGÔN NGỮ TỰ NHIÊN

pdf
Số trang LUẬN VĂN: NGHIÊN CỨU XÂY DỰNG TIÊU CHUẨN BẢN RÕ TIẾNG ANH CỦA NGÔN NGỮ TỰ NHIÊN 56 Cỡ tệp LUẬN VĂN: NGHIÊN CỨU XÂY DỰNG TIÊU CHUẨN BẢN RÕ TIẾNG ANH CỦA NGÔN NGỮ TỰ NHIÊN 494 KB Lượt tải LUẬN VĂN: NGHIÊN CỨU XÂY DỰNG TIÊU CHUẨN BẢN RÕ TIẾNG ANH CỦA NGÔN NGỮ TỰ NHIÊN 0 Lượt đọc LUẬN VĂN: NGHIÊN CỨU XÂY DỰNG TIÊU CHUẨN BẢN RÕ TIẾNG ANH CỦA NGÔN NGỮ TỰ NHIÊN 0
Đánh giá LUẬN VĂN: NGHIÊN CỨU XÂY DỰNG TIÊU CHUẨN BẢN RÕ TIẾNG ANH CỦA NGÔN NGỮ TỰ NHIÊN
5 ( 12 lượt)
Nhấn vào bên dưới để tải tài liệu
Đang xem trước 10 trên tổng 56 trang, để tải xuống xem đầy đủ hãy nhấn vào bên trên
Chủ đề liên quan

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phùng Văn Biên NGHIÊN CỨU XÂY DỰNG TIÊU CHUẨN BẢN RÕ TIẾNG ANH CỦA NGÔN NGỮ TỰ NHIÊN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phùng Văn Biên NGHIÊN CỨU XÂY DỰNG TIÊU CHUẨN BẢN RÕ TIẾNG ANH CỦA NGÔN NGỮ TỰ NHIÊN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Các hệ thống thông tin Cán bộ hướng dẫn: TS. Hồ Văn Canh HÀ NỘI - 2009 LỜI CẢM ƠN Em xin chân thành cảm ơn các Thầy, Cô giáo trong khoa Công nghệ thông tin và các cán bộ, nhân viên các phòng Đào tạo trường Đại học Công nghệ, Đại học Quốc gia Hà Nội đã luôn nhiệt tình giúp đỡ và tạo điều kiện tốt nhất cho em trong suốt quá trình học tập tại trường. Xin chân thành cảm ơn các anh, các chị và các bạn sinh viên K50 trường Đại học Công nghệ thuộc Đại học Quốc gia Hà Nội đã luôn động viên, giúp đỡ và nhiệt tình chia sẻ với tôi những kinh nghiệm học tập, công tác trong suốt khoá học. Đặc biệt em xin bày tỏ lòng biết ơn sâu sắc đến TS.Hồ Văn Canh đã tận tình giúp đỡ em hình thành, nghiên cứu và hoàn chỉnh luận văn. Mặc dù đã có nhiều cố gắng, song do sự hạn hẹp về thời gian, điều kiện nghiên cứu và trình độ, luận văn không tránh khỏi những khiếm khuyết. Em chân thành mong nhận được sự đóng góp ý kiến của các thầy, cô giáo. Một lần nữa em xin cảm ơn! Hà Nội, tháng 05 năm 2009 Người thực hiện luận văn Phùng Văn Biên i TÓM TẮT NỘI DUNG Nhận dạng ngôn ngữ là một trong những nghiên cứu quan trọng được ứng dụng trong Internet và trong nhiều lĩnh vực xử lý ngôn ngữ tự nhiên khác như nhận dạng tiếng nói, nhận dạng chữ viết. Đặc biệt, xây dựng tiêu chuẩn bản rõ ứng dụng trong phân tích mật mã các bản mã khối ( cổ điển và hiện đại như: Des, 3-Des, AES…). Luận văn này mô tả một giải pháp hiệu quả nhận dạng ngôn ngữ Tiếng Anh và dễ dàng phát triển để nhận dạng các ngôn ngữ la tinh và phi la tinh . Khóa luận này đưa ra cái nhìn tổng quan về nhận dạng: các hướng tiếp cận nghiên cứu hiện nay. Trình bày về tổng quan bài toán nhận dạng ngôn ngữ tự nhiên và phát biểu dưới dạng của lý thuyết kiểm định giả thiết thống kê. Từ tổng quát bài toán, ta đưa ra bài toán thực tế đó là nhận dạng tiêu chuẩn bản rõ Tiếng Anh của ngôn ngữ tự nhiên (Nhận dạng bản rõ Tiếng Anh và dãy ngẫu nhiên trong tập mẫu). Đề giải quyết được vấn đề này chúng ta cần tìm hiểu một số nội dung: Cách biểu diễn của ngôn ngữ trong mô hình xích Markov và các tiêu chuẩn dùng trong phép kiểm định giả thiết thống kê. Cuối cùng là ứng dụng lý thuyết vào việc xây dựng kỹ thuật nhận dạng bản rõ Tiếng Anh của ngôn ngữ tự nhiên. ii MỤC LỤC Trang LỜI CẢM ƠN.................................................................................................................... i TÓM TẮT NỘI DUNG................................................................................................... ii MỤC LỤC....................................................................................................................... iii MỞ ĐẦU ..........................................................................................................................1 CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG .............................................................2 1.1. Tổng quan về nhận dạng....................................................................................2 1.1.1. Không gian biểu diễn đối tượng, không gian diễn dịch ..........................................2 1.1.2. Mô hình và bản chất của quá trình nhận dạng.......................................................3 1.2. Nhận dạng dựa trên phân hoạch không gian. ....................................................7 1.2.1. Phân hoạch không gian..........................................................................................7 1.2.2. Hàm phân lớp hay hàm ra quyết định.....................................................................7 1.2.3. Nhận dạng thống kê................................................................................................9 1.2.4. Một số thuật toán nhận dạng tiêu biểu trong tự học .............................................10 1.3. Nhận dạng theo cấu trúc ...................................................................................13 1.3.1. Biểu diễn định tính ...............................................................................................13 1.3.2. Phương pháp ra quyết định dựa vào cấu trúc.......................................................13 1.4. Mạng nơron nhân tạo và nhận dạng theo mạng nơron ...................................15 1.4.1. Bộ não và Nơron sinh học ....................................................................................15 1.4.2. Mô hình mạng nơron............................................................................................19 1.5. Kết luận..............................................................................................................21 CHƯƠNG 2: ỨNG DỤNG LÝ THUYẾT THỐNG KÊ TOÁN HỌC ĐỀ GIẢI BÀI TOÁN NHẬN DẠNG NGÔN NGỮ TỰ NHIÊN ..........................................................22 2.1. Dạng tổng quát của bài toán ............................................................................22 2.2. Một số khái niệm và thuật toán........................................................................23 2.2.1. Khoảng cách giữa hai đối tượng, hai tập hợp.......................................................23 2.2.2. Giải bài toán trường hợp cho trước số k ...............................................................24 2.2.3. Giải bài toán trường hợp số k chưa cho biết trước ...............................................27 2.3. Mô hình xích Markov và phép kiểm định thống kê cho bài toán nhận dạng ngôn ngữ.........................................................................................................................31 2.3.1 Mô hình xích Markov ............................................................................................31 2.3.2 Phép kiểm định thống kê cho bài toán nhận dạng ngôn ngữ đã biết .....................33 CHƯƠNG 3. KỸ THUẬT NHẬN DẠNG BẢN RÕ TIẾNG ANH CỦA NGÔN NGỮ TỰ NHIÊN .....................................................................................................................35 3.1. Bài toán ..............................................................................................................35 3.2. Thuật toán..........................................................................................................35 3.3.1. Phần off-line.........................................................................................................35 3.3.2. Phần on-line .........................................................................................................41 3.3.3. Một số ví dụ...........................................................................................................42 3.3.3. Một số ví dụ...........................................................................................................43 CHƯƠNG 4. KẾT QỦA ĐẠT ĐƯỢC...........................................................................47 4.1. Kết quả đạt được ...............................................................................................47 4.2. Đánh giá thuật toán ...........................................................................................47 4.3. Mã nguồn của chương trình..............................................................................48 KẾT LUẬN ....................................................................................................................50 TÀI LIỆU THAM KHẢO .............................................................................................51 iii MỞ ĐẦU Nhận dạng (pattern of Recognition) là một lý thuyết toán học có nhiều ứng dụng trong thực tiễn, như nhận dạng tiếng nói, nhận dạng hình ảnh, nhận dạng chữ ký, phân loại ngôn ngữ v.v.v. Thông qua Internet, Em được biết trên thế giới cũng như trong nước đã có nhiều nhà nghiên cứu vấn đề này và đã có những phần mềm áp dụng cho nhiều lĩnh vực khác nhau: phần mềm nhận dạng tiếng việt, phần mềm nhận dạng vân tay, phần mềm kiểm soát E-mail trên hệ thống Internets … Trong khuôn khổ bản luận văn, tôi tập trung nghiên cứu, giải quyết bài toán nhận dạng ngôn ngữ (Recognition of language) tự nhiên dựa vào phân hoạch không gian (hay nhận dạng theo thống kê toán học), trong đó một lớp ngôn ngữ tiêu biểu được nghiên cứu đó là Tiếng Anh. Việc nghiên cứu này là quan trọng và cần thiết; trong thực tiễn, kết quả của nghiên cứu có khả năng mở rộng và ứng dụng trong việc xây dựng các chương trình như kiểm soát E-mail hay các chương trình về phân tích bản mã Cả hai chương trình này đang rất cần và thiếu trong vấn đề an ninh quốc gia; trong khoa học, giúp ta nắm được kiến thức tốt và dễ dàng hơn trong việc chuyển sang nghiên cứu các vấn đề khác trong lĩnh vực nhận dạng.  Phương pháp nghiên cứu: o Nghiên cứu tài liệu (Tài liệu kỹ thuật thống kê toán học các quá trình Markov). o Các quy luật ngôn ngữ như là một quá trình ngẫu nhiên dừng, không hậu quả.  Nội dung nghiên cứu: o Tính tần số bộ đôi móc xích của ngôn ngữ Tiếng Anh o Nghiên cứu cơ sở của lý thuyết sác xuất – thống kê toán học o Nghiên cứu, xây dựng tiêu chuẩn nhận dạng và lập trình thể hiện thuật toán trên ngôn ngữ C. 1 CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG 1.1. Tổng quan về nhận dạng Nhận dạng (pattern recognition) là một ngành thuộc lĩnh vực học máy (machine learning). Nhận dạng nhằm mục đích phân loại dữ liệu (là các mẫu) dựa trên: hoặc là kiến thức tiên nghiệm (a priori) hoặc dựa vào thông tin thống kê được trích rút từ các mẫu có sẵn. Các mẫu cần phân loại thường được biểu diễn thành các nhóm của các dữ liệu đo đạc hay quan sát được, mỗi nhóm là một điểm ở trong một không gian đa chiều phù hợp. Đó là không gian của các đặc tính để dựa vào đó ta có thể phân loại. Quá trình nhận dạng dựa vào những mẫu học biết trước gọi là nhận dạng có thầy hay học có thầy (supervised learning); trong trường hợp ngược lại là học không có thầy (unsupervised learning). Trong lý thuyết nhận dạng nói chung có ba cách tiếp cận khác nhau: - Nhận dạng dựa vào phân hoạch không gian. - Nhận dạng cấu trúc. - Nhận dạng dựa vào kỹ thuật mạng nơ ron. Hai cách tiếp cận đầu là các kỹ thuật kinh điển. Cách tiếp cận thứ ba hoàn toàn khác. Nó dựa vào cơ chế đoán nhân, lưu trữ và phân biệt đối tượng mô phỏng theo hoạt động của hệ thần kinh con người. Các cách tiếp cận trên sẽ trình bày trong các phần dưới đây. Các ứng dụng phổ biến là nhận dạng tiếng nói tự động, phân loại văn bản thành nhiều loại khác nhau (ví dụ: những thư điện tử nào là spam/non-spam), nhận dạng tự động các mã bưu điện viết tay trên các bao thư, hay hệ thống nhận dạng danh tính dựa vào mặt người. Ba ví dụ cuối tạo thành lãnh vực con phân tích ảnh của nhận dạng với đầu vào là các ảnh số. 1.1.1. Không gian biểu diễn đối tượng, không gian diễn dịch Không gian biểu diễn đối tượng [1] Các đối tượng khi quan sát hay thu thập được, thường được biểu diễn bởi tập các đặc trưng hay đặc tính. Như trong trường hợp xử lý ảnh, ảnh sau khi được tăng 2 cường để nâng cao chất lượng, phân vùng và trích chọn đặc tính được biểu diễn bởi các đặc trưng như biên, miền đồng nhất,v.v. Người ta thường phân các đặc trưng này theo các loại như: đặc trưng tôpô, đặc trưng hình học và đặc trưng chức năng. Việc biểu diễn ảnh theo đặc trưng nào phụ thuộc vào ứng dụng tiếp theo. Ở đây ta đưa ra một cách hình thức việc biểu diễn các đối tượng. Giả sử đối tượng X (ảnh, chữ viết, dấu vân tay,v.v.); được biểu diễn bởi n thành phần (n đặc trưng): X={x1,x2,...,xn}; mỗi xi biểu diễn một đặc tính. Không gian biểu diễn đối tượng thường gọi tắt là không gian đối tượng X và được ký hiệu là: X ={X1,X2,...,Xn} trong đó mỗi Xi biểu diễn một đối tượng. Không gian này có thể là vô hạn. Để tiện xem xét chúng ta chỉ xét tập X là hữu hạn. Không gian diễn dịch Không gian diễn dịch là tập các tên gọi của đối tượng. Kết thúc quá trình nhận dạng ta xác định được tên gọi cho các đối tượng trong tập không gian đối tượng hay nói là đã nhận dạng được đối tượng. Một cách hình thức gọi  là tập tên đối tượng: ={w1,w2,...,wk} với wi, i =1,2,...,k là tên các đối tượng: Quá trình nhận dạng đối tượng là một ánh xạ f: X   với f là tập các quy luật để định một phần tử trong X ứng với một phần tử . Nếu tập các quy luật và tập tên các đối tượng là biết trước như trong nhận dạng chữ viết (có 26 lớp từ A đến Z), người ta gọi là nhận dạng có thầy. Trường hợp thứ hai là nhận dạng không có thày. Đương nhiên trong trường hợp này việc nhận dạng có khó khăn hơn. 1.1.2. Mô hình và bản chất của quá trình nhận dạng 1.1.2.1. Mô hình Việc chọn lựa một quá trình nhận dạng có liên quan mật thiết đến kiểu mô tả mà người ta sử dụng để đặc tả đối tượng. Trong nhận dạng, người ta phân chia làm hai họ lớn: [1] - Họ mô tả theo tham số; 3 - Họ mô tả theo cấu trúc. Cách mô tả được lựa chọn sẽ xác định mô hình của đối tượng. Như vậy, chúng ta sẽ có hai loại mô hình: mô hình theo tham số và mô hình cấu trúc.  Mô hình tham số sử dụng một vectơ để đặc tả đối tượng, mỗi phần tử của vectơ mô tả một đặc tính của đối tượng. Thí dụ như trong các đặc trưng chức năng, người ta sử dụng các hàm cơ sở trực giao để biểu diễn. Và như vậy ảnh sẽ được biểu diễn bởi một chuỗi các hàm trực giao. Giả sử C là đường bao của ảnh và C(i,j) là điểm thứ i trên đường bao, i = 1, 2, ..., N (đường bao gồm N điểm) Giả sử tiếp: x0  1 N  xi N i 1 1 N y 0   yi N i 1 là tọa độ tâm điểm. Như vậy, momen trung tâm bậc p, q của đường bao là  pq 1 N   (x i  x 0 ) p (yi  y0 ) q N i1 (1.1) Vectơ tham số trong trường hợp này chính là các momen  ij với i=1,2,...,p và j=1,2,...,q. Còn trong các đặc trưng hình học người ta hay sử dụng chu tuyến, đường bao, diện tích và tỉ lệ T = 4  S/p2, với S là diện tích, p là chu tuyến. Việc lựa chọn phương pháp biểu diễn sẽ làm đơn giản cách xây dựng. Tuy nhiên, việc lựa chọn đặc trưng nào là hoàn toàn phụ thuộc vào ứng dụng. Thí dụ, trong nhận dạng chữ, các tham số là các dấu hiệu: - Số điểm chạc ba, chạc tư, - Số điểm chu trình, - Số điểm ngoặt, - Số điểm kết thúc, 4 Chẳng hạn với chữ t có 4 điểm kết thúc, 1 điểm chạc tư, ....  Mô hình cấu trúc: Cách tiếp cận của mô hình này dựa vào việc mô tả đối tượng nhờ một số khái niệm biểu thị các đối tượng cơ sở trong ngôn ngữ tự nhiên. Để mô tả đối tượng, người ta dùng một số dạng nguyên thủy như đoạn thẳng, cung,.v.v... Chẳng hạn, một hình chữ nhật được định nghĩa gồm 4 đoạn thẳng vuông góc với nhau từng đôi một. Trong mô hình này người ta sử dụng một bộ kí hiệu kết thúc Vt, một bộ kí hiệu không kết thúc gọi là Vn. Ngoài ra, có dùng một tập các luật sản xuất để mô tả cách xây dựng các đối tượng phù hợp dựa trên các đối tượng đơn giản hơn các đối tượng nguyên thủy (tập Vt). Trong cách tiếp cận này, ta chấp nhận một khẳng định là: Cấu trúc một dạng là kết quả của việc áp dụng luật sản xuất theo những nguyên tắc xác định từ một dạng gốc bắt đầu. Một cách hình thức, ta có thể coi mô hình này tương đương một văn phạm G = (Vt, Vn, P, S) với: - Vt là bộ kí hiệu kết thúc, - Vn là bộ kí hiệu không kết thúc, - P là luật sản xuất, - S là dạng (kí hiệu bắt đầu) 1.1.2.2. Bản chất của quá trình nhận dạng Quá trình nhận dạng gồm 3 giai đoạn chính [1]: - Lựa chọn mô hình biểu diễn đối tượng, - Lựa chọn luật ra quyết định (phương pháp nhận dạng) và suy diễn quá trình học. - Học nhận dạng. Khi mô hình biểu diễn đã được xác định, có thể là định lượng (mô hình tham số) hay định tính (mô hình cấu trúc), quá trình nhận dạng chuyển sang giai đoạn học. Học là giai đoạn rất quan trọng. Thao tác học nhằm cải thiện, điều chỉnh việc phân hoạch tập đối tượng thành các lớp. 5
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.