LUẬN VĂN: NGHIÊN CỨU VỀ NHẬN DẠNG CHỮ IN TIẾNG VIỆT

pdf
Số trang LUẬN VĂN: NGHIÊN CỨU VỀ NHẬN DẠNG CHỮ IN TIẾNG VIỆT 55 Cỡ tệp LUẬN VĂN: NGHIÊN CỨU VỀ NHẬN DẠNG CHỮ IN TIẾNG VIỆT 2 MB Lượt tải LUẬN VĂN: NGHIÊN CỨU VỀ NHẬN DẠNG CHỮ IN TIẾNG VIỆT 0 Lượt đọc LUẬN VĂN: NGHIÊN CỨU VỀ NHẬN DẠNG CHỮ IN TIẾNG VIỆT 0
Đánh giá LUẬN VĂN: NGHIÊN CỨU VỀ NHẬN DẠNG CHỮ IN TIẾNG VIỆT
4.8 ( 20 lượt)
Nhấn vào bên dưới để tải tài liệu
Đang xem trước 10 trên tổng 55 trang, để tải xuống xem đầy đủ hãy nhấn vào bên trên
Chủ đề liên quan

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Bùi Thế Hân NGHIÊN CỨU VỀ NHẬN DẠNG CHỮ IN TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Bùi Thế Hân NGHIÊN CỨU VỀ NHẬN DẠNG CHỮ IN TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Lê Anh Cường HÀ NỘI - 2009 Nghiên cứu nhận dạng chữ in tiếng việt Bùi Thế Hân Lời cảm ơn Lời đầu tiên em xin bày tỏ lòng biết ơn sâu sắc tới TS. Lê Anh Cường, người đã không chỉ hướng dẫn em tận tình trong suốt năm học và thời gian làm luận văn. Mà còn là người đã khơi dậy trong em lòng yêu nghề, yêu Công Nghệ Thông Tin. Đồng thời Thầy cũng là người giúp em nhìn thấy con đường đi của riêng mình. Một lần nữa xin được nói lời cảm ơn với Thầy. Em xin bày tỏ lòng biết ơn tới các thầy, cô giáo trong Khoa Công nghệ thông tin - Trường Đại học Công nghệ - ĐHQGHN. Các thầy cô đã dạy bảo, chỉ dẫn chúng em và luôn tạo điều kiện tốt nhất cho chúng em học tập trong suốt quá trình học đại học đặc biệt là trong thời gian làm khoá luận tốt nghiệp. Tôi xin cảm ơn các bạn sinh viên lớp K50CB trường Đại học Công nghệ và các bạn trong lớp KHMT, đã giúp đỡ tôi trong suốt quá trình học tập. Cuối cùng con xin gửi tới bố mẹ và toàn thể gia đình lòng biết ơn và tình cảm yêu thương. Hà Nội, ngày 22 tháng 5 năm 2009 Bùi Thế Hân i Nghiên cứu nhận dạng chữ in tiếng việt Bùi Thế Hân Tóm tắt Nhận dạng chữ in nói chung và nhận dạng chữ in tiếng Việt nói riêng đã và đang là những bài toán thu hút nhiều sự quan tâm và nghiên cứu. Bài toán nhận dạng chữ in tiếng Việt gồm ba công đoạn chủ yếu: Phân đoạn ảnh, nhận dạng kí tự và hậu xử lý. Trong luận văn này tôi tập trung chủ yếu vào giai đoạn Phân đoạn ảnh, nhằm đưa ra những cải tiến để đẩy nhanh tốc độ xử lý. Đồng thời chúng tôi cũng sử dụng môdul nhận dạng để xây dựng thành một hệ thống hoàn chỉnh. Với bài toán nhận dạng chữ tiếng Việt có sự khó khăn do hệ thống dấu tiếng Việt làm số kí tự cần nhận dạng tăng lên rất nhiều, đồng thời làm tăng khả năng giao nhau giữa các dòng, các ký tự. Để giải quyết vấn đề đó, trong khóa luận này chúng tôi sử dụng phương pháp tách dòng dựa vào khoảng trắng, thành phần liên thông. Trong phần thực nghiệm của luận văn, chúng tôi cũng thực nghiệm các văn bản với nhiều cỡ chữ và font chữ khác nhau. Kết quả của việc phân đoạn ảnh và nhận dạng là tương đối tốt, có thể chấp nhận được. Từ khóa: Xác định góc nghiêng văn bản, Tách dòng văn bản, Thành phần liên thông, Biểu đồ Histogram, Mạng Neural, Nhận dạng kí tự quang học, trích trọn đặc trưng. ii Nghiên cứu nhận dạng chữ in tiếng việt Bùi Thế Hân MỤC LỤC Chương 1 Giới thiệu................................................ 1 1.1 Đặt vấn đề...............................................................................................................1 1.2 Nội dung nghiên cứu của khóa luận..........................................................................3 1.3 Cấu trúc khóa luận....................................................................................................3 Chương 2 Cơ sở lý thuyết cho phân đoạn ảnh.... 5 2.1 Khái niệm ảnh số......................................................................................................5 2.2 Nhị phân hóa ............................................................................................................6 2.3 Biểu đồ sắc thái của hình ảnh (Histogram)................................................................8 2.4 Thành phần liên thông ..............................................................................................8 2.4.1 Khái niệm điểm lân cận .....................................................................................9 2.4.2 Thành phần liên thông: Liên thông bốn và liên thông tám..................................9 Chương 3 Phân đoạn ảnh cho nhận dạng văn bản .................................................................................. 11 3.1 Tiền xử lý ảnh ........................................................................................................11 3.1.1 Nhị phân hóa ...................................................................................................11 3.1.2 Lọc nhiễu ........................................................................................................11 3.1.3 Xoay lại ảnh ....................................................................................................12 3.2 Tách đoạn...............................................................................................................14 3.3 Tách dòng ..............................................................................................................14 3.3.1 Tách dòng dựa vào các đường kẻ ngang...........................................................14 3.3.2 Tách dòng dựa vào thành phần liên thông ........................................................15 3.3.3 Tách dòng dựa vào khoảng trắng giữa các dòng...............................................16 3.4 Tách từ...................................................................................................................17 3.4 Tách ký tự ..............................................................................................................18 Chương 4 Trích chọn đặc trưng .......................... 20 4.1 Khái niệm cơ bản ...................................................................................................20 4.1.1 Đặc trưng ảnh – Image Features.......................................................................20 4.1.2 Trích chọn đặc trưng – Feature Extraction .......................................................20 4.2 Vai trò của trích chọn đặc trưng..............................................................................20 4.3 Một số phương pháp trích chọn đặc trưng...............................................................21 4.3.1 Phương pháp trích chọn đặc trưng GSC ...........................................................21 iii Nghiên cứu nhận dạng chữ in tiếng việt Bùi Thế Hân 4.3.1 Trích chọn đặc trưng theo hướng hình học.......................................................22 4.3.2 Trích chọn đặc trưng theo cấu trúc...................................................................25 4.3.3 Trích chọn đặc trưng theo tính lồi lõm .............................................................27 Chương 5: Phân lớp và mô hình học máy.......... 30 5.1 Cấu trúc hoạt động của mạng neuron ....................................................................30 5.1.1 Cấu trúc và hoạt động của một neuron .............................................................30 5.1.2 Cấu trúc và hoạt động của mạng neuron...........................................................31 5.1.3 Hàm truyền......................................................................................................33 5.2 Quá trình huấn luyện mạng và các thuật toán học mạng..........................................34 5.2.1 Mạng neuron và bài toán phân loại mẫu...........................................................34 5.2.2 Đặc trưng của mạng neuron .............................................................................34 5.2.3 Các phương pháp huấn luyện mạng .................................................................34 5.2.4 Mạng lan truyền ngược nhiều tầng (Back-propagation Neural Network).........35 5.3 Ứng dụng mô hình nhận dạng cho tiếng Việt ..........................................................38 5.3.1 Khó khăn và giải pháp đề xuất cho nhận dạng kí tự..........................................38 5.3.2 Phân nhóm kí tự ..............................................................................................40 Chương 6 Thực nghiệm........................................ 42 6.1 Môi trường thực nghiệm.........................................................................................42 6.2 Thực nghiệm về phân đoạn ảnh ..............................................................................42 6.2.1 Tách dòng........................................................................................................42 6.2.3 Tách từ ............................................................................................................43 6.2.4 Tách ký tự .......................................................................................................43 6.2.5 Thực nghiệm nhận dạng...................................................................................44 Chương 7: Kết Luận .............................................. 45 iv Nghiên cứu nhận dạng chữ in tiếng việt Bùi Thế Hân Danh mục hình vẽ Hình 1.1 Sơ đồ hệ nhận dạng văn bản tiếng Việt. ..............................................................2 Hình 2.1 Ví dụ về quá trình lấy mẫu...................................................................................5 Hình 2.2: Ví dụ chuyển ảnh đa mức xám sang ảnh nhị phân...............................................6 Hình 2.3 ví dụ về chuyển ảnh nhị phân...............................................................................7 Hình 2.4 Minh họa biểu đồ Histogram ngang. ....................................................................8 Hình 2.5a: Ví dụ lân cận bốn..............................................................................................9 Hình 2.5b: Ví dụ lân cận tám..............................................................................................9 Hình 2.6: Hai ví dụ về thành phần liên thông 4-connected..................................................9 Hình 2.7: Hai ví dụ về thành phần liên thông 8.................................................................10 Hình 3.1 Ví dụ về nhiễu đốm ...........................................................................................11 Hình 3.2 Ảnh sau khi áp dụng lọc trung vị. ......................................................................12 Hình 3.3: Histogram của một văn bản không nghiêng. .....................................................13 Hình 3.4: Histogram của văn bản nghiêng. .......................................................................13 Hình 3.5 Ví dụ minh họa cắt đoạn....................................................................................14 Hình 3.6: Các đường đặc trưng của một dòng văn bản......................................................15 Hình 3.7: Biểu đồ phân cách của ngưỡng. ........................................................................18 Hình 3.8: Các vị trí chính xác, vị trí cắt nhập nhằng. ........................................................19 Hình 5.1: Mố hình phi tuyến của một neuron ...................................................................31 Hình 5.3 Mạng neuron hai lớp..........................................................................................36 Hình 5-4 : Hình ảnh kí tự được chia làm 3 phần. ..............................................................40 Hinh 5-5:ảnh gốc .............................................................................................................40 Hình 5-6: Ảnh cắt ............................................................................................................41 v Nghiên cứu nhận dạng chữ in tiếng việt Bùi Thế Hân Hình 6.1: Minh họa tách dòng văn bản. ............................................................................42 Hình 6.2: Minh họa cắt từ. ...............................................................................................43 vi Nghiên cứu nhận dạng chữ in tiếng việt Bùi Thế Hân Danh mục bảng biểu Bảng 4.1 Các luật về đặc trưng theo cấu trúc của điểm ảnh .............................................25 Bảng 5-1. Một số hàm truyền ..........................................................................................33 Bản 6.1 Kết quả thực nghiệm tách từ................................................................................43 Bảng 6.2 Kết quả thực nghiệm tách từ..............................................................................43 Bảng 6.3 Kết quả thực nghiệm tách từ..............................................................................44 vii Chương I: Giới thiệu Bùi Thế Hân Chương 1 Giới thiệu 1.1 Đặt vấn đề Nhận dạng kí tự quang học (OCR – Optical Character Recognition) là một bài toán chuyển các hình ảnh của chữ viết tay hoặc chữ đánh máy (thường được quét bằng máy scanner) thành các văn bản tài liệu. Do bài toán vẫn còn nhiều vấn đề chưa được giải quyết một cách triệt để, như vấn đề về tốc độ xử lý, độ chính xác của tách từ, hay độ chính xác của nhận dạng. Và vì vậy vẫn nhận được nhiều sự quan tâm nghiên cứu, đặc biệt cho tiếng Việt. Nhận dạng văn bản được áp dụng trong quá trình tự động hoá các công việc văn phòng như nhập liệu, lưu trữ văn bản, sách báo, phân loại thư tín, …, những công việc đòi hỏi nhiều thời gian của con người. Hiện nay cũng có rất nhiều bài báo đề cập đến bài toán nhận dạng kí tự quang học, nhằm cải tiến các phương pháp phân đoạn ảnh, nhận dạng. Song vẫn chưa giải quyết một cách triệt để những vấn đề khó khăn của bài toán thường gặp phải. Đặc biệt là đối với việc nhận dạng các kí tự tiếng Việt, gặp rất nhiều khó khăn, do tính riêng biệt của tiếng Việt: Số kí tự nhiều, các kí tự lại có dấu…Nên bài toán vẫn còn thu hút được sự quan tâm, nghiên cứu nhằm giải quyết những vấn đề khó khăn của bài toán một cách triệt để. Một số hệ nhận nhận dạng văn bản đã và đang được áp dụng rất nhiều vào ứng dụng như FineReader của hãng AABBYY, OmmiPage của hãng Scansoft được dùng để nhận dạng các văn bản tiếng Anh,… VNDOCR của Viện công nghệ thông tin cho các văn bản tiếng Việt. Bài toán nhận dạng văn bản được thực hiện qua ba giai đoạn chính: Phân đoạn ảnh, nhận dạng từ và hậu xử lý. Trong luận văn này chúng tôi đi sâu vào nghiên cứu cải tiến công đoạn phân đoạn ảnh. Bên cạnh đó kết hợp với mô đun nhận dạng [3] để xây dựng thành một hệ thống nhận dạng văn bản hoàn thiện. Bài toán mà chúng tôi đang nghiên cứu được thực hiện qua các giai đoạn như mô tả trong hình I.1.1. 1
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.