Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu xây dựng hệ thống tìm kiếm video dựa trên nội dung

pdf
Số trang Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu xây dựng hệ thống tìm kiếm video dựa trên nội dung 59 Cỡ tệp Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu xây dựng hệ thống tìm kiếm video dựa trên nội dung 2 MB Lượt tải Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu xây dựng hệ thống tìm kiếm video dựa trên nội dung 0 Lượt đọc Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu xây dựng hệ thống tìm kiếm video dựa trên nội dung 0
Đánh giá Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu xây dựng hệ thống tìm kiếm video dựa trên nội dung
5 ( 12 lượt)
Nhấn vào bên dưới để tải tài liệu
Đang xem trước 10 trên tổng 59 trang, để tải xuống xem đầy đủ hãy nhấn vào bên trên
Chủ đề liên quan

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ VĂN HÀO NGHIÊN CỨU XÂY DỰNG HỆ THỐNG TÌM KIẾM VIDEO DỰA TRÊN NỘI DUNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ VĂN HÀO NGHIÊN CỨU XÂY DỰNG HỆ THỐNG TÌM KIẾM VIDEO DỰA TRÊN NỘI DUNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS – Nguyễn Trí Thành Hà Nội - 2016 1 LỜI CAM ĐOAN Tôi xin cam đoan kết quả đạt được trong Luận văn là sản phẩm của riêng cá nhân tôi, không sao chép lại của người khác. Những điều được trình bày trong nội dung Luận văn, hoặc là của cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn đúng quy cách. Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình. Hà Nội, 05/2016 Lê Văn Hào 2 MỤC LỤC LỜI CAM ĐOAN.................................................................................................. 1 MỤC LỤC ............................................................................................................. 2 BẢNG CHỮ CÁI VIẾT TẮT ............................................................................... 4 DANH MỤC CÁC BẢNG BIỂU ......................................................................... 5 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ............................................................... 6 MỞ ĐẦU ............................................................................................................... 8 CHƯƠNG 1: GIỚI THIỆU ................................................................................. 10 1.1. Giới thiệu về công cụ tìm kiếm ................................................................ 10 1.2. Lịch sử phát triển của công cụ tìm kiếm .................................................. 10 1.3. Kiến trúc của công cụ tìm kiếm................................................................ 11 1.3.1. Quá trình đánh chỉ mục...................................................................... 11 1.3.2. Quá trình truy vấn .............................................................................. 13 1.4. Công cụ tìm kiếm video trên mạng internet ............................................. 13 1.5. Tổng quan của đề tài và các vấn đề cần giải quyết .................................. 14 1.5.1. Tổng quan đề tài ................................................................................ 14 1.5.2. Các vấn đề cần giải quyết .................................................................. 14 1.6. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu............................... 14 1.6.1. Ý nghĩa khoa học ............................................................................... 14 1.6.2. Ý nghĩa thực tiễn................................................................................ 15 1.7. Kết luận..................................................................................................... 15 CHƯƠNG 2: BÀI TOÁN TÌM KIẾM VIDEO BÀI GIẢNG ............................ 16 DỰA TRÊN NỘI DUNG .................................................................................... 16 2.1. Phát biểu bài toán ..................................................................................... 16 2.2. Các nghiên cứu về tìm kiếm video dựa trên nội dung.............................. 17 2.3. Hướng nghiên cứu của tác giả .................................................................. 18 2.4. Bài toán phân đoạn video thành ảnh ........................................................ 19 2.4.1. Khái niệm ........................................................................................... 19 2.4.2. Phương pháp tiếp cận......................................................................... 19 2.5. Bài toán trích xuất văn bản ....................................................................... 20 2.5.1. Bài toán nhận dạng kí tự quang học .................................................. 20 2.5.2. Bài toán xử lý trùng lặp văn bản........................................................ 22 2.5.3. Bài toán sửa lỗi chính tả văn bản ....................................................... 26 2.6. Bài toán đánh chỉ mục và tìm kiếm .......................................................... 29 2.6.1. Khái niệm ........................................................................................... 29 2.6.2. Phương pháp tiếp cận......................................................................... 29 2.6.3. Kiến trúc của Elasticsearch................................................................ 30 3 2.7. Kết luận..................................................................................................... 32 CHƯƠNG 3: KĨ THUẬT ĐỂ GIẢI QUYẾT CÁC BÀI TOÁN TRONG KHUÔN KHỔ LUẬN VĂN ............................................................................... 33 3.1. Bài toán phân đoạn video thành định dạnh ảnh ....................................... 33 3.1.1. Phát biểu bài toán............................................................................... 33 3.1.2. Giải pháp thực hiện ............................................................................ 33 3.2. Bài toán trích xuất văn bản ....................................................................... 34 3.2.1. Bài toán nhận dạng kí tự quang học bằng công cụ Tesseract-OCR .. 34 3.2.2. Bài toán xử lý trùng lặp văn bản bằng kĩ thuật Shingling ................. 37 3.2.3. Bài toán sửa lỗi chính tả văn bản tiếng Việt ...................................... 40 3.3. Bài toán đánh chỉ mục và tìm kiếm .......................................................... 45 3.3.1. Phát biểu bài toán............................................................................... 45 3.3.2. Lập chỉ mục và tìm kiếm bằng Elasticsearch .................................... 46 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM, ĐÁNH GIÁ VÀ KẾT LUẬN ...... 50 4.1. Công cụ, môi trường thực nghiệm............................................................ 50 4.2. Kết quả thực nghiệm, đánh giá ................................................................. 51 4.3. Kết luận..................................................................................................... 54 4.3.1. Kết quả đạt được ................................................................................ 54 4.3.2. Định hướng phát triển ........................................................................ 55 TÀI LIỆU THAM KHẢO ................................................................................... 56 4 BẢNG CHỮ CÁI VIẾT TẮT STT Từ viết tắt 1 2 3 4 5 6 7 8 ASR FPS FTP GNU OCR PDF NDD TIFF 9 UTF-8 Ý nghĩa Automatic Speech Recognition – Nhận dạng tiếng nói tự động Frame Per Second – Số khung hình trên một giây File Transfer Protocol – Giao thức truyền tệp tin General Public License – Giấy phép công cộng Optical Character Recognition – Nhận dạng kí tự quang học Portable Document Format – Định dạng tài liệu di động. Near Duplicate Detection – Phát hiện gần trùng lặp Tagged Image File Format – Định dạng tệp tin trên máy tính để lưu trữ các hình ảnh. Unicode Transformation Format - Định dạng chuyển đổi Unicode. 5 DANH MỤC CÁC BẢNG BIỂU Bảng 3.1. Kết quả Bigram tập dữ liệu ......................................................................44 Bảng 4.1. Thông số phần cứng .................................................................................50 Bảng 4.2. Danh sách công cụ phần mềm .................................................................50 Bảng 4.3. Kết quả thực hiện trích xuất khung hình từ video ...................................51 Bảng 4.4. Kết quả thực hiện Tesseract-OCR đối với tập khung hình thu được.......52 Bảng 4.5. Kết quả thực hiện NDD với kĩ thuật Shingling .......................................52 Bảng 4.6. Kết quả quá trình phát hiện lỗi chính tả dùng Aspell kết hợp Bi-gram ...53 Bảng 4.7. Kết quả quá trình sửa lỗi chính tả ............................................................54 6 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1. Quá trình đánh chỉ mục ....................................................................... 12 Hình 2.1. Kiến trúc tổng quan hệ thống tìm kiếm video dựa trên nội dung ....... 17 Hình 2.2. Kiến trúc hệ thống tìm kiếm video tác giả đề xuất ............................. 18 Hình 2.3. Sử dụng FFMpeg để chuyển đổi video thành ảnh .............................. 20 Hình 2.4. Kiến trúc của Tesseract – OCR ........................................................... 22 Hình 2.5. Văn bản gốc......................................................................................... 23 Hình 2.6. Văn bản trùng lặp của văn bản trong hình 2.5 .................................... 24 Hình 2.7. Văn bản gần trùng lặp của văn bản trong hình 2.5. ............................ 24 Hình 2.8 [15]. Độ chính xác và độ hồi tưởng của độ đo tương tự cho phương pháp fuzzy-fingerprinting (FF), localitysensitive hashing (LSH), supershingling (SSh), shingling (Sh), and hashed breakpoint chunking (HBC). ........................ 26 Hình 2.9. Kĩ thuật phát hiện lỗi chính tả dựa vào tra cứu từ điển....................... 27 Hình 2.10. Kĩ thuật phát hiện lỗi chính tả dựa vào phân tích N-gram ................ 28 Hình 2.11. Thứ hạng của 17 công cụ tìm kiếm. Nguồn http://db-engines.com.. 30 Hình 2.12. Kiến trúc cluster-node-shard của Elasticsearch ................................ 31 Hình 3.1. Mô tả quá trình biến đổi video nguồn thành dạng ảnh ....................... 33 Hình 3.2. Chuyển đổi ảnh màu thành ảnh đa cấp xám ....................................... 34 Hình 3.3. Ảnh màu .............................................................................................. 35 Hình 3.4. Ảnh đa cấp xám ................................................................................... 35 Hình 3.5. Quá trình OCR ảnh trong hình 3.4 bằng Tesseract-OCR ................... 36 Hình 3.6. Kết quả sau khi hoàn thành OCR bằng Tesseract-OCR ..................... 36 Hình 3.7. Thực hiện OCR tất cả ảnh trong thư mục bằng Tesseract-OCR ........ 36 Hình 3.8. Quá trình xử lý trùng lặp văn bản ....................................................... 37 Hình 3.9. Hệ số Jaccard của tài liệu d1 và d2....................................................... 38 Hình 3.10[4]. Bốn quá trình tính toán shingle của hai tài liệu. ............................ 39 Hình 3.11. Sơ đồ khối quá trình trích xuất tập văn bản đại diện ........................ 40 Hình 3.12. Quá trình phát hiện và sửa lỗi chính tả văn bản ................................ 41 Hình 3.13. Sơ đồ khối sửa lỗi chính tả sử dụng từ điển Aspell .......................... 43 Hình 3.14. Sơ đồ khối sửa lỗi chính tả sử dụng Bigram ..................................... 45 Hình 3.15. Mô tả quá trình lập chỉ mục tài liệu .................................................. 46 Hình 3.16. Kiểm tra khởi động Elasticsearch ..................................................... 46 Hình 3.17. Danh sách các chỉ mục hiện có. Tên chỉ mục là lectures, số tài liệu docs.count hiện tại có giá trị bằng 0 (do chưa tạo tài liệu cho chỉ mục này). ..... 47 Hình 3.18. Tạo type và document cho chỉ mục. ................................................. 47 Hình 3.19. Tạo type và document bằng lệnh POST. Id của document được Elasticsearch gán tự động. ................................................................................... 47 7 Hình 3.20. Cập nhật lại document cho chỉ mục với id đã tồn tại. ....................... 48 Hình 3.21. Thực hiện cập nhật lại document bằng câu lệnh UPDATE .............. 48 Hình 3.22. Tìm kiếm document trên chỉ mục ..................................................... 48 8 MỞ ĐẦU Cùng với sự phát triển của công nghệ thông tin, tốc độ internet đang cải thiện đáng kể. Số lượng video bài giảng, diễn thuyết… phục vụ học tập cho mọi lứa tuổi đang được tải lên và chia sẻ trên internet nhanh chóng. Mỗi ngày, hàng triệu video như vậy trên thế giới được đăng tải lên các ứng dụng internet như Youtube, Facebook, Yahoo. Đối với lượng video đang tăng trưởng từng ngày này, cơ chế tổ chức lưu trữ phục vụ cho việc tra cứu, tìm kiếm là một thách thức. Giáo dục trực tuyến hay E-Learning không còn là khái niệm mới lạ và đang phát triển mạnh mẽ. Số lượng video bài giảng, diễn thuyết cũng vì thế ngày càng được tăng trưởng. Nhu cầu tìm kiếm của người học càng yêu cầu khắt khe hơn: cả về độ chính xác và thời gian tìm kiếm. Tuy nhiên, các chức năng tìm kiếm bài giảng cho của các hệ thống hiện tại thông thường chỉ cho phép người dùng tìm kiếm với tên bài giảng, tên học phần, hoặc tên giảng viên... Các chức năng này thường cho kết quả có độ chính xác không cao, và các kết quả trả về có nhiều nội dung không liên quan đến mục đích tìm kiếm thực sự của người dùng. Do đó, cần có một hệ thống mà có thể “hiểu” được nội dung của từng video bài giảng để phục vụ cho việc tìm kiếm của người dùng. Những công cụ tìm kiếm phổ biến hiện nay - như Google, Yahoo, Bing…, là những hệ thống tìm kiếm dựa trên “từ khóa”, và tìm kiếm trên dữ liệu văn bản (text). Chính vì thế, nếu video không có bất kỳ siêu dữ liệu (metadata) ví dụ như ngày, tác giả, từ khóa, hoặc mô tả thì không thể tìm kiếm được bằng cách sử dụng các công cụ nêu trên. Siêu dữ liệu thường được thêm bằng tay, quá trình này sẽ rất tốn thời gian. Hơn nữa, ngay cả khi một đoạn video có thể được tìm thấy bằng siêu dữ liệu của nó, công cụ tìm kiếm thông thường không có khả năng tìm kiếm một đoạn bài giảng, slide cụ thể trong video mà người dùng quan tâm. Mục tiêu chính của của Luận văn là tập trung nghiên cứu xây dựng một hệ thống tìm kiếm các bài giảng, thuyết trình, trình diễn bằng slide dưới dạng video. Hệ thống sẽ cho phép người dùng chỉ cần nhập vào một phần nội dung của bài giảng, kết quả trả về sẽ là những video bài giảng có liên quan đến chuỗi truy vấn. Ngoài ra, với giải pháp này cũng cho phép các hệ thống tìm kiếm có thể truy vấn dữ liệu video mà không cần có siêu dữ liệu. Xuất phát từ quan điểm nêu trên, ngoài phần mở đầu và kết luận, luận văn được chia làm 4 chương được tóm tắt như sau:
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.