Luận văn Thạc sĩ Công nghệ Thông tin: Xây dựng bộ lọc phát hiện các Website có nội dung khiêu dâm dựa trên URL và TEXT CONTENT

pdf
Số trang Luận văn Thạc sĩ Công nghệ Thông tin: Xây dựng bộ lọc phát hiện các Website có nội dung khiêu dâm dựa trên URL và TEXT CONTENT 73 Cỡ tệp Luận văn Thạc sĩ Công nghệ Thông tin: Xây dựng bộ lọc phát hiện các Website có nội dung khiêu dâm dựa trên URL và TEXT CONTENT 2 MB Lượt tải Luận văn Thạc sĩ Công nghệ Thông tin: Xây dựng bộ lọc phát hiện các Website có nội dung khiêu dâm dựa trên URL và TEXT CONTENT 69 Lượt đọc Luận văn Thạc sĩ Công nghệ Thông tin: Xây dựng bộ lọc phát hiện các Website có nội dung khiêu dâm dựa trên URL và TEXT CONTENT 13
Đánh giá Luận văn Thạc sĩ Công nghệ Thông tin: Xây dựng bộ lọc phát hiện các Website có nội dung khiêu dâm dựa trên URL và TEXT CONTENT
4.1 ( 4 lượt)
Nhấn vào bên dưới để tải tài liệu
Đang xem trước 10 trên tổng 73 trang, để tải xuống xem đầy đủ hãy nhấn vào bên trên
Chủ đề liên quan

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC LẠC HỒNG -------- NGUYỄN THANH PHONG XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT Luận văn Thạc sĩ Công nghệ Thông tin ĐỒNG NAI, 2014 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC LẠC HỒNG -------- NGUYỄN THANH PHONG XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT Chuyên ngành: Công nghệ Thông tin Mã số: 60480201 Luận văn Thạc sĩ Công nghệ Thông tin NGƢỜI HƢỚNG DẪN KHOA HỌC TS. VŨ ĐỨC LUNG ĐỒNG NAI, 2014 LỜI CẢM ƠN Với những lời đầu tiên, em xin dành sự cảm ơn chân thành và sâu sắc tới thầy tiến sỹ Vũ Đức Lung đã hƣớng dẫn và giúp đỡ em tận tình trong quá trình hoàn thành luận văn. Em cũng xin cảm ơn quý Thầy Cô Trƣờng Đại học Lạc Hồng đã tận tình truyền dạy kiến thức trong quá trình em học tập tại trƣờng, những kiến thức đó đã giúp em rất nhiều trong việc học tập và nghiên cứu sau này. Cuối cùng, xin gửi lời cảm ơn tới những ngƣời thân trong gia đình và bạn bè, đồng nghiệp đã giúp đỡ và tạo điều kiện tốt trong quá trình làm luận văn. Đồng Nai, tháng 08 năm 2014 Trân trọng Nguyễn Thanh Phong LỜI CAM ĐOAN Tôi xin cam đoan kết quả đạt đƣợc trong luận văn là sản phẩm của riêng cá nhân, là kết quả của quá trình học tập và nghiên cứu khoa học độc lập. Trong toàn bộ nội dung của luận văn, những điều đƣợc trình bày hoặc là của cá nhân hoặc là đƣợc tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và đƣợc trích dẫn hợp pháp. Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình. Đồng Nai, tháng 08 năm 2014 Tác giả Nguyễn Thanh Phong MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC KÝ HIỆU CÁC CỤM TỪ VIẾT TẮT DANH SÁCH CÁC BẢNG BIỂU, HÌNH VẼ MỞ ĐẦU ..................................................................................................................... 1 Lý do chọn đề tài ......................................................................................................... 1 Mục tiêu đề tài ............................................................................................................. 2 Nội dung thực hiện ...................................................................................................... 2 Phƣơng pháp thực hiện................................................................................................ 3 CHƢƠNG 1. TỔNG QUAN VỀ TRÍCH LỌC DỮ LIỆU TRÊN WEBSITE ..... 4 1.1 Giới thiệu ............................................................................................................. 4 1.2 Các loại bộ lọc WEB có nội dung khiêu dâm ..................................................... 4 1.2.1 Bộ lọc WEB dựa vào địa chị mạng .................................................................. 4 1.2.2 Bộ lọc WEB dựa vào URL .............................................................................. 6 1.2.3 Bộ lọc WEB dựa vào DNS .............................................................................. 9 1.2.4 Bộ lọc WEB dựa vào từ khóa ........................................................................ 10 1.2.5 Bộ lọc WEB dựa vào nội dung text và hình ảnh............................................ 10 1.3 Các công trình liên quan .................................................................................. 11 CHƢƠNG 2. CÁC LÝ THUYẾT ỨNG DỤNG TRONG LUẬN VĂN ............. 15 2.1 Rút trích nội dung của website .......................................................................... 15 2.1.1 Phân tích mã HTML ...................................................................................... 15 2.1.2 So sánh khung mẫu ........................................................................................ 16 2.1.3 Xử lý ngôn ngữ tự nhiên ................................................................................ 17 2.2 Phân tích nội dung thành các token .................................................................. 18 2.2.1 Tiền xử lý dữ liệu ........................................................................................... 19 2.2.2 Tách câu dựa trên Maximum Entropy ........................................................... 19 2.2.3 Tách từ ........................................................................................................... 21 2.2.3.1 Phƣơng pháp Maximum Matching .............................................................. 25 2.2.3.2 Phƣơng pháp Transformation – based learning – TBL................................ 25 2.2.3.3 Mô hình tách từ bằng WFST và mạng Neural ............................................. 26 2.2.3.4 Phƣơng pháp tách từ tiếng việt dựa trên thống kê từ Internet và thuật giải di truyền ........................................................................................................... 28 2.2.4 Thuật toán KEA ............................................................................................. 29 2.2.4.1 Chọn cụm ứng viên ...................................................................................... 31 2.2.4.2 Tính toán đặc trƣng ...................................................................................... 33 2.2.4.3 Huấn luyện ................................................................................................... 33 2.2.4.4 Rút trích những cụm từ khóa ....................................................................... 34 2.2.5 Thuật toán KIP ............................................................................................... 34 2.2.6 Nhận diện thực thể có tên............................................................................... 36 2.3 Phân tích URL .................................................................................................. 37 CHƢƠNG 3. GIẢI PHÁP LỌC WEBSITE KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT ............................................................................................ 38 3.1 Phân tích mô hình hệ thống .............................................................................. 38 3.2 Module xử lý dựa vào URL .............................................................................. 40 3.3 Module lọc theo nội dung ................................................................................. 40 3.3.1 Giai đoạn huấn luyện ..................................................................................... 41 3.3.1.1 Tiền xử lý văn bản ....................................................................................... 41 3.3.1.2 Trích lọc đặc trƣng ....................................................................................... 42 3.3.1.3 Thuật toán Naïve Bayes ............................................................................... 44 3.3.2 Giai đoạn phân lớp, nhận dạng ...................................................................... 47 CHƢƠNG 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ................................. 50 4.1 Môi trƣờng thử nghiệm...................................................................................... 50 4.2 Giao diện chƣơng trình ...................................................................................... 50 4.2.1 Giao diện chính .............................................................................................. 50 4.2.2 Giao diện học từ lấy TOKEN phân lớp nội dung Website ............................ 53 4.2.3 Giao diện duyệt các TOKEN từ đơn đƣa vào danh sách TOKEN ................ 54 4.2.4 Giao diện duyệt các TOKEN từ ghép đƣa vào danh sách TOKEN ............... 54 4.2.5 Giao diện danh sách các TOKEN từ phân lớp nội dung Website................. 55 4.2.6 Giao diện lấy TOKEN URL........................................................................... 55 4.2.7 Giao diện danh sách các TOKEN URL để phân lớp URL của Website........ 56 4.3 Thu thập dữ liệu................................................................................................ 56 4.3.1 Thu thập dữ liệu để làm cơ sở dữ liệu TOKEN URL ................................... 56 4.3.2 Thu thập dữ liệu để làm cơ sở dữ liệu TOKEN nội dung .............................. 57 4.4 Đánh giá kết quả thực nghiệm .......................................................................... 58 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ............................................................. 60 TÀI LIỆU THAM KHẢO KÝ HIỆU CÁC CỤM TỪ VIẾT TẮT Từ viết tắt Ý nghĩa KNN K-Nearest Neighbor LDA Latent Drichlet Allocation LLSF Linear Least Square Fit LRMM Left Right Maximum Matching MM Maximum Matching NB Naïve Bayes pLSA Probabilistic Latent Semantic Analysis SVM Support Vector Machine TBL Transformation -based Learning TF WFST Term Frequency Weighted Finit State Transducer DANH SÁCH CÁC HÌNH VẼ Hình 2.1 - Hệ thống bóc tách nội dung của VietSpider ............................................ 16 Hình 2.2 – Mô hình bóc tách nội dung chính bằng so sánh khung mẫu ................... 17 Hình 2.3 – Sơ đồ thuật toán KEA ............................................................................. 30 Hình 3.1 – Mô hình hệ thống lọc Website có nội dung khiêu dâm .......................... 39 Hình 3.2 – Quy trình huấn luyện lấy TOKEN URL ................................................. 40 Hình 3.3 – Quy trình huấn luyện TOKEN nội dung ................................................. 41 Hình 3.4 – Quy trình tách từ ..................................................................................... 42 Hình 3.5 – Mô hình huấn luyện từ ............................................................................ 44 Hình 3.6 – Mô hình giai đoạn phân lớp .................................................................... 48 Hình 4.1 – Giao diện lúc khởi động bộ lọc ............................................................... 50 Hình 4.2 – Giao diện đăng nhập................................................................................ 51 Hình 4.3 – Giao diện khi duyệt một địa chỉ WEB tốt ............................................... 51 Hình 4.4 – Giao diện khi duyệt một địa chỉ WEB xấu ............................................. 52 Hình 4.5 – Giao diện danh sách địa chỉ WEB tốt, xấu ............................................. 52 Hình 4.6 – Giao diện chức năng hệ thống ................................................................. 53 Hình 4.7 – Giao diện huấn luyện từ đơn, từ ghép ..................................................... 53 Hình 4.8 – Giao diện duyệt các TOKEN từ đơn đƣa vào danh sách ToKEN ......... 54 Hình 4.9 – Giao diện duyệt các TOKEN từ ghép đƣa vào danh sách ToKEN ........ 54 Hình 4.10 – Giao diện duyệt TOKEN từ đơn và từ ghép ......................................... 55 Hình 4.11 – Giao diện huấn luyện TOKEN URL ..................................................... 55 Hình 4.12 – Giao diện danh sách các TOKEN URL sau huấn luyện ....................... 56 Hình 4.13 – Địa chỉ URL thu thập đƣợc ................................................................... 56 Hình 4.14 – File tốt thu thập đƣợc ............................................................................ 57 Hình 4.15 – File xấu thu thập đƣợc ........................................................................... 57 Hình 4.16 – Cơ sở dữ liệu TOKEN nội dung sau quá trình huấn luyện .................. 58 DANH SÁCH CÁC BẢNG BIỂU Bảng 1.1 – Kết quả đánh giá NET PROJECT ............................................................ 5 Bảng 1.2 – Một số sản phẩm lọc WEB theo URL ...................................................... 7 Bảng 2.1 – Xác định cụm ứng viên ........................................................................... 32 Bảng 3.1 – Thống kê một số từ điển thông dụng tiếng việt ...................................... 43 Bảng 3.2 – Số liệu thống kê bảng từ điển ................................................................. 43 Bảng 3.3 – Ví dụ minh họa tần số xuất hiện các TOKEN ........................................ 46 Bảng 3.4 –Ví dụ minh họa tần số xuất hiện các TOKEN chƣa làm trơn .................. 47 Bảng 3.5 –Ví dụ minh họa tần số xuất hiện các TOKEN đã làm trơn ...................... 47 Bảng 4.1 – Kết quả thực nghiệm File nội dung ........................................................ 59 Bảng 4.2 – Kết quả thực nghiệm URL ...................................................................... 59
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.