Đồ án tốt nghiệp ngành Công nghệ thông tin: Áp dụng các phương pháp phân cụm trong khai phá dữ liệu Web

pdf
Số trang Đồ án tốt nghiệp ngành Công nghệ thông tin: Áp dụng các phương pháp phân cụm trong khai phá dữ liệu Web 69 Cỡ tệp Đồ án tốt nghiệp ngành Công nghệ thông tin: Áp dụng các phương pháp phân cụm trong khai phá dữ liệu Web 2 MB Lượt tải Đồ án tốt nghiệp ngành Công nghệ thông tin: Áp dụng các phương pháp phân cụm trong khai phá dữ liệu Web 1 Lượt đọc Đồ án tốt nghiệp ngành Công nghệ thông tin: Áp dụng các phương pháp phân cụm trong khai phá dữ liệu Web 4
Đánh giá Đồ án tốt nghiệp ngành Công nghệ thông tin: Áp dụng các phương pháp phân cụm trong khai phá dữ liệu Web
4.9 ( 11 lượt)
Nhấn vào bên dưới để tải tài liệu
Đang xem trước 10 trên tổng 69 trang, để tải xuống xem đầy đủ hãy nhấn vào bên trên
Chủ đề liên quan

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -------o0o------- ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ THÔNG TIN BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG HẢI PHÒNG 2016 -------o0o------- KẾT HỢP CÁC PHƢƠNG PHÁP PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU WEB ĐỒ ÁN TỐT NGHIỆP HỆ ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ Thông tin H¶i Phßng 2016 HẢI PHÒNG 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -------o0o------- KẾT HỢP CÁC PHƢƠNG PHÁP PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU WEB ĐỒ ÁN TỐT NGHIỆP HỆ ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ Thông tin Sinh viên thực hiện: Cao Hữu Hải Giáo viên hƣớng dẫn: Nguyễn Trịnh Đông Mã sinh viên: 1212101007 HẢI PHÒNG 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh phúc -------o0o------- NHIỆM VỤ THIẾT KẾ TỐT NGHIỆP Sinh viên: Cao Hữu Hải Mã số: 1212101007 Lớp:CT1601 Ngành: Công nghệ Thông tin Tên đề tài: Kết hợp các phƣơng pháp phân cụm trong khai phá dữ liệu Web NHIỆM VỤ ĐỀ TÀI 1. Nội dung và các yêu cầu cần giải quyết trong nhiệm vụ đề tài tốt nghiệp. a. Nội dung: - Tìm hiểu về khai phá dữ liệu, khai phá dữ liệu Web. - Tìm hiểu các thuật toán phân cụm phổ biến. Áp dụng các thuật toán phân cụm trong tìm kiếm và phân cụm tài liệu Web. - Đề ra phƣơng pháp xây dựng hệ thống. - Thử nghiệm với các công cụ để giải quyết bài toán. b. Các yêu cầu cần giải quyết. - Nắm đƣợc lý thuyết về khai phá dữ liệu Web. - Nắm đƣợc các thuật toán phân cụm dữ liệu. Nắm đƣợc quá trình phân cụm dữ liệu Web. Xây đựng đƣợc mô hình phân cụm dữ liệu với phần mền Orange. 2. Các số liệu cần thiết để thiết kế, tính toán 3. Địa điểm thực tập CÁN BỘ HƢỚNG DẪN ĐỀ TÀI TỐT NGHIỆP Ngƣời hƣớng dẫn thứ nhất: Họ và tên: Nguyễn Trịnh Đông Học hàm, học vị: Thạc sĩ Cơ quan công tác: Đại học Dân lập Hải Phòng Nội dung hƣớng dẫn: Tìm hiểu các phƣơng pháp phân cụm. Tìm hiểu một số phƣơng pháp tạo các luật cơ bản và các giải thuật liên quan. Đề ra phƣơng pháp xây dựng hệ thống. Thử nghiệm với các công cụ để giải quyết bài toán. Đề tài tốt nghiệp đƣợc giao ngày 03 tháng 10 năm 2016 Yêu cầu phải hoàn thành trƣớc ngày 24 tháng 12 năm 2016 Đã nhận nhiệm vụ: Đ.T.T.N Đã nhận nhiệm vụ: Đ.T.T.N Sinh viên Cán bộ hƣớng dẫn Đ.T.T.N Hải Phòng, ngày ............tháng.........năm 2016 HIỆU TRƢỞNG GS.TS.NGƯT Trần Hữu Nghị PHẦN NHẬN XÉT TÓM TẮT CỦA CÁN BỘ HƢỚNG DẪN 1. Tinh thần thái độ của sinh viên trong quá trình làm đề tài tốt nghiệp: ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… 2. Đánh giá chất lƣợng của đề tài tốt nghiệp (so với nội dung yêu cầu đã đề ra trong nhiệm vụ đề tài tốt nghiệp): …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………… 1. Cho điểm của cán bộ hƣớng dẫn: ( Điểm ghi bằng số và chữ ) ………………………………………………………………………………… …………………………………………………………………………… Ngày.......tháng.........năm 2016 Cán bộ hƣớng dẫn chính ( Ký, ghi rõ họ tên ) PHẦN NHẬN XÉT ĐÁNH GIÁ CỦA CÁN BỘ CHẤM PHẢN BIỆN ĐỀ TÀI TỐT NGHIỆP 1. Đánh giá chất lƣợng đề tài tốt nghiệp (về các mặt nhƣ cơ sở lý luận, thuyết minh chƣơng trình, giá trị thực tế,…): ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… 2. Cho điểm của cán bộ phản biện (Điểm ghi bằng số và chữ) ………………………………………………………………………………………………… ………………………………………………………………………………………………… Ngày.......tháng.........năm 2016 Cán bộ chấm phản biện ( Ký, ghi rõ họ tên ) LỜI CẢM ƠN Trong lời đầu tiên của báo cáo đồ án tốt nghiệp “Áp dụng các phƣơng pháp phân cụm trong khai phá dữ liệu Web”, em muốn gửi những lời cám ơn và biết ơn chân thành nhất của mình tới tất cả những ngƣời đã hỗ trợ, giúp đỡ em về kiến thức và tinh thần trong quá trình thực hiện đồ án. Trƣớc hết, em xin chân thành cám ơn thầy giáo Ths. Nguyễn Trịnh Đông, giảng viên khoa Công nghệ Thông tin, Trƣờng Đại học Dân lập Hải Phòng, ngƣời đã trực tiếp hƣớng dẫn, nhận xét, giúp đỡ em trong suốt quá trình thực hiện đồ án. Xin chân thành cảm ơn GS.TS.NGƢT Trần Hữu Nghị Hiệu trƣởng trƣờng Đại học Dân lập Hải Phòng, ban giám hiệu nhà trƣờng, các thầy cô trong khoa Công nghệ Thông tin và các phòng ban nhà trƣờng đã tạo điều kiện tốt nhất cho em cũng nhƣ các bạn khác trong suốt thời gian học tập và làm tốt nghiệp. Cuối cùng em xin gửi lời cảm ơn đến gia đình, bạn bè, ngƣời thân đã giúp đỡ động viên em rất nhiều trong quá trình học tập và làm đồ án tốt nghiệp. Mặc dù em đã hết sức cố gắng để hoàn thiện báo cáo tốt nghiệp song khả năng còn hạn chế nên bài báo cáo vẫn còn thiếu nhiều sai sót. Vì vậy em rất mong đƣợc sự đóng góp của các thầy cô và bạn bè. Em xin chân thành cảm ơn! Hải Phòng,ngày 24 tháng 12 năm 2016 Sinh viên Cao Hữu Hải Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 1 MỤC LỤC LỜI CẢM ƠN .........................................................................................................1 MỤC LỤC ..............................................................................................................2 DANH SÁCH HÌNH ..............................................................................................4 DANH SÁCH BẢNG .............................................................................................6 DANH MỤC TỪ VIẾT TẮT .................................................................................6 CHƢƠNG 1: GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU WEB ............................... 8 1.1 Khai phá dữ liệu và khai phá tri thức.......................................................8 1.1.1 Khai phá dữ liệu ..................................................................................8 1.1.2 Quá trình khám phá tri thức ................................................................ 8 1.1.3 Khai phá dữ liệu và các lĩnh vực liên quan .........................................9 1.1.4 Các kỹ thuật áp dụng trong khai phá dữ liệu.......................................9 1.1.5 Những chức năng chính của khai phá dữ liệu ...................................10 1.1.6 Ứng dụng của khai phá dữ liệu .........................................................11 1.2 Phƣơng pháp phân cụm dữ liệu ............................................................. 12 1.2.1 Giới thiệu về kỹ thuật phân cụm .......................................................12 1.2.2 Ứng dụng của phân cụm dữ liệu .......................................................14 1.2.3 Các yêu cầu đối với kỹ thuật phân cụm dữ liệu ................................ 14 1.2.4 Các kiểu dữ liệu và độ đo tƣơng tự ...................................................15 1.3 Khai phá Web ........................................................................................19 1.3.1 Các kiểu dữ liệu Web ........................................................................21 1.3.2 Xử lý dữ liệu văn bản ứng dụng trong khai phá dữ liệu Web ...........22 1.3.3 Một số vấn đề trong xử lý dữ liệu văn bản ........................................22 1.4 Tiểu kết chƣơng 1 ..................................................................................24 CHƢƠNG 2: MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU ............................25 2.1 Thuật toán k-means ................................................................................25 2.2 Thuật toán PAM.....................................................................................27 Sinh viên: Cao Hữu Hải-Lớp: CT1601-Ngành: Công nghệ Thông tin 2
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.