Luận văn Thạc sĩ Công nghệ thông tin: Phát triển tính năng loại bỏ dữ liệu trùng lặp (data deduplication) cho dữ liệu đính kèm trong hệ thống thư điện tử sử dụng phần mềm hmailserver

pdf
Số trang Luận văn Thạc sĩ Công nghệ thông tin: Phát triển tính năng loại bỏ dữ liệu trùng lặp (data deduplication) cho dữ liệu đính kèm trong hệ thống thư điện tử sử dụng phần mềm hmailserver 76 Cỡ tệp Luận văn Thạc sĩ Công nghệ thông tin: Phát triển tính năng loại bỏ dữ liệu trùng lặp (data deduplication) cho dữ liệu đính kèm trong hệ thống thư điện tử sử dụng phần mềm hmailserver 2 MB Lượt tải Luận văn Thạc sĩ Công nghệ thông tin: Phát triển tính năng loại bỏ dữ liệu trùng lặp (data deduplication) cho dữ liệu đính kèm trong hệ thống thư điện tử sử dụng phần mềm hmailserver 1 Lượt đọc Luận văn Thạc sĩ Công nghệ thông tin: Phát triển tính năng loại bỏ dữ liệu trùng lặp (data deduplication) cho dữ liệu đính kèm trong hệ thống thư điện tử sử dụng phần mềm hmailserver 8
Đánh giá Luận văn Thạc sĩ Công nghệ thông tin: Phát triển tính năng loại bỏ dữ liệu trùng lặp (data deduplication) cho dữ liệu đính kèm trong hệ thống thư điện tử sử dụng phần mềm hmailserver
4.6 ( 8 lượt)
Nhấn vào bên dưới để tải tài liệu
Đang xem trước 10 trên tổng 76 trang, để tải xuống xem đầy đủ hãy nhấn vào bên trên
Chủ đề liên quan

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ANH TUẤN PHÁT TRIỂN TÍNH NĂNG LOẠI BỎ DỮ LIỆU TRÙNG LẶP (DATA DEDUPLICATION) CHO DỮ LIỆU ĐÍNH KÈM TRONG HỆ THỐNG THƯ ĐIỆN TỬ SỬ DỤNG PHẦN MỀM HMAILSERVER LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ANH TUẤN PHÁT TRIỂN TÍNH NĂNG LOẠI BỎ DỮ LIỆU TRÙNG LẶP (DATA DEDUPLICATION) CHO DỮ LIỆU ĐÍNH KÈM TRONG HỆ THỐNG THƯ ĐIỆN TỬ SỬ DỤNG PHẦN MỀM HMAILSERVER Ngành: Công nghệ thông tin Chuyên ngành: Truyền dữ liệu và Mạng máy tính Mã số: Chuyên ngành đào tạo thí điểm LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS.HOÀNG XUÂN TÙNG Hà Nội – 2017 1 LỜI CAM ĐOAN Tôi xin cam đoan nội dung trong luận văn là sản phẩm do tôi thực hiện dưới sự hướng dẫn của Thầy giáo Tiến sĩ Hoàng Xuân Tùng. Các kết quả trong khóa luận là hoàn toàn trung thực và chưa được cá nhân, tổ chức nào công bố trong bất kỳ nghiên cứu nào. Tôi xin chịu trách nhiệm cho lời cam đoan của mình. Hà Nội, ngày 28 tháng 05 năm 2017 Người cam đoan Nguyễn Anh Tuấn 2 MỤC LỤC LỜI CAM ĐOAN....................................................................................................... 1 MỤC LỤC .................................................................................................................. 2 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ................................................ 4 DANH MỤC CÁC BẢNG ......................................................................................... 5 DANH SÁCH CÁC HÌNH VẼ, ĐỒ THỊ .................................................................. 6 LỜI MỞ ĐẦU ............................................................................................................ 8 CHƯƠNG I: TỔNG QUAN VỀ DATA DEDUPLICATION, HỆ THỐNG EMAIL VÀ MỐI LIÊN QUAN ................................................................................. 9 1.1. Giới thiệu về Data Deduplication. ................................................................... 9 1.1.1. Data Deduplication là gì? .......................................................................... 9 1.1.2. Mục đích của Data Deduplication ............................................................. 9 1.1.3. Phân loại Data Deduplication.................................................................. 10 1.1.3.1. File-level deduplication ................................................................... 10 1.1.3.2. Block-level deduplication ................................................................ 10 1.1.3.3. Byte-level deduplication .................................................................. 12 1.1.4. So sánh các kiểu Data Deduplication ...................................................... 12 1.1.4.1. So sánh File-level với Block-level Deduplication ............................ 12 1.1.4.2. So sánh Block-level với Byte-level Deduplication........................... 12 1.2. Tổng quan về hệ thống Email ........................................................................ 13 1.2.1. Các khái niệm cơ bản về Email ............................................................... 13 1.2.2. Lợi ích của hệ thống Email ..................................................................... 14 1.2.3. Kiến trúc chung một hệ thống Email ....................................................... 14 1.2.4. Phương thức hoạt động của một hệ thống Email ..................................... 15 1.2.5. Các giao thức sử dụng trong hệ thống Email ........................................... 16 1.2.5.1. Giao thức SMTP ............................................................................. 16 1.2.5.2. Giao thức IMAP .............................................................................. 17 1.2.5.3. Giao thức POP ................................................................................ 18 1.2.5.4. So sánh giữa hai giao thức IMAP và POP ....................................... 19 1.2.6. Định dạng thư điện tử (Message format) ................................................. 20 1.2.6.1. Message header ............................................................................... 20 1.2.6.2. Message body.................................................................................. 21 1.2.6.3. MIME format .................................................................................. 22 1.3. Vấn đề Data Deduplication trong các hệ thống Email.................................... 22 1.3.1. Lợi ích của Data Deduplication trong hệ thống Email. ............................ 22 1.3.2. Hệ thống email và khả năng Data Deduplication. .................................... 23 CHƯƠNG II: PHƯƠNG THỨC THỰC HIỆN DATA DEDUPLICATION VÀ GIẢI PHÁP CHO HỆ THỐNG EMAIL ................................................................ 26 2.1. Phương thức thực hiện Data Deduplication ................................................... 26 2.1.1. Source và Target Deduplication .............................................................. 26 2.1.1.1. Source Deduplication ...................................................................... 27 2.1.1.2. Target Deduplication ....................................................................... 27 2.1.2. Inline và Post-Process Deduplication ...................................................... 28 2.1.2.1. Inline Deduplication ........................................................................ 28 3 2.1.2.2. Post-process Deduplication ............................................................. 29 2.1.3. File và Sub-File Level............................................................................. 30 2.1.4. Fixed-Length Blocks và Variable-Length Data Segments ....................... 30 2.1.5. Thuật toán băm (Hash-based Algorithms) ............................................... 31 2.2. Một số các sản phẩm ứng dụng Data Deduplication ...................................... 31 2.3. Giải pháp chống trùng lặp dữ liệu trong Email .............................................. 33 2.4. Đề xuất lựa chọn hMailServer để thực nghiệm .............................................. 34 CHƯƠNG III: TÍCH HỢP TÍNH NĂNG DEDUPLICATION TRONG HỆ THỐNG HMAILSERVER ...................................................................................... 36 3.1. Tổng quan về hMailServer ............................................................................ 36 3.1.1. Giới thiệu về hMailServer ....................................................................... 36 3.1.2. Các tính năng của hMailServer ............................................................... 36 3.1.2.1. Cài đặt và cấu hình đơn giản ........................................................... 36 3.1.2.2. Khả năng bảo mật cao ..................................................................... 37 3.1.2.3. Khả năng tích hợp mở rộng ............................................................. 38 3.1.2.4. Các tính năng khác .......................................................................... 38 3.1.3. Thư viện COM và API sử dụng trong hMailServer ................................. 38 3.1.4. Môi trường phát triển của hMailServer ................................................... 40 3.2. Xây dựng hệ thống Email với hMailServer ................................................... 40 3.2.1. Giới thiệu các thành phần cài đặt và quản trị ........................................... 40 3.2.2. Cài đặt máy chủ Active Directory và dịch vụ IIS .................................... 42 3.2.2.1. Cài đặt máy chủ Active Directory ................................................... 42 3.2.2.2. Cài đặt dịch vụ IIS........................................................................... 44 3.2.3. Cài đặt và Cấu hình hệ thống hMailServer .............................................. 45 3.2.3.1. Cài đặt máy chủ hMailServer .......................................................... 45 3.2.3.2. Cài đặt bộ quản trị WebAdmin và WebMail .................................... 49 3.2.3.3. Cấu hình tên miền và tài khoản người dùng ..................................... 52 3.2.3.4. Hoạt động gửi / nhận email trong hMailServer ................................ 53 3.2.4. Nhận xét về khả năng chống trùng lặp dữ liệu của hMailServer .............. 55 3.3. Tích hợp tính năng deduplication trong hMailServer ..................................... 55 3.3.1. Xây dựng kịch bản triển khai .................................................................. 56 3.3.2. Cài đặt kịch bản ...................................................................................... 56 3.3.3. Hoạt động của hMailServer trong trường hợp tích hợp Deduplication .... 69 3.3.4. Tính bảo mật của hệ thống ...................................................................... 70 3.4. So sánh kết quả thực nghiệm ......................................................................... 71 KẾT LUẬN .............................................................................................................. 72 TÀI LIỆU THAM KHẢO ....................................................................................... 73 4 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Tên viết tắt Tên đầy đủ Ý nghĩa Data Deduplication Chống trùng lặp dữ liệu Affero General Public License v3 Giấy phép xuất bản AGPL Ver3 Application Programming Interface American Standard Code for Information Interchange Giao diện lập trình ứng dụng COM library COM library Thư viện COM DNS Domain Name System Hệ thống phân giải tên miền Email Electronic Mail Thư điện tử HTML HyperText Markup Language AGPLv3 API ASCII IMAP Chuẩn trao đổi thông tin Hoa Kỳ Ngôn ngữ đánh dấu siêu văn bản Một giao thức truy cập thư điện Internet Message Access Protocol tử LAN Local Area Network Mạng nội bộ MD5 Message-Digest algorithm 5 Thuật toán MD5 MDA Mail Delivery Agent Máy chủ chuyển giao thư MIME Multipurpose Internet Mail Extensions Một chuẩn internet về định dạng cho thư điện tử MTA Mail Transfer Agent Máy chủ gửi thư MUA Mail User Agent Phần mềm thư điện tử POP3 Post Office Protocol Ver3 RFC Request for Comments SHA-1 Secure Hash Algorithm 1 SMTP Simple Mail Transfer Protocol SPF Sender Policy Framework SURBL Spam URI Realtime Blacklist Một giao thức truy cập thư điện tử Tài liệu đặc tả các chuẩn, giao thức Thuật toán SHA-1 Giao thức truyền tải thư điện tử đơn giản Khung chính sách gửi thư điện tử dùng xác minh người gửi. Một dạng bộ lọc danh sách chống spam 5 DANH MỤC CÁC BẢNG Bảng 1.1. Mô tả một số các lệnh của giao thức SMTP ............................................... 16 Bảng 1.2. Mô tả một số các lệnh của giao thức IMAP ................................................ 17 Bảng 1.3. Mô tả một số các lệnh của giao thức POP .................................................. 18 Bảng 1.4. So sánh hai giao thức IMAP và POP .......................................................... 19 Bảng 1.5. So sánh tính năng của một số máy chủ email phổ biến hiện nay ................. 23 Bảng 2.1. So sánh các sản phẩm deduplication của một số các nhà cung cấp ............. 32 Bảng 3.1. So sánh gần đúng kết quả khi sử dụng Data Deduplication ........................ 71 6 DANH SÁCH CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1. So sánh hai tệp tin dựa trên các thuộc tính của tệp tin ................................. 10 Hình 1.2. Mô tả về phương pháp block-level (dữ liệu được chia thành các khối nhỏ) 11 Hình 1.3. Mô tả về phương pháp block-level (các khối so sánh để loại phần dư thừa) 11 Hình 1.4. Mô phỏng các kiểu Data Deduplication [7] ................................................ 12 Hình 1.5. Kiến trúc chung của một hệ thống email thông thường ............................... 14 Hình 1.6. Mô tả phương thức hoạt động của một hệ thống email ............................... 15 Hình 2.1. Mối tương quan giữa các yếu tố kỹ thuật của công nghệ Deduplication ...... 26 Hình 2.2. Mô tả kỹ thuật Deduplication tại nguồn ...................................................... 27 Hình 2.3. Mô tả kỹ thuật Deduplication tại đích ......................................................... 28 Hình 2.4. Mô tả kỹ thuật Inline Deduplication ........................................................... 29 Hình 2.5. Mô tả kỹ thuật Post-process Deduplication ................................................. 29 Hình 2.6. Khối dữ liệu tương tự nhau nhưng có thể khác vị trí ................................... 30 Hình 3.1. Quản lý hMailServer bằng công cụ quản trị ................................................ 37 Hình 3.2. Quản lý hMailServer bằng giao diện web ................................................... 37 Hình 3.3. Một ví dụ về các phương thức và thuộc tính của đối tượng Attachment ...... 38 Hình 3.4. Mô hình triển khai hệ thống hMailServer ................................................... 41 Hình 3.5. Trình thuật sĩ cài đặt Roles hiện lên khi click chọn Add Roles ................... 42 Hình 3.6. Chọn dịch vụ Active Directory để cài đặt ................................................... 42 Hình 3.7. Màn hình thông báo kích hoạt dịch vụ Active Directory ............................. 43 Hình 3.8. Công cụ quản lý Active Directory Users and Computers ............................ 43 Hình 3.9. Lựa chọn dịch vụ Web Server (IIS) để cài đặt ............................................ 44 Hình 3.10. Thêm mới website để lưu trữ và tạo link cho các tệp đính kèm ................. 44 Hình 3.11. Cấu hình yêu cầu xác thực bằng tài khoản windows trên IIS .................... 45 Hình 3.12. Bắt đầu tiền hành cài đặt hMailServer ...................................................... 45 Hình 3.13. Chọn đường dẫn cài đặt hMailServer........................................................ 46 Hình 3.14. Chọn các thành phần để cài đặt cho hMailServer ...................................... 46 Hình 3.15. Tùy chọn cơ sở dữ diệu để sử dụng cho hMailServer................................ 47 Hình 3.16. Tạo ra mật khẩu để quản trị hMailServer .................................................. 47 Hình 3.17. Quá trình cài đặt hMailServer được diễn ra .............................................. 48 Hình 3.18. Cấu hình kết nối cơ sở dữ liệu cho hMailServer ....................................... 48 Hình 3.19. Cấu hình kết nối cơ sở dữ liệu cho hMailServer ....................................... 49 Hình 3.20. Cấu hình tham số để tạo cơ sở dữ liệu cho hMailServer ........................... 49 Hình 3.21. Khởi chạy dịch vụ Apache trên Xampp v3.2.1.......................................... 50 Hình 3.22. Cài đặt WebAdmin – sao chép thư mục PHPWebAdmin .......................... 50 Hình 3.23. Cài đặt WebAdmin – chỉnh sửa file confìg.php ........................................ 51 Hình 3.24. Cài đặt WebAdmin – giao diện đăng nhập WebAdmin ............................. 51 Hình 3.25. Cài đặt WebMail – giao diện đăng nhập WebMail.................................... 52 Hình 3.26. Tạo Domain sử dụng trong hMailServer ................................................... 52 Hình 3.27. Giao diện tạo tài khoản người dùng trong hMailServer............................. 53 Hình 3.28. Sử dụng truy vấn SQL để xem danh sách các email của người dùng ........ 54 Hình 3.29. Email gửi đi được lưu trong hòm thư của User1 ....................................... 54 Hình 3.30. Email gửi đi được lưu trong hòm thư của User2 ....................................... 55 Hình 3.31. Cùng một email gửi đi được lưu trong hòm thư của User1 và User2 ......... 55 Hình 3.32. Cài đặt kịch bản tích hợp chức năng deduplication ................................... 68 Hình 3.33. Tạo Rule để kích hoạt kịch bản................................................................. 68 Hình 3.34. Chi tiết cấu hình Rule để kích hoạt kịch bản ............................................. 69 7 Hình 3.35. Người dùng nhận được email khi triển khai tính năng deduplication ........ 69 Hình 3.36. Email được lưu tại hòm thư của người nhận với dung lượng nhỏ.............. 70 Hình 3.37. Tệp đính kèm được lưu chỉ một bản trên máy chủ hMailServer ................ 70 Hình 3.38. Mô tả quá trình chứng thực khi người dùng truy cập tệp tin đính kèm ...... 71 8 LỜI MỞ ĐẦU Cùng với sự phát triển chung của toàn xã hội, công nghệ thông tin đã từng bước được phát triển và được ứng dụng rộng rãi trong thực tế. Ngày nay, mạng Internet đã phát triển thành một mạng số liệu toàn cầu cho phép nhiều loại hình thông tin truyền đi trên nó. Trong số đó, thư điện tử (email) là một dịch vụ đã và đang trở nên phổ biến hơn bao giờ hết. Email cho phép chúng ta có thể giao dịch, trao đổi các thông tin qua lại một cách nhanh chóng, chính xác với độ tin cậy cao. Tuy nhiên, do đặc thù của một hệ thống email sẽ bao gồm nhiều người dùng và một người dùng có thể nhận được email từ một hoặc nhiều người dùng khác ở trong hoặc ngoài hệ thống. Do vậy, có một vấn đề phát sinh là lượng dữ liệu trùng lặp (thông điệp thư gửi đi, tệp đính kèm,…) có thể sẽ được lưu trữ nhiều lần trên cùng một máy chủ email. Nhận thức được tính cấp thiết của đề tài, tôi đã tiến hành nghiên cứu các phương pháp có khả năng chống trùng lặp dữ liệu để từ đó ứng dụng trong hệ thống email nhằm mục đích tối giảm sự trùng lặp dữ liệu trong việc gửi / nhận email trong một hệ thống, để từ đó tiết kiệm không gian lưu trữ máy chủ và tăng tốc độ truy xuất dữ liệu cho người dùng. Tên đề tài khóa luận của tôi là: “Phát triển tính năng loại bỏ dữ liệu trùng lặp (Data Deduplication) cho dữ liệu đính kèm trong hệ thống thư điện tử sử dụng phần mềm hMailServer”. Để hoàn thành được khóa luận này, tôi xin được gửi lời cảm ơn chân thành đến Thầy giáo: TS. Hoàng Xuân Tùng, giảng viên khoa Công nghệ thông tin, Trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội đã luôn tận tình hướng dẫn tôi trong suốt thời gian tôi thực hiện đề tài này. Tôi cũng xin được gửi lời cảm ơn đến tất cả các thầy giáo, cô giáo trong khoa Công Nghệ Thông Tin - Trường Đại Học Công Nghệ đã giảng dạy và trang bị cho tôi những kiến thức để tôi có thể thực hiện khóa luận. Cuối cùng, tôi xin được gửi lời cảm ơn đến gia đình, các anh chị, bạn bè đồng nghiệp đã luôn tạo điều kiện, giúp đỡ tôi trong suốt quá trình tôi thực hiện đề tài. Hà Nội, ngày 28 tháng 05 năm 2017 Học viên: Nguyễn Anh Tuấn
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.