Luận văn Thạc sĩ Công nghệ thông tin: Trích xuất ý định người dùng mua hàng trên mạng xã hội sử dụng phương pháp suy luận các mô hình

pdf
Số trang Luận văn Thạc sĩ Công nghệ thông tin: Trích xuất ý định người dùng mua hàng trên mạng xã hội sử dụng phương pháp suy luận các mô hình 57 Cỡ tệp Luận văn Thạc sĩ Công nghệ thông tin: Trích xuất ý định người dùng mua hàng trên mạng xã hội sử dụng phương pháp suy luận các mô hình 2 MB Lượt tải Luận văn Thạc sĩ Công nghệ thông tin: Trích xuất ý định người dùng mua hàng trên mạng xã hội sử dụng phương pháp suy luận các mô hình 1 Lượt đọc Luận văn Thạc sĩ Công nghệ thông tin: Trích xuất ý định người dùng mua hàng trên mạng xã hội sử dụng phương pháp suy luận các mô hình 29
Đánh giá Luận văn Thạc sĩ Công nghệ thông tin: Trích xuất ý định người dùng mua hàng trên mạng xã hội sử dụng phương pháp suy luận các mô hình
4.4 ( 17 lượt)
Nhấn vào bên dưới để tải tài liệu
Đang xem trước 10 trên tổng 57 trang, để tải xuống xem đầy đủ hãy nhấn vào bên trên
Chủ đề liên quan

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ DOÃN THỊ HUYỀN TRANG TRÍCH XUẤT Ý ĐỊNH NGƯỜI DÙNG MUA HÀNG TRÊN MẠNG XÃ HỘI SỬ DỤNG PHƯƠNG PHÁP SUY LUẬN CÁC MÔ HÌNH LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN HÀ NỘI– 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ DOÃN THỊ HUYỀN TRANG TRÍCH XUẤT Ý ĐỊNH NGƯỜI DÙNG MUA HÀNG TRÊN MẠNG XÃ HỘI SỬ DỤNG PHƯƠNG PHÁP SUY LUẬN CÁC MÔ HÌNH Ngành: Công nghệ thông tin Chuyên ngành: Quản lý hệ thống thông tin LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN Cán bộ hướng dẫn: PGS. TS. Hà Quang Thụy HÀ NỘI – 2016 VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Doan Thi Huyen Trang USER CONSUMPTION INTENT IDENTIFICATION FROM SOCIAL NETWORK USING ENSEMBLE METHODS Major: Information Technology Supervisor: Assoc. Prof. Ha Quang Thuy HA NOI –2016 Lời cảm ơn Trước tiên, em xin bày tỏ lời cảm ơn sâu sắc tới Phó giáo sư Tiến sĩ Hà Quang Thụy người đã tận tình chỉ bảo, hướng dẫn em trong quá trình tìm hiểu, nghiên cứu để hoàn thành luận văn tốt nghiệp của mình. Đặc biệt, em xin gửi lời cảm ơn chân thành nhất tới Thạc sĩ Trần Mai Vũ người đã tận tình hỗ trợ về kiến thức chuyên môn, giúp đỡ em rất nhiều để hoàn thành luận văn. Đồng thời, xin cảm ơn các thầy, các anh chị và các bạn trong Phòng Thí nghiệm DS&KTLab và Đề tài QG.15.22 đã chia sẻ những kinh nghiệm, kiến thức quý báu cho em trong quá trình nghiên cứu. Cuối cùng, em muốn gửi lời cảm ơn tới gia đình, những người thân yêu luôn bên cạnh, động viên, giúp đỡ em trong suốt quá trình học tập và trong thời gian thực hiện luận văn thạc sỹ. Xin chân thành cảm ơn! Hà Nội, ngày 1 tháng 11 năm 2016 Tác giả Doãn Thị Huyền Trang Tóm tắt Tóm tắt: Vài năm trở lại đây, nhu cầu sử dụng mạng xã hội của người dùng không ngừng tăng. Con người sử dụng mạng xã hội không chỉ để giải trí như: cập nhật trạng thái, kết bạn, tán gẫu, nói chuyện mà họ còn dùng mạng xã hội như một công cụ tìm kiếm thông tin hay sản phẩm, dịch vụ và là nơi mua bán, trao đổi hàng hóa. Đoán được nhu cầu này của đông đảo người dùng, bài toán phát hiện ý định mua hàng của người dùng trên mạng xã hội ra đời nhằm tìm ra các ý định, mong muốn mua một sản phẩm được người dùng thể hiện trong các bài đăng, các bình luận trên mạng xã hội Facebook để từ đó làm kết quả đầu vào cho nhiều bài toán quan trọng, mang lại nhiều giá trị không nhỏ cho cộng đồng nghiên cứu như: hệ tư vấn người dùng – giúp hỗ trợ người dùng tìm kiếm hàng hóa, sản phẩm dịch vụ đúng địa chỉ với thời gian nhanh nhất, bài toán dự đoán sở thích người dùng qua những hành vi của họ và nhiều bài toán có ý nghĩa khác nữa. Bài toán hiện đã và đang nhận được sự quan tâm đặc biệt trong nhiều hướng nghiên cứu mới bởi nó có sức ảnh hưởng không nhỏ và là nguồn tài nguyên quan trọng cho các bên liên quan như các công ty, tổ chức, chính phủ, … . Mặc dù có tiềm năng lớn cho các ứng dụng nhưng việc xác định các ý định rõ ràng của người dùng thực sự là một bài toán, một hướng nghiên cứu khó trong xử lý ngôn ngữ tự nhiên. Luận văn với đề tài “Trích xuất ý định người dùng mua hàng trên mạng xã hội sử dụng phương pháp suy luận các mô hình” nghiên cứu nội dung, các thuộc tính, các thuật toán nhằm giải quyết bài toán phân lớp. Luận văn thực hiện tiến hành thực nghiệm trên bộ dữ liệu là các bài đăng, các bình luận trên Facebook, sử dụng phương pháp lai ghép các mô hình phân lớp: Support Vector Machine (SVM), K – Nearest Neighbors (KNN) và Maximum Entropy (Maxent) mang lại kết quả tốt hơn so với việc chỉ sử dụng một mô hình phân lớp. Kết quả trả về với độ chính xác P là 88,12%, độ hồi tưởng R là 86,37% và độ đo F1 là 87,24% Từ khóa: ý định, phương pháp lai ghép mô hình, Support Vector Machine, K- Nearest Neighbors, Maximum Entropy,… Abstract Abstract: Social media platforms are often used by people to express their needs and desires. Such data offer great opportunities to identify users’ consumption intention from user-generated contents, so that better tailored products or services can be recommended. However, there have been few efforts on mining commercial intents from social media contents. In this thesis, I investigate the use of social media data to identify consumption intentions for individuals. I use ensemble methods based on three classification models: Support Vector Machine, K- Nearest Neighbors, Maximum Entropy Model for identifying whether the user has a consumption intention on your comment. Experiment results have show that the proposed method is quite well with Precision: 88,12%, Recall: 86,37% and F1- score: 87,24%. Keywords: intent, ensemble methods, Support Vector Machine, K- Nearest Neighbors, Maximum Entropy Lời cam đoan Tôi xin cam đoan rằng đây là công trình nghiên cứu của mình, có sự giúp đỡ từ giáo viên hướng dẫn là Phó giáo sư, Tiến sỹ Hà Quang Thụy và Thạc sĩ Trần Mai Vũ. Các nội dung nghiên cứu và kết quả trong đề tài này là trung thực, không sao chép từ bất cứ nguồn nào có sẵn. Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong luận văn, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo. Nếu phát hiện có bất kỳ sự gian lận nào, tôi xin hoàn toàn chịu trách nhiệm trước hội đồng, cũng như kết quả luận văn tốt nghiệp của mình. Tác giả DoãnThị Huyền Trang Mục lục Lời cảm ơn ..................................................................................................................1 Tóm tắt ........................................................................................................................2 Abstract .......................................................................................................................3 Lời cam đoan ...............................................................................................................4 Mục lục ........................................................................................................................5 Danh sách bảng ...........................................................................................................1 Danh sách hình vẽ .......................................................................................................2 Bảng các ký hiệu .........................................................................................................3 Mở đầu ........................................................................................................................4 Chương 1. Giới thiệu chung .....................................................................................6 1.1. Tầm quan trọng của ý định người dùng trên mạng xã hội ............................8 1.2. Định nghĩa ý định người dùng .......................................................................9 1.3. Phát biểu bài toán phát hiện ý định người dùng ..............................................12 1.4. Khó khăn và thách thức ...............................................................................12 1.5. Các hướng tiếp cận giải quyết bài toán .......................................................14 1.5.1. Khai phá ý định người dùng trên trang mạng xã hội Twitter ...............14 1.5.2. Xác định ý định các bài viết trên các diễn đàn thảo luận .....................................15 1.5.3. Xây dựng mô hình ý định người dùng trên mạng xã hội sử dụng khai phá dữ liệu ..........................................................................................................16 1.5.4. Lọc ý định rõ ràng người dùng trong các bài viết Tiếng Việt trên phương tiện xã hội .................................................................................................. ...............................................................................................................18 1.6. Tóm tắt chương 1.........................................................................................19 Chương 2. Phương pháp suy luận các mô hình và áp dụng nó cho các bài toán phân lớp 20 2.1. Phương pháp suy luận các mô hình .............................................................20 2.2. Đánh giá hiệu quả của phương pháp lai ghép các mô hình .........................22 2.3. Bagging - Kỹ thuật nâng cao độ chính xác của phương pháp lai ghép các mô hình trong bài toán phân lớp ............................................................................23 2.4. Phương pháp suy luận các mô hình trong việc giải quyết bài toán phân lớp và ý tưởng áp dụng .................................................................................................... 25 2.5. Tóm tắt chương 2.........................................................................................26 Chương 3. Mô hình và thực nghiệm .......................................................................28 3.1. Tư tưởng đề xuất mô hình ...........................................................................28 3.2. Mô hình đề xuất ...........................................................................................31 3.2.1. Thu thập dữ liệu ....................................................................................32 3.2.2. Tiền xử lý dữ liệu ..................................................................................34 3.2.3. Phân tích và phát hiện ý định ................................................................35 3.3. Các độ đo đánh giá ......................................................................................36 3.4. Kết quả thực nghiệm và đánh giá ................................................................37 3.4.1. Môi trường thực nghiệm .......................................................................37 3.4.2. Dữ liệu huấn luyện bài viết ...................................................................39 3.4.3. Dữ liệu phân loại ý định trong bình luận ..............................................40 3.5. Thực nghiệm đánh giá mô hình phân lớp ....................................................40 Tài liệu tham khảo .....................................................................................................44 1 Danh sách bảng Bảng 1. Thống kê về số người sử dụng các kênh mạng xã hội...................................6 Bảng 2. Một vài ví dụ về các bài đăng chứa/không chứa ý định ..............................10 Bảng 3. Những phân bố có thể của mô hình huấn luyện. P(chọn) = 0.5, P(lưu) = 0.2, P(đóng) = 0.3. ............................................................................................................17 Bảng 4. Môi trường thực nghiệm ..............................................................................37 Bảng 5. Bảng tên các phần mềm được sử dụng. .......................................................38 Bảng 6. Bảng danh sách các module trong thực nghiệm. .........................................38 Bảng 7. Bảng thống kê số lượng dữ liệu bài viết phân lớp. ......................................39 Bảng 8. Bảng thống kê số lượng dữ liệu ý định trong bình luận. .............................40 Bảng 9. Bảng kết quả phân lớp bài viết bán hàng. ....................................................41 Bảng 10. Bảng kết quả phân lớp các ý định. .............................................................42
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.