Luận văn thạc sĩ: Ứng dụng phân tích video tự động phát hiện tình trạng té ngã.pdf (Phân tích video tự động)

1 2 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG Công trình ñược hoàn thành tại ĐẠI HỌC ĐÀ NẴNG NGÔ THỊ Ý ỨNG DỤNG PHÂN TÍCH VIDEO TỰ ĐỘNG PHÁT HIỆN TÌNH TRẠNG TÉ NGÃ Chuyên ngành: Kỹ thuật ñiện tử Người hướng dẫn khoa học: TS. PHẠM VĂN TUẤN Phản biện 1: TS. NGUYỄN LÊ HÙNG Phản biện 2: TS. NGÔ VĂN SỸ Mã số: 60.52.70 Luận văn ñược bảo vệ trước Hội ñồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp tại Đại học Đà Nẵngvàongày 11 tháng 11 năm 2012 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Có thể tìm hiểu luận văn tại: Đà Nẵng - Năm 2012 - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng - Trung tâm Học liệu, Đại học Đà Nẵng. 3 4 MỞ ĐẦU hay ñơn giản là ñột ngột ngồi xuống sàn nhà. Trong ñề tài này sẽ ñề 1. Tính cấp thiết của ñề tài Tình trạng gia tăng dân số người cao tuổi ngày càng nhanh. Ở Việt Nam, ước tính số người trên 65 tuổi là 6,5% (khoảng 5,5 triệu) và xuất hệ thống phát hiện té ngã với tỉ lệ phát hiện cao. 2. Mục tiêu nghiên cứu Xây dựng hệ thống phân tích thông minh tín hiệu video ñể tự ñộng khoảng 1,5 -1,9 triệu người già bị té ngã mỗi năm. Hậu quả nghiêm phát hiện tình trạng té ngã của bệnh nhân và người cao tuổi. trọng của việc té ngã là gãy xương (trong ñó khoảng 5% phải nhập 3. Đối tượng và phạm vi nghiên cứu viện) [2]. Theo tổ chức y tế thế giới, ñể ñáp ứng yêu cầu chung, Việt Nam cần phải bổ sung thêm gần 80 nghìn nhân lực y tế [1]. Giám sát các dữ liệu sinh lý trên người trong các trường hợp bình Đối tượng nghiên cứu + Hệ thống phân tích thông minh tín hiệu video. Phạm vi nghiên cứu thường và bất thường, mục ñích ñể phát hiện các sự kiện khẩn cấp Đề tài thực hiện trên nền tảng kế thừa các kiến thức sau: hoặc lưu trữ thông tin. Đối với người cao tuổi hoặc bệnh nhân mắc - Phân tích video. bệnh mãn tính sống một mình, việc theo dõi các hành vi của họ là nhu - Học máy (machine learning). cầu rất cần thiết. Mục ñích ñặc biệt của việc giám sát là phát hiện sự - Cơ sở dữ liệu. cố té ngã. Tai nạn té ngã không những có nguy cơ ảnh hưởng lớn ñến - Thiết kế và phân tích thí nghiệm. sức khỏe mà còn gây ra những chấn thương tâm lý làm giảm sự tự tin 4. Phương pháp nghiên cứu của người già và bệnh nhân [2]. Do ñó phát hiện té ngã là rất cần thiết - Xây dựng và thu thập cơ sở dữ liệu. ñể hỗ trợ bệnh nhân tránh những ñáng tiếc xảy ra. - Xem xét ñề tài liên quan, so sánh và ñánh giá các ưu khiểm ñiểm Những năm gần ñây, công nghệ cảm biến và mạng lưới camera của các phương pháp ñã ñược nghiên cứu về phân tích video. phát triển nhanh chóng góp phần vào sự phát triển chăm sóc y tế [9], - Sử dụng các công cụ toán học phù hợp [14]. Trong ñó hệ thống phát hiện té ngã phát triển nhanh và ngày càng - Thiết kế và thực hiện các thí nghiệm dựa trên hệ thống ñưa ra ñể ñạt ñược kết quả tốt. Có nhiều phương pháp giải quyết về hệ thống phát hiện té ngã. Trong [15], [26], các cảm biến ñược sử dụng ñể thu thập thông tin của ñối tượng, còn trong [19], [22], phân tích thông tin tín hiệu video từ các camera ñược sử dụng ñể nhận dạng các hành thu thập dữ liệu kết quả. - Kiểm tra ñộ chính xác và tính hiệu quả của các hệ thống ñưa ra. 5. Ý nghĩa khoa học và thực tiến Ý nghĩa khoa hoc ñộng. Công nghệ camera giám sát phát triển, dễ lắp ñặt và ít gây xáo Ngày nay, việc cài ñặt, vận hành và bảo dưỡng hệ thống camera trộn với người ñược giám sát. Vì vậy các hệ thống phát hiện té ngã rất rất dễ thực hiện, ñiều này ñã giúp cho kỹ thuật phân tích thông minh hay sử dụng phương thức này. Hầu hết những hệ thống hiện nay chưa tín hiệu video phát triển rất nhanh chóng. Đề tài này tập trung vào phân biệt ñược giữa sự cố té ngã với hành ñộng một người nằm xuống phân tích thông minh tín hiệu video ứng dụng trong hệ thống tự ñộng 5 6 phát hiện tình trạng té ngã của con người, ñây là một lĩnh vực còn khá 1.2.1. Hệ thống dựa vào các thiết bị cảm biến gắn trên cơ thể người mới mẻ ở Việt Nam. 1.2.2. Hệ thống dựa vào thiết bị cảm biến không gắn trên cơ thể người Ý nghĩa thực tiễn 1.3. HỆ THỐNG DỰA VÀO PHÂN TÍCH VIDEO Mức sống ngày càng cao ñòi hỏi chất lượng cuộc sống ngày tăng. 1.3.1. Hệ thống giám sát qua tín hiệu video Bên cạnh ñó tình trạng thiếu nhân viên y tế trầm trọng và dân số ngày Phân tích video là một kỹ thuật có thể tự ñộng xác ñịnh hành vi càng ñông, dẫn ñến nhu cầu dịch vụ y tế ngày càng lớn. Do ñó, phát hoặc thái ñộ của một ñối tượng cụ thể thông qua việc sử dụng phần triển công nghệ mới áp dụng trong ngành y tế ñể giải phóng một phần mềm ñể phân tích nội dung các ñoạn video ghi hình ñối tượng [31]. sức người là vô cùng cấp thiết. Nghiên cứu, thiết kế hệ thống tự ñộng phát hiện hành ñộng té ngã bằng video có ý nghĩa quan trọng trong giai ñoạn hiện nay. Các kết quả trong ñề tài này sát với thực tế và có Hệ thống sử lý Hiểu thông minh và hành vi mạng internet tính thực tiễn cao góp phần hoàn thiện việc xây dựng hệ thống chăm sóc sức khỏe bênh nhân và người cao tuổi tại nhà. 6. Cấu trúc luận văn Luận văn gồm 4 chương: Chương 1: Tổng quan về hệ thống tự ñộng hỗ trợ chăm sóc y tế Hình 1.4. Hệ thống camera giám sát thông minh Chương 2: Hệ thống phân tích video phát hiện ngã 1.3.2. Phân tích và hiểu hành vi con người thông qua tín hiệu video Chương 3: Huấn luyện mạng nơ-ron ñể phát hiện té ngã. 1.3.3. Chăm sóc y tế dựa vào hệ thống giám sát video thông minh Chương 4: Thực nghiệm và phân tích kết quả Hệ thống giám sát thông minh video ứng dụng rộng rãi: Kết luận và hướng phát triển ñề tài + Giúp ñỡ trị liệu và chẩn ñoán sơ bộ cho bệnh nhân. + Tự ñộng phân tích và phát hiện những dị vật hay khối u trong cơ CHƯƠNG 1: TỔNG QUAN VỀ HỆ THỐNG TỰ ĐỘNG HỖ TRỢ CHĂM SÓC Y TẾ Trong chương này, chúng ta sẽ tìm hiểu các hệ thống tự ñộng hỗ trợ chăm sóc y tế và tập trung tìm hiểu hệ thống dựa trên phân tích thể bệnh nhân. + Giám sát sức khỏe bệnh nhân từ xa. 1.3.4. Ứng dụng hệ thống giám sát video thông minh vào việc phát hiện té ngã. thông minh tín hiệu video. 1.1. GIỚI THIỆU HỆ THỐNG TỰ ĐỘNG HỖ TRỢ CHĂM SÓC Y TẾ 1.2. HỆ THỐNG DỰA VÀO CÁC THIẾT BỊ CẢM BIẾN CHƯƠNG 2 : HỆ THỐNG PHÂN TÍCH VIDEO PHÁT HIỆN NGÃ Chương này, ñi sâu vào nghiên cứu và phân tích các khối trong hệ thống phân tích video phát hiện ngã của con người. 7 8 2.1. SƠ ĐỒ KHỐI a. Phương pháp trừ nền Các khung Tách ñối tượng video Tiền xử lý Trích thuộc tính Nhận dạng Hậu xử lý It (x, y) - Bt (x, y) > τ Ý nghĩa, hành ñộng Hình 2.1. Sơ ñồ khối chức năng hệ thống phân tích video phát hiện ngã 2.2. TÁCH ĐỐI TƯỢNG Tách ñối tượng là phát hiện, phân biệt giữa ñối tượng chuyển ñộng với phần còn lại của khung hình (hay còn gọi là hình nên). (2.2) Sự khác biệt giữa các ñiểm ảnh so với ngưỡng thì ñược xem là ñối tượng. trong ñó : + τ : Giá trị ngưỡng ñược ñịnh nghĩa trước. + It : Khung hình hiện tại. + Bt : Ảnh nền ñược cập nhật Trong ñề tài chúng ta sử dụng giá trị trung bình của ba khung hình liên tiếp ở khung hình hiện tại ñể cập nhật. 1 i Bi+1 = (1 − α).Bi + α. ∑ I 3 j=i−2 j (2.4) α lớn thì hình nền thay ñổi nhanh nhưng có thể tạo thành ñuôi phía sau (a) (b) (c) (d) Hình 2.2 – Ví dụ mô tả các bước thực hiện của khối tách ñối tượng ñối tượng chuyển ñộng. α ñược chọn là 0.05 như trong [17]. b. Phương pháp sai khác thời gian 2.3. TIỀN XỬ LÝ (a) Khung hình nền ñược ước lượng Một trong những phương pháp ñược sử dụng ñể lọc ñối tượng sau (b) Khung hình ngẫu nhiên ở một thời ñiểm nào ñó (c) Kết quả sau khi tách ñối tượng, gồm cả bóng (shadow) khi trích ra khỏi hình nền là sử dụng hình thái toán học [23]. (d) Kết quả cuối cùng sau xử lý 2.3.1. Hình thái toán học 2.3.2. Phép dãn 2.2.1. Ước lượng nền Phương pháp trung bình: Giá trị ñiểm ảnh tại vị trí (x,y) của 2.3.3. Phép co mô hình nền bằng trung bình cộng các giá trị ñiểm ảnh tại vị trí (x,y) 2.3.4. Phép mở của N khung hình [24]. 2.3.5. Phép ñóng B ( x, y ) = ∑ n i +1 Fi ( x, y ) N với: B(x, y) : Giá trị ñiểm ảnh tại vị trí (x, y) của mô hình nền. 2.4. MÔ HÌNH CƠ THỂ NGƯỜI VÀ TRÍCH THUỘC TÍNH (2.1) F(x, y) : Giá trị ñiểm ảnh tại vị trí (x, y) của khung hình thứ i. N : Tổng số khung hình ñược xét. 2.2.2. Tách ñối tượng 2.4.1. Mô hình cơ thể người 2D a. Mô hình elip Sử dụng mô hình 2D elip bao quanh ñối tượng [22]. Để xây dựng elip cần phải xác ñịnh: Tọa ñộ trọng tâm elip O; Góc lệch elip so với phương ngang θ và ñộ dài hai bán trục của elip: a, b. 9 10 O; Hiệu của góc tạo bởi ñường thẳng xuất phát từ trọng tâm (O) ñến 0 a θ=90 b a θ=78,590 nó so với phương ngang và góc θ không vượt quá ∆θ. + Tọa ñộ O2 có: hoành ñộ (tung ñộ) bằng trung bình cộng của b hoành ñộ (tung ñộ) các ñiểm trắng thỏa mãn: Tung ñộ có giá trị lớn hơn tung ñộ O; Hiệu của góc tạo bởi ñường thẳng xuất phát từ trọng Hình 2.13. Mô hình elip bao quay cơ thể người tâm (O) ñến nó so với phương ngang và góc (θ +π/2) không vượt ∆θ. Độ lớn của bán trục dài (a) và ngắn (b) ñược xác ñịnh như sau: a = 2d 1 (2.13)  b = 2 d 2 b. Xác ñịnh tâm elip. + Hoành ñộ (tung ñộ) là trung bình cộng các hoành ñộ (tung ñộ) của ñiểm ảnh trắng. ∑ i ∑ j [ j.P(i, j )] ∑ i ∑ j [i.P(i, j )] x= ,y= Height.Width Height.Width 2.4.2. Trích thuộc tính (2.10) a. Tập thuộc tính dùng ñể phát hiện té ngã với: + i = 1..Height; j = 1..Width. (Height: chiều cao; Width: chiều b. Góc tức thời của ñối tượng Góc tức thời của ñối tượng chính là góc quay của elip θ . ng· ngang ng· chÐo ng· trùc diÖn ®i bé gËp ng−êi bß n»m rộng của khung hình) + P(i, j) là giá trị nhị phân tại ñiểm ảnh (i, j); P(i, j) = 0 nếu ñiểm ảnh (i, j) màu ñen và P(i, j) = 1 nếu ñiểm ảnh (i, j) màu trắng. 160 c. Góc quay elip (θ) 140 120 (2.11) 100 80 60 Ta có thể dời trục về tâm elip, ñồng thời áp dụng Công thức (2.11) 40 20 và trung bình cộng ñiểm ảnh ñể tính θ:   2 ∑i ∑ j x. y.P(i, j) 1  θ = . arctan 2 2  ∑ ∑ x .P(i, j) − ∑ ∑ y .P(i, j )  2 i j i j   Theta 2 tan θ tan 2θ = 1 − tan 2 θ ngåi 180 0 0 (2.12) với : + (i, j) : Vị trí ñiểm ảnh (i=1..Width, j=1..Height) + x = i - Ox và y = j- Oy (Ox, Oy : tọa ñộ trọng tâm của elip). d. Xác ñịnh ñộ dài hai bán trục: d1, d2 lần lượt là khoảng cách từ (O) ñến trung ñiểm nửa trên trục dài (O1) và trục ngắn (O2). + Tọa ñộ O1 có: hoành ñộ (tung ñộ) bằng trung bình cộng của hoành ñộ (tung ñộ) các ñiểm trắng thỏa mãn: Tung ñộ lớn hơn tung ñộ 5 10 15 20 25 Frame 30 35 40 45 50 Hình 2.15. Đồ thị biểu diễn góc tức thời của ñối tượng c. Tốc ñộ chuyển ñộng của ñối tượng Với một ảnh xám, mỗi ñiểm ảnh có giá trị trong ñoạn [0, 255], trong ñó 0 là ñen nhất và 255 là trắng nhất. “White pixel” là số ñiểm trắng có giá trị 255, “Gray pixel” là số ñiểm xám có giá trị nằm trong khoảng (0, 255). Tốc ñộ chuyển ñộng của ñối tượng (CMotion): Gray pixel CMotion = (2.14) Gray pixel + White pixel 11 12 e. Độ lệch tâm tức thời của elip Độ lệch tâm tức thời của elip chính là tâm sai của elip tại khung b2 a2 hình ñang xét. Tâm sai elip sẽ là: e = 1 − ng· ngang ng· chÐo ng· trùc diÖn ®i bé (2.17) gËp ng−êi bß n»m ngåi 1 (a) (b) Hình 2.16 – MHI của chuyển ñộng (a) MHI của chuyển ñộng chậm (b) MHI của chuyển ñộng nhanh ng· chÐo ng· trùc diÖn ®i bé gËp ng−êi bß n»m 0.8 ngåi 0.7 0.7 0.6 0.5 0.4 0.6 0.3 0.2 0.5 Cmotion Eccentricity ng· ngang 0.9 0.1 0 0.4 0.3 5 10 15 20 25 Frame 30 35 40 45 50 Hình 2.20. Đồ thị biểu diễn ñộ lệch tâm elip f. Tốc ñộ thay ñổi trọng tâm theo phương thẳng ñứng 0.2 0.1 Tốc ñộ thay ñổi trọng tâm ñối tượng theo phương thẳng ñứng là ñộ 0 0 5 10 15 20 25 Frame 30 35 40 45 50 lệch chuẩn của n trọng tâm ñối tượng theo phương thẳng ñứng. ng· ngang Hình 2.17. Đồ thị biểu diễn tốc ñộ chuyển ñộng ng· chÐo ng· trùc diÖn ®i bé gËp ng−êi bß n»m ngåi 15 Tốc ñộ thay ñổi góc ñứng ñối tượng (CTheta) chính là ñộ lệch chuẩn của n góc tức thời trong n khung hình θ liên tiếp. ng· ngang ng· chÐo ng· trùc diÖn ®i bé gËp ng−êi bß n»m ngåi Ccentroid d. Tốc ñộ thay ñổi góc ñứng của ñối tượng 10 5 40 35 0 0 CTheta 30 25 5 10 15 20 25 Frame 30 35 40 45 50 Hình 2.21. Đồ thị biểu diễn tốc ñộ thay ñổi trọng tâm theo phương ñứng 20 g. Phân tích khả năng kết hợp các thuộc tính 15 10 2.4.3. Tập thuộc tính huấn luyện: Có hai tập thuộc tính ñược xem xét: 5 0 0 5 10 15 20 25 Frame 30 35 40 45 50 Hình 2.18. Đồ thị biểu diễn tốc ñộ thay ñổi góc ñứng ñối tượng + Tập thuộc tính thứ nhất (FS1): Tập chứa 5 thuộc tính ñược trích ra từ từng khung hình một của ñoạn video. 13 + Tập thuộc tính thứ hai (FS2): Tập này bao gồm 100 thuộc tính (5 thuộc tính của mỗi khung hình) ñược trích ra từ mỗi 20 khung hình 14 Hình 3.3 mô tả một mạng nơ-ron 2 lớp feedforward với cầu hình 5-3-2 tức là 5 nút nguồn lớp vào, 3 nơ-ron lớp ẩn, và 2 nơ-ron ñầu ra. liên tiếp tính từ khung hình hiện tại trở về trước. ♦ Các hàm kích hoạt : xác ñịnh ñầu ra của nơ-ron. 2.5. KHỐI NHẬN DẠNG ♦ Số ñầu vào: Số nơ-ron ñầu vào là 5 (FS1) hoặc 100 (FS2). 2.6. KHỐI HẬU XỬ LÝ ♦ Số ñầu ra (lớp 2): Gồm 2 ñầu ra, 1 ñầu ngã và 1 ñầu không Sau khi dùng mạng nơ-ron ñã ñược huấn luyện trọng số tính toán ñể phân loại hành ñộng của ñối tượng tại mỗi khung hình, sẽ có một chuỗi giá trị ra của chuỗi khung hình, chúng ta phải xử lý chuỗi dữ liệu này ñể ñưa ra kết quả cuối cùng là hành ñộng té ngã hay không. ngã. Đầu ra mục tiêu thứ nhất ñược gán nhãn là 1 cho ngã và 0 cho không ngã, ñầu ra mục tiêu thứ hai ngược lại. ♦ Số lượng nơ-ron lớp ñược thay ñổi trong phạm vi rộng ñể chon lựa giá trị tốt nhất cho một cấu hình cụ thể. 3.1.3. Thuật toán huấn luyện CHƯƠNG 3 : HUẤN LUYỆN MẠNG NƠ-RON ĐỂ PHÁT HIỆN TÉ NGÃ Trong chương này chúng ta sẽ tập trung thảo luận về mạng nơ-ron, Huấn luyện NN là ñiều chỉnh, xác lập các giá trị trọng số liên kết còn ñược gọi là bộ trọng số kết nối của mạng (ký hiệu là W) - giữa các nơ-ron trong mạng và của các bias. tìm hiểu mô hình mạng, thuật toán huấn luyện và tối ưu mạng. a. Thuật toán Resilien Backpropagation 3.1. CẤU HÌNH MẠNG NƠ-RON b. Thuật toán Scale Conjugate Gradient 3.1.1. Cấu trúc của một nơ-ron nhân tạo 3.2. CƠ SỞ DỮ LIỆU 3.1.2. Kiến trúc mạng nơ-ron 3.2.1. Giới thiệu: Đề tài này ñược sử dụng tập dữ liệu DTU-HBU [28]. 3.2.2. Mô tả dữ liệu Tập dữ liệu này bao gồm 217 video và xây dựng các hành ñộng ngã theo 3 hướng ñược mô tả trong Hình 3.6: Ngang, trực diện, chéo. Lớp vào gồm các Lớp ẩn gồm Lớp ñầu ra gồm nút nguồn các nơ-ron ẩn các nơ-ron ñầu ra Hình3.3 Mạng tiến ña mức Trực diện Chéo Ngang Hình 3.6. Các tư thế té ngã so với góc quay camera Trong mỗi tư thế ngã còn có nhiều loại ngã khác nhau như: Ngã do vấp, ngất, trượt chân, ngã lăn. Các ñoạn video không ngã có các hành 15 16 ñộng như: nằm, ngồi, bò hay gập người. Các hành ñộng này cũng phân Hai thuật toán xem xét là SCG và RP. Chia dữ liệu thành 80% loại theo 3 hướng trên. huấn luyện và 20% xác nhận. Bảng 3.2 cho thấy với cả hai tập FS1 và FS2 ñều ñạt f-score lớn nhất và MSE nhỏ nhất khi dùng SCG. Bảng 3.1. Phân loại cơ sở dữ liệu Huấn luyện DỮ LIỆU Fc Ngã Fd Fs Ncb Ndb Nsb Ncc Ndc Nsc Không ngã Ncl Ndl Nsl Ncs Nds Nss No TỔNG Kiểm tra hệ thống 3.3.2. Kích thước của tập xác nhận Scenario1 Scenario2 Test1 Test2 Test3 ALL 4 4 7 1 3 1 1 2 1 1 3 1 0 3 1 0 33 18 19 17 4 5 3 3 4 4 3 5 4 2 6 4 12 113 4 4 4 1 1 1 1 1 1 1 1 1 0 1 1 0 23 4 6 5 1 1 2 2 1 1 1 1 1 1 1 1 0 29 10 9 7 1 1 2 1 1 1 2 0 2 2 1 1 11 52 Bảng 3.3. Hiệu suất thu ñược từ ñào tạo với tập xác nhận khác nhau 18 19 16 3 3 5 4 3 3 4 2 4 3 3 3 11 104 FS VS (%) nhu f-score (%) MSE FS1 FS2 FS1 FS2 FS1 FS2 FS1 FS2 FS1 FS2 FS1 FS2 5 5 10 10 15 15 20 20 25 25 30 30 10 10 10 10 10 10 10 10 10 10 10 10 94,8 96,0 95,0 96,1 95,0 96,8 95,1 96,5 95,2 97,2 95,4 96,8 0,063837 0,041704 0,062168 0,041763 0,053273 0,035492 0,052288 0,040831 0,050576 0,030628 0,051006 0,040143 Sử dụng SCG, cố ñịnh nhu=10 và chia dữ liệu vào tập ñào tào và tập con xác nhận (Validation set-VS) với VS∈{5, 10, 15, 20, 25, 30}. 3.3. TIẾN HÀNH LỰA CHỌN THÔNG SỐ MẠNG Từ Bảng 3.3 ta thấy, MSE nhỏ hơn nếu tập VS lớn hơn.Tập xác nhận Tìm cấu hình tốt nhất cho tập thuộc tính FS1 và FS2. 20% cho cấu hình tốt nhất trong trường hợp này. 3.3.1. Lựa chọn thuật toán huấn luyện 3.3.3. Lựa chọn số nơ-ron lớp ẩn 96 Bảng 3.2. Hiệu suất thu ñược từ ñào tạo các thuật toán khác nhau 0.06 MSE FS1 FS2 FS1 FS2 FS1 FS2 FS1 FS2 FS1 FS2 FS1 FS2 SCG SCG RP RP SCG SCG RP RP SCG SCG RP RP 10 10 10 10 20 20 20 20 30 30 30 30 95,1 96,0 95,0 96,1 95,4 96,8 95,0 96,5 95,4 97,2 95,2 96,8 0,052288 0,041704 0,053019 0,041763 0,058781 0,035492 0,059890 0,040831 0,059860 0,030628 0,059762 0,040143 0.055 95.6 mse f-score (%) 95.4 95.2 95 10 98 0.05 20 30 40 sè líp Èn-nhu 50 0.04 10 60 0.045 97.5 0.04 97 0.035 96.5 0.03 96 0.025 95.5 10 a) FS1 0.045 MSE nhu f-score Thuật toán f-score 95.8 FS 20 30 40 50 60 0.02 10 20 30 40 50 60 sè khèi Èn b) FS2 20 30 40 Sè nót Èn - nhu 50 60 Hình 3.8. Hiệu suất nhận ñược từ ñào tạo với nhu khác nhau 17 18 Lặp lại quá trình xử lý với các tham số trên cố ñịnh VS= 20%, thuật toán SCG, chỉ cho số nơ-ron lớp ẩn (Number Of Hidden Units nhu) thay ñổi ∈ {10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60} ñể có cầu hình tối ưu. ♦ Tập Test1 (WM): Bao gồm các ñoạn video sạch giống Scenario1. Tập Test1 này chứa 23 ñoạn video. ♦ Tập Test2 (MM): So với Scenario1, tập Test2 chứa các ñoạn video có ánh sáng và góc quay camera khác nhau. (29 ñoạn video). Từ kết quả trong Hình 3.8 ta thấy với FS1 thì nhu= 40 còn với FS2 thì nhu = 50 lúc ñó f-score lớn nhất và MSE nhỏ nhất. ♦ Tập Test3 (HM) : So với tập Scenario1, tập Test3 có nhiều ñiểm khác: có ñối tượng bị che khuất, có nền không cố ñịnh hay có nhiều hơn một ñối tượng di chuyển cùng một lúc. (52 ñoạn video) CHƯƠNG 4: THỰC NGHIỆM VÀ PHÂN TÍCH KẾT QUẢ 4.1. PHƯƠNG PHÁP ĐÁNH GIÁ Test1, Test2 và Test3 ñược kết hợp trở thành một tập có tên là ALL. Trong ñề tài sử dụng: Tỉ lệ phát hiện (RC) [%], Độ tin cậy (PR) [%], Độ chính xác (Acc) [%], Tỉ lệ ñúng tích cực (TPR) [%] và Tỉ lệ ñúng tiêu cực (TNR) [%]. Chúng ñược tính toán từ ñồ thị ROC: TP TP TP + TN , PR = , Acc = TP + FN TP + FP TP + TN + FP + FN TP TN TPR = , TNR = TP + FP FP + TN ♦ Ngoài ra ñể tập hợp các ñiều kiện kiểm tra, ba tập kiểm tra 4.2.2. Kịch bản 2: Huấn luyện với tập dữ liệu nhiễu. Dữ liệu nhiễu là kết hợp giữa dữ liệu sạch và dữ liệu nhiễu. Chúng bao gồm các ñoạn video có các hành ñộng và ñiều kiện giống với các ñoạn video trong tập Test1, Test2 và Test3. RC = Trong kịch bản 2 này, tập huấn luyện ñược ñặt tên là Scenario2. (4.1) với:+ True positives-TP: tổng hành ñộng ngã ñược phân loại ñúng. + False positives-FP: tổng hành ñộng không ngã bị phân loại sai. + True negatives-TN: tổng hành ñộng không ngã phân loại ñúng. Tập này bao gồm các ñoạn video sạch giống Scenario1, Test2 và Test3. Các tập kiểm tra Test1, Test2, Test3 và ALL ở trong kịch bản 1 sẽ cũng ñược sử dụng trong kịch bản 2 này. Bảng 4.1 – Phân loại dữ liệu huấn luyện và kiểm tra Huấn luyện + False negatives-FN: tổng hành ñộng té ngã phân loại sai. 4.2. KỊCH BẢN HUẤN LUYỆN VÀ KIỂM TRA: Hai kịch bản ñược trình bày 4.2.1. Kịch bản 1: Huấn luyện với tập dữ liệu sạch. Tập dữ liệu sạch có các ñoạn video có nền ít thay ñổi, ánh sáng tốt và chỉ 1 ñối tượng di chuyển, ñối tượng cũng không bị che khuất. ♦ Tập huấn luyện ñược gọi là Scenario1, nó bao gồm 33 ñoạn video thuộc dữ liệu sạch. Tập kiểm tra ñược sắp xếp vào ba ñiều kiện kiểm tra với tên là: tập Test1, Test2, Test3. DỮ LIỆU Fc Fd Fs Ncb Ndb Nsb Ncc Ndc Nsc Không ngã Ncl Ndl Nsl Ncs Nds Nss No TỔNG Ngã Kiểm tra hệ thống Scenario1 Scenario2 Test1 Test2 Test3 ALL 4 4 7 1 3 1 1 2 1 1 3 1 0 3 1 0 33 18 19 17 4 5 3 3 4 4 3 5 4 2 6 4 12 113 4 4 4 1 1 1 1 1 1 1 1 1 0 1 1 0 23 4 6 5 1 1 2 2 1 1 1 1 1 1 1 1 0 29 10 9 7 1 1 2 1 1 1 2 0 2 2 1 1 11 52 18 19 16 3 3 5 4 3 3 4 2 4 3 3 3 11 104 20 Bảng 4.2 – Kết quả nhận dạng cho mô hình phát hiện té ngã thứ nhất Không ngã Tổng Test1 Test2 Test3 ALL Test1 Test2 Test3 ALL Test1 Test2 Test3 ALL 4 4 4 0 0 0 0 0 0 0 0 0 0 0 0 0 3 3 5 0 0 0 0 1 0 0 1 0 0 0 0 0 8 6 6 0 0 0 1 0 0 1 0 1 0 0 0 3 15 13 15 0 0 0 1 1 0 1 1 1 0 0 0 3 0 0 0 1 1 1 1 1 1 1 1 1 0 1 1 0 No Nss Nds Ncs Bảng 4.3 – Kết quả nhận dạng cho mô hình phát hiện té ngã thứ hai a. Kết quả cho mô hình phát hiện té ngã thứ nhất Fc Fd Fs Ncb Ndb Nsb Ncc Ndc Nsc Không Ncl ngã Ndl Nsl Ncs Nds Nss No Tổng Nsl b. Kết quả cho mô hình phát hiện té ngã thứ hai 4.4.1. Kết quả và ñánh giá kết quả. Ngã Nsc Hình 4.4. Kết quả thống kê TPR và TNR của mô hình thứ nhất cho tập ALL + Mô hình phát hiện té ngã thứ tư (FS2, Scenario2). Scenario1 FS1 TNR (%) Scenario1, FS1 + Mô hình phát hiện té ngã thứ ba (FS2, Scenario1). Ngã Ndc Nsb Ncc + Mô hình phát hiện té ngã thứ hai (FS1, Scenario2). Ndb + Mô hình phát hiện té ngã thứ nhất (FS1, Scenario1). Ncb tính FS1 và FS2. Vì vậy có 4 mô hình phát hiện té ngã khác nhau: Fs Có hai tập huấn luyện là Scenario1 và Scenario2 và hai tập thuộc Fd 4.4. PHÂN TÍCH KẾT QUẢ THỰC NGHIỆM Fc TPR (%) 100 90 80 70 60 50 40 30 20 10 0 Ndl 4.3. SƠ ĐỒ KHỐI QUÁ TRÌNH NHẬN DẠNG Ncl 19 1 3 0 1 1 2 2 0 1 1 0 1 1 1 1 0 2 3 1 1 1 2 0 1 1 1 0 1 2 1 1 8 3 6 1 3 3 5 3 2 3 3 1 3 3 3 3 8 4 4 4 1 1 1 1 1 1 1 1 1 0 1 1 0 23 4 6 5 1 1 2 2 1 1 1 1 1 1 1 1 0 29 10 9 7 1 1 2 1 1 1 2 0 2 2 1 1 11 52 18 19 16 3 3 5 4 3 3 4 2 4 3 3 3 11 104 Dựa vào kết quả ở Bảng 4.2 ñưa ra các kết quả thống kê: TPR [%] và TNR [%] như trong Hình 4.4. TPR tương ñối cao. nhưng xét theo hướng ngã ta thấy tỉ lệ này sẽ giảm dần theo khả năng nhìn thấy ñối tượng. Các hành ñộng gập người hay ngồi xuống ghế sẽ không gây nhầm, còn các hành ñộng ngồi rồi nằm hay bò gây nhầm lẫn với ngã. Scenario2 FS1 Fc Ngã Fd Fs Ncb Ndb Nsb Ncc Ndc Nsc Không Ncl ngã Ndl Nsl Ncs Nds Nss No Tổng Ngã Không ngã Tổng Test1 Test2 Test3 ALL Test1 Test2 Test3 ALL Test1 Test2 Test3 ALL 4 3 4 0 0 0 0 0 0 0 0 0 0 0 0 0 4 4 5 0 0 0 1 0 0 0 0 0 0 0 0 0 9 8 5 0 0 0 0 0 0 0 0 0 0 0 0 2 17 15 14 0 0 0 1 0 0 0 0 0 0 0 0 2 0 1 0 1 1 1 1 1 1 1 1 1 0 1 1 0 0 2 0 1 1 2 1 1 1 1 1 1 1 1 1 0 1 1 2 1 1 2 1 1 1 2 0 2 2 1 1 9 1 4 2 3 3 5 3 3 3 4 2 4 3 3 3 9 4 4 4 1 1 1 1 1 1 1 1 1 0 1 1 0 23 4 6 5 1 1 2 2 1 1 1 1 1 1 1 1 0 29 10 9 7 1 1 2 1 1 1 2 0 2 2 1 1 11 52 18 19 16 3 3 5 4 3 3 4 2 4 3 3 3 11 104 Dựa vào kết quả ở Bảng 4.3 ñưa ra các kết quả thống kê: TPR [%] và TNR [%] như trong Hình 4.5. Tỉ lệ nhận dạng ñược cải thiện ñáng kể, rất nhiều hành ñộng không ngã không còn bị nhầm nữa.

Luận văn thạc sĩ: Ứng dụng phân tích video tự động phát hiện tình trạng té ngã

Nội dung