,
,
,... còn loại không có ý nghĩa: , ,..Sau khi đã chuyển sang tuyến tính
(hoặc có thể tạo cây) để dóng hàng, và số đặc trưng chỉ là 1, tỉ lệ thẻ không được dóng
hàng, tỉ lệ này cũng có thể tối ưu bằng học máy kết hợp với các đặc trưng khác của hệ
thống.
Theo [5] STRAND lấy modul so sánh cấu trúc thẻ html làm trái tim của hệ
thống. STRAND có nhiều phiên bản, ở phiên bản cũ, hệ thống khai phá web qua ba
bước:
Locating - xác định những trang có lẽ có bản dịch song ngữ
Generating - tạo các cặp thí sinh có lẽ là bản dịch
Structure filtering - lọc cấu trúc bỏ ra những cặp không là bản dịch
Trong bước locating, STRAND sử dụng trình tìm kiếm AltaVista để tìm kiếm
hai kiểu trang web đó là: cha và anh em.
Một trang cha là một trang chứa những link đến nhiều phiên bản khác nhau của
một tài liệu; ví dụ:
Hình 1: Ví dụ về trang cha
Nhìn vào ví dụ trên, trang cha chứa link đến các phiên bản khác nhau của cùng một
nội dung. Các phiên bản là tiếng Anh, tiếng Trung, tiếng Việt. Sau đó để tạo cặp trang
web thí sinh thì chỉ cần lấy hai link của hai bản tiếng Việt và Tiếng Anh với nhau.
Trang anh em là trang trong một ngôn ngữ và nó chứa một link đến bản đó
trong ngôn ngữ khác. Ví dụ:
Hình 2: Ví dụ về trang anh em
Nhìn vào ví dụ trên, trang này chứa một link đến một bản khác trong tiếng Anh.
Để ghép tạo cặp thí sinh thì chỉ cần ghép trang này với bản tiếng Anh tương ứng.
6
Trong bước generating, cho những cặp url có khả năng chứa bản dịch qua
modul so sánh url. STRAND cũng tạo các luật để so sánh, chẳng hạn, en -> vn. Ngoài
ra, trong modul này của STRAND có thêm tính năng hỗ trợ thay thế, loại bỏ nhiều
đoạn trong url, ví dụ:
Hình 3: Ví dụ về loại bỏ nhiều đoạn
Bước structure filtering thì sẽ được trình bày ở phần lọc cấu trúc.
Trong STRAND phiên bản mới có thêm modul so sánh content, sẽ trình bày ở
đoạn lọc nội dung.
Theo [4] PCMS nói chung là giống STRAND. Nhưng có một số điểm khác
biệt.
Thứ nhất, trong phần tính độ tương tự cấu trúc url của hai trang web thì hệ
thống tính toán cụ thể còn STRAND và PTMiner chỉ thay thế loại bỏ kiểm tra chúng
có giống nhau hay không. PCMS tiền xử lý những thư mục con trong url mà xác định
ngôn ngữ của trang web. PCMS thay thế chúng bằng chuỗi ký tự duy nhất. Ví dụ url:
.../english/....file.htm sẽ thành ..../***/....file.htm. Tiếp đó, một số tiêu chí được tính
toán như sau:
Tỉ lệ số thư mục con của url của hai trang web. Công thức là:
URL diff (A, B) =
| len( A) len( B) |
len( A) len( B )
Trong công thức trên len(A) là số thư mục con của url A, và len(B) là số thư
mục con của url B. Nếu số thư mục con của A và B như nhau thì tỉ lệ khác nhau sẽ
là 0.
Tỉ lệ thư mục con có tên giống nhau. Công thức là:
7
URL dirsim(A, B) =
2 * comdir ( A, B)
len( A) len( B)
Trong công thức trên, comdir(PA,PB) là số thư mục con có tên giống nhau.
Thứ hai, trong modul so sánh nội dung, PCMS triển khai mô hình không gian
vecto song ngữ. Ý tưởng của mô hình này là mỗi trang web được đại diện bởi một
vecto các mục từ, và tập trang web của một ngôn ngữ là một không gian vecto có số
chiều bằng số từ vựng của ngôn ngữ đó. Vì số mục từ của hai ngôn ngữ bất kỳ là khác
nhau nên PCMS đưa ra cách chuyển đổi số chiều của không gian vecto của ngôn ngữ
này bằng số chiều của không gian vecto của ngôn ngữ kia. Và công thức cosine
coefficient được sử dụng để tính độ tương tự. Công thức như sau:
p
xi yi
i 1
Cosine ecoefficient =
p
i 1
p
x i2 *
y i2
i 1
Với p là số mục từ tiếng Anh.
Theo [5], modul so sánh nội dung của hai trang web là quan trọng nhất của hệ
thống. Và so sánh toàn bộ nội dung được quy về so sánh đoạn, so sánh đoạn dựa trên
mô hình ánh xạ từ -từ Hai đoạn đã được dóng hàng với nhau đã thỏa mãn điều kiện số
từ được dóng hàng lớn hơn một ngưỡng nào đó. Tổng số từ được dóng hàng của cả
trang web bằng tổng của tất cả các đoạn. Đặc trưng rút ra là số từ được dóng hàng trên
tổng số từ của hai trang web.
Theo [6] Một hệ thống được xây dựng, tự động khai phá dữ liệu song ngữ dựa trên
dóng hàng DOM Tree. Ý tưởng này rất hay ở chỗ nó đi vào thực tế của cấu trúc html của
trang web là cấu trúc cây chứ không phải là tuyến tính. Mô hình DOM Tree có nhược
điểm là nắm bắt khó hơn, liên quan đến xác suất có điều kiện. Thời gian chạy của dóng
hàng cây DOM nhiều hơn so với dóng hàng tuyến tính. Ví dụ về DOM Tree:
Hình 4: Sự khác nhau giữa mô hình DOM chuẩn và mô hình DOM sau thu gọn
8
Mô hình dóng hàng cây DOM định nghĩa dóng hàng như tiến trình không thay
đổi thứ tự cây. Ví dụ node A được dóng hàng với node B thì con của A sẽ bị xóa hoặc
được dóng hàng với con của B.
Để thẩm tra một cặp trang web thí sinh có đúng là song song, một bộ phân lớp
dựa trên maximum entropy nhị phân được sử dụng.
Tiêu chi tương đồng cấu trúc hẻ html được tính như sau: tất cả thẻ html của
trang web được nối thành một chuỗi. Sau đó khoảng cách nhỏ nhất giữa hai chuỗi thẻ
liên quan đến cặp thí sinh được tính toán, và độ tương đồng thẻ html là tỉ lệ số thẻ
giống nhau chia cho tổng số thẻ.
Điểm cho dóng hàng câu được định nghĩa là tỉ lệ số câu đã dóng hàng và tổng
số câu trong cả hai file.
1.3. Mục tiêu và tiếp cận giải quyết vấn đề
Với vai trò, tầm quan trọng của dữ liệu song ngữ đối với các ứng dụng xử lý
ngôn ngữ tự nhiên, đồng thời được thúc đẩy bởi việc thiếu cơ sở dữ liệu song ngữ Anh
-Việt cho nhiều nghiên cứu khác, luận văn tập trung vào các công việc:
Tìm hiểu, nghiên cứu, phát triển các công nghệ trong bài toán khai phá dữ liệu
song ngữ, cụ thể cho xây dựng các cặp văn bản song ngữ.
Xây dựng công cụ khai phá các cặp văn bản song ngữ trên World Wide Web
cho cặp ngôn ngữ Anh –Việt.
Phần 1.2 đã trình bày một cách tóm tắt những nghiên cứu trong khai phá dữ liệu
song ngữ. Có thể chia làm hai tiếp cận chính là tiếp cận dựa trên nội dung và tiếp cận
dựa trên cấu trúc của trang web. Đối với tiếp cận dựa trên nội dung, chúng ta phải sử
dụng từ điển song ngữ. Do việc từ điển song ngữ Anh – Việt có quá nhiều nhập nhằng,
hơn nữa do thời gian có hạn nên chúng tôi tập trung vào nghiên cứu theo tiếp cận thứ
hai là dựa vào cấu trúc văn bản (trang web). Phương pháp được chúng tôi sử dụng và
phát triển dựa trên nghiên cứu [3,5], với hai phần:
Xác định các thuộc tính dùng để đo độ tương tự giữa hai trang html
Áp dụng thuật toán học máy để xây dựng mô hình trên tập các thuộc tính trên.
Đối với phần thứ nhất, chúng tôi sẽ sử dụng các thuộc tính sau:
So sánh độ tương đồng tên file của trang web
So sánh độ tương đồng cấu trúc url
9
This site is protected by reCAPTCHA and the Google
Privacy Policy
and
Terms of Service
apply.
|