THUẬT TOÁN PHÂN CỤM K –MEANS*

Cao Ngọc Ánh; Vũ Việt Vũ; Phùng Thị Thu Hiền

THUẬT TOÁN PHÂN CỤM K –MEANS*

Thông tin bài báo

Ngày đăng: 30/08/17

Các tác giả

1. Cao Ngọc Ánh , Trường Đại học Kinh tế - Kỹ thuật Công nghiệp
2. Vũ Việt Vũ, Viện Công nghệ Thông tin – Đại học Quốc gia Hà nội
3. Phùng Thị Thu Hiền, Trường Đại học Kỹ thuật Công nghiệp - Đại học Thái Nguyên

Tóm tắt

Thuật toán phân cụm nửa giám sát thu hút được nhiều nghiên cứu trong thời gian gần đây. Dựa trên một số thông tin cung cấp bởi người sử dụng như một số điểm dữ liệu đã được gán nhãn sẵn hoặc một số ràng buộc giữa các cặp dữ liệu (must-link, cannot-link) được tích hợp vào các thuật toán phân cụm nửa giám sát sẽ làm cho chất lượng của quá trình phân cụm được cải tiến. Bài báo này đề xuất một phương pháp phân cụm nửa giám sát trong trường hợp dữ liệu trợ giúp là không đầy đủ cho thuật toán phân cụm K-Means, thuật toán mới được đặt tên là K-Means*. Thuật toán K-Means* được lai giữa hai phương pháp gồm phương pháp phân cụm nửa giám sát và phương pháp ước lượng các trọng tâm của các cụm cho K-Means. Kết quả thực nghiệm từ UCI chỉ ra hiệu quả của phương pháp đề xuất.

Từ khóa

thuật toán phân cụm K-Means, phân cụm nửa giám sát, dữ liệu gán nhãn, phương pháp min-max, dữ liệu UCI

Toàn văn:

PDF

Các bài báo tham chiếu

Hiện tại không có bài báo tham chiếu



Ghi nhớ