HỆ TOẠ ĐỘ HÌNH SAO THƯA: TRỰC QUAN HÓA DỮ LIỆU SỐ CHIỀU LỚN CỠ MẪU NHỎ | Long | TNU Journal of Science and Technology

HỆ TOẠ ĐỘ HÌNH SAO THƯA: TRỰC QUAN HÓA DỮ LIỆU SỐ CHIỀU LỚN CỠ MẪU NHỎ

Thông tin bài báo

Ngày nhận bài: 17/04/23                Ngày hoàn thiện: 24/05/23                Ngày đăng: 24/05/23

Các tác giả

1. Trần Văn Long Email to author, Trường Đại học Giao thông vận tải, Hà Nội
2. Bùi Việt Hương, Trường Đại học Giao thông vận tải, Hà Nội

Tóm tắt


Phân tích khai phá về các cấu trúc nhóm và xu hướng của dữ liệu nhiều chiều là chủ đề chính của nhiều lĩnh vực nghiên cứu có nhiều ứng dụng, đặc biệt trong phân tích dữ liệu gen. Dữ liệu gen có số chiều lớn và số quan sát nhỏ. Các phương pháp phân tích thống kê truyền thống thông thường không được áp dụng trực tiếp cho dữ liệu có số chiều cao, số mẫu nhỏ. Trong bài báo này, chúng tôi giới thiệu cách tiếp cận phân tích dữ liệu bằng trực quan hoá đối với dữ liệu có số chiều cao và cỡ mẫu nhỏ. Chúng tôi đề xuất phương pháp chiếu thưa dựa vào phương pháp trực quan hoá bằng hệ toạ độ hình sao mà cấu trúc nhóm được bảo toàn nhờ vào việc tối ưu hoá sự phân bố hệ toạ độ hình sao. Phương pháp chiếu thưa nhận được từ việc xếp hạng chất lượng trực quan hoá theo thứ tự các thuộc tính quan trọng để lựa chọn các thuộc tính quan trọng trong phân tích cấu trúc nhóm của dữ liệu. Các kết quả thực nghiệm chứng tỏ sự hiệu quả của phương pháp đề xuất.

Từ khóa


Hệ tọa độ hình sao; Số chiều lớn cỡ mẫu nhỏ; Trực quan hóa dữ liệu; Hệ số Silhouette; Thuộc tính quan trọng

Toàn văn:

PDF

Tài liệu tham khảo


[1] L. Shusen, M. Dan, W. Bei, P. Bremer, and V. Pascucci, "Visualizing high-dimensional data: Advances in the past decade," IEEE Transactions on Visualization and Computer Graphics, vol. 23, no. 3, pp. 1249-1268, 2017.

[2] E. Kandogan, "Star coordinates: A multi-dimensional visualization technique with uniform treatment of dimensions," Proceedings of the IEEE Information Visualization Symposium, Hot Topics, 2000, pp. 4-8.

[3] E. Kandogan, "Visualizing multi-dimensional clusters, trends, and outliers using star coordinates," Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD' 01, 2001, pp. 107-116.

[4] G. Z. Germain, G. N. Luis, and G. Erick, "iStar (i*): An interactive star coordinates approach for high-dimensional data exploration," Computers and Graphics, vol. 60, pp. 107-118, 2016.

[5] W. Yunhai, L. Jingting, N. Feiping, T. Holger, G. Minglun, and J. L. Dirk, "Linear Discriminative Star Coordinates for Exploring Class and Cluster Separation of High Dimensional Data," Computer Graphics Forum, vol. 36, no. 3, pp. 401-410, 2017.

[6] H. Rave, V. Molchanov, and L. Linsen, "Axes Bundling and Brushing in Sta Coordinates," International Symposium on Vision, Modeling, and Visualization, 2021, doi: 10.2312/vmv.20211365.

[7] A. Sanchez, C. Soguero-Ruiz, I. Mora-Jiménez, F. J. Rivas-Flores, D. J. Lehmann, and M. Rubio-Sánchez, "Scaled radial axes for interactive visual feature selection: A case study for analyzing chronic conditions," Expert Systems with Applications, vol. 100, pp. 182-196, 2018.

[8] A. Sanchez, L. Raya, M. A. Mohedano-Munoz, and M. Rubio-Sánchez, "Feature selection based on star coordinates plots associated with eigenvalue problems," The Visual Computer, vol. 37, pp. 203–216, 2021.

[9] P. Hoffman, G. Grinstein, K. Marx, I. Grosse, and E. Stanley, "DNA visual and analytic data mining," Proceedings of the 8th conference on Visualization'97, 1997, pp. 437-441.

[10] M. Rubio-Sánchez, L. Raya, F. Díaz, and A. Sanche, "A comparative study between RadViz and Star Coordinates," IEEE transactions on visualization and computer graphics, vol. 22, no. 1, pp. 619-628, 2016.

[11] G. Leban, B. Zupan, G. Vidmar, and I. Bratko, "VizRank: Data visualization guided by machine learning," Data Mining and Knowledge Discovery, vol. 13, no. 2, pp. 119-136, 2006.

[12] J. Demsar, G. Leban, and B. Zupan, "FreeViz: An intelligent multivariate visualization approach to explorative analysis of biomedical data," Journal of Biomedical Informatics, vol. 40, no. 6, pp. 661-671, 2007.

[13] Y. C. Wang, Q. Zhang, F. Lin, C. K. Goh, and H. S. Seah, "PolarViz: A discriminating visualization and visual analytics tool for high-dimensional data," The Visual Computer, vol. 35, pp. 1567–1582, 2019.

[14] T. V. Long, "ArcViz: An Extended Radial Visualization for Classes Separation of High Dimensional Data," The 10th International Conference on Knowledge and Systems Engineering (KSE 2018), 2018, pp. 158-162.

[15] J. F. McCarthy, K. Marx, P. E. Hoffman, A. G. Gee, P. O'Neil, M. Ujwal, and J. Hotchkiss, "Applications of Machine Learning and High-Dimensional Visualization in Cancer Detection, Diagnosis and Management,” Annals of the New York Academy of Sciences, vol. 1020, no. 1, pp. 239 - 262, 2004.




DOI: https://doi.org/10.34238/tnu-jst.7768

Các bài báo tham chiếu

  • Hiện tại không có bài báo tham chiếu
Tạp chí Khoa học và Công nghệ - Đại học Thái Nguyên
Phòng 408, 409 - Tòa nhà Điều hành - Đại học Thái Nguyên
Phường Tân Thịnh - Thành phố Thái Nguyên
Điện thoại: 0208 3840 288 - E-mail: jst@tnu.edu.vn
Phát triển trên nền tảng Open Journal Systems
©2018 All Rights Reserved