PHÁT HIỆN ĐỐI TƯỢNG BẰNG PHƯƠNG PHÁP SEGMENT ANYTHING | Dung | TNU Journal of Science and Technology

PHÁT HIỆN ĐỐI TƯỢNG BẰNG PHƯƠNG PHÁP SEGMENT ANYTHING

Thông tin bài báo

Ngày nhận bài: 27/08/25                Ngày hoàn thiện: 26/12/25                Ngày đăng: 31/12/25

Các tác giả

1. Đặng Thị Dung Email to author, Trường Đại học Kỹ thuật – Công nghệ Cần Thơ
2. Nguyễn Trung Kiên, Trường Đại học Kỹ thuật – Công nghệ Cần Thơ
3. Trần Văn Phúc, Trường Đại học Kỹ thuật – Công nghệ Cần Thơ
4. Huỳnh Phúc Thịnh, Trường Đại học Kỹ thuật – Công nghệ Cần Thơ

Tóm tắt


Phát hiện và phân đoạn đối tượng là những nhiệm vụ cốt lõi trong thị giác máy tính với nhiều ứng dụng trong y tế, nông nghiệp, giao thông và giám sát thông minh. Các nghiên cứu gần đây cho thấy YOLO nổi bật với khả năng phát hiện nhanh, chính xác theo thời gian thực, trong khi Segment Anything Model (SAM) lại mạnh về phân đoạn linh hoạt. Tuy nhiên, việc tích hợp hai mô hình này vẫn chưa được nghiên cứu đầy đủ cho bài toán nhận dạng động vật đa lớp. Nghiên cứu này đánh giá hiệu quả của YOLOv8 và YOLOv9 kết hợp với SAM nhằm cải thiện độ chính xác của hộp giới hạn và chất lượng phân đoạn. Bộ dữ liệu gồm hơn 2.000 ảnh động vật thuộc 20 lớp đã được thu thập, gán nhãn và chia thành tập huấn luyện, kiểm định và kiểm thử. Thực nghiệm được tiến hành trên Google Colab với GPU NVIDIA Tesla V100. Kết quả cho thấy YOLOv8n hiệu quả nhất cho hệ thống hạn chế tài nguyên (Accuracy = 81,4%, Precision = 0,9625, Recall = 0,8415, F1 = 0,8979), trong khi YOLOv9s đạt cân bằng tốt nhất (Accuracy = 83,92%, Precision = 0,8003, Recall = 0,7437, F1 = 0,7708). Kết quả chỉ ra YOLOv8 phù hợp với ứng dụng thời gian thực trên thiết bị nhúng, còn YOLOv9s thích hợp cho hệ thống yêu cầu độ chính xác cao. Việc tích hợp YOLO với SAM giúp tăng cường độ tin cậy của mô hình, cung cấp đánh giá thực tiễn về cân bằng giữa tốc độ, độ chính xác và yêu cầu phần cứng.

Từ khóa


YOLOv8; YOLOv9; SAM; Phát hiện đối tượng; Học máy; Học sâu

Toàn văn:

PDF (English)

Tài liệu tham khảo


[1] X. Zhao, W. Ding, Y. An, Y. Du, T. Yu, M. Li, M. Tang, and J. Wang, “Fast Segment Anything,” arXiv preprint arXiv:2306.12156, 2023, doi:10.48550/arXiv.2306.12156.

[2] X. Chen et al., "SAM-OCTA2: Layer sequence OCTA segmentation with fine-tuned segment anything model 2," In ICASSP 2025-2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE, 2025, pp. 1-5, doi: 10.1109/ICASSP49660.2025.10888853.

[3] S. Gül, G. Cetinel, B. M. Aydin, D. Akgün, and R. Ö. Kara, “YOLOSAMIC: A Hybrid Approach to Skin Cancer Segmentation with the Segment Anything Model and YOLOv8,” Diagnostics, vol. 15, no. 4, 2025, doi:10.3390/diagnostics15040479.

[4] S. Baral and M. P. Paing, "Instance segmentation of cells and nuclei from multi-organ cross-protocol microscopic images," Quantitative Imaging in Medicine and Surgery, vol. 14, no. 9, 2024, doi: 10.21037/qims-24-801.

[5] F. M. Talaat and H. ZainEldin, "An improved fire detection approach based on YOLO-v8 for smart cities," Neural Computing and Applications, vol. 35, no. 28, pp. 20939-20954, 2023.

[6] X. Wang et al., "BL-YOLOv8: An improved road defect detection model based on YOLOv8," Sensors, vol. 23, no. 20, 2023, doi: 10.3390/s23208361.

[7] D. Reis, J. Kupec, J. Hong, and A. Daoudi, "Real-time flying object detection with YOLOv8," arXiv preprint arXiv:2305.09972, 2023, doi: 10.48550/arXiv.2305.09972.

[8] R. An, X. Zhang, M. Sun, and G. Wang, "GC-YOLOv9: Innovative smart city traffic monitoring solution," Alexandria Engineering Journal, vol. 106, pp. 277-287, 2024, doi: 10.1016/j.aej.2024.07.004.

[9] H. T. Vo, K. C. Mui, N. N. Thien, and P. P. Tien, "Automating tomato ripeness classification and counting with YOLOv9," Int. J. Adv. Comput. Sci. Appl., vol. 15, no. 4, pp. 1120-1128, 2024.

[10] A. Bustamante, L. M. Belmonte, R. Morales, A. Pereira, and A. Fernández-Caballero, "Bridging the Appearance Domain Gap in Elderly Posture Recognition with YOLOv9," Applied Sciences, vol. 14, no. 21, 2024, doi: 10.3390/app14219695.




DOI: https://doi.org/10.34238/tnu-jst.13495

Các bài báo tham chiếu

  • Hiện tại không có bài báo tham chiếu
Tạp chí Khoa học và Công nghệ - Đại học Thái Nguyên
Phòng 408, 409 - Tòa nhà Điều hành - Đại học Thái Nguyên
Phường Tân Thịnh - Thành phố Thái Nguyên
Điện thoại: 0208 3840 288 - E-mail: jst@tnu.edu.vn
Phát triển trên nền tảng Open Journal Systems
©2018 All Rights Reserved