SO SÁNH YOLOV8 VÀ PYTORCH-RETINANET TRONG  PHÁT HIỆN PHƯƠNG TIỆN GIAO THÔNG

Bùi Xuân Tùng; Trịnh Quang Minh; Ngô Thị Lan; Đặng Thị Dung; Huỳnh Duy Đặng

doi:10.34238/tnu-jst.11942

SO SÁNH YOLOV8 VÀ PYTORCH-RETINANET TRONG PHÁT HIỆN PHƯƠNG TIỆN GIAO THÔNG

Thông tin bài báo

Ngày nhận bài: 23/01/25 Ngày hoàn thiện: 11/03/25 Ngày đăng: 21/03/25

Các tác giả

1. Bùi Xuân Tùng , Trường Đại học Tây Đô
2. Trịnh Quang Minh, Trường Đại học Tây Đô
3. Ngô Thị Lan, Trường Đại học Tây Đô
4. Đặng Thị Dung, Trường Đại học Kỹ thuật – Công nghệ Cần Thơ
5. Huỳnh Duy Đặng, Trường Đại học Kỹ thuật – Công nghệ Cần Thơ

Tóm tắt

Nghiên cứu này nhằm mục đích đánh giá và so sánh hiệu quả của hai mô hình học sâu - PyTorch-RetinaNet và YOLOv8 để phát hiện phương tiện, giải quyết các thách thức trong việc phát hiện đối tượng trên nhiều kích thước, hình dạng và điều kiện ánh sáng khác nhau. Phương pháp nghiên cứu sử dụng một tập dữ liệu gồm 4.058 hình ảnh xe với 12 lớp đối tượng riêng biệt, triển khai cả hai mô hình với tốc độ học khác nhau (0,001, 0,01 và 0,0001). Tập dữ liệu được chia thành các tập huấn luyện (65%), xác thực (24%) và thử nghiệm (11%), với các kỹ thuật xử lý trước bao gồm thay đổi kích thước hình ảnh, chuẩn hóa độ sáng và tăng cường dữ liệu được áp dụng để nâng cao hiệu suất của mô hình. Kết quả thử nghiệm cho thấy mô hình PyTorch-RetinaNet đạt được mAP50 là 38,6% và mAP50-95 là 24,7%, đặc biệt trong việc phát hiện các vật thể lớn (mAP50-95 là 42,0%) và duy trì số liệu thu hồi ổn định (AR@1: 30,9%, AR@10: 54,7%, AR@100: 55,9%). Ngược lại, YOLOv8 cho thấy hiệu suất tổng thể vượt trội với mAP50 là 45,6%, mAP50-95 là 33,0%, độ chính xác là 48,3% và khả năng thu hồi là 61,5%, đặc biệt trong việc xử lý các đối tượng chồng chéo với điểm tin cậy là 0,79-0,89. Các phát hiện cho thấy YOLOv8 phù hợp hơn với các ứng dụng thời gian thực, trong khi PyTorch-RetinaNet nổi bật hơn trong các tình huống đòi hỏi phát hiện chính xác trên các kích thước đối tượng khác nhau.

Từ khóa

YOLOv8; PyTorch-RetinaNet; Phát hiện phương tiện giao thông; Học máy; Học sâu

Toàn văn:

PDF (English)

Tài liệu tham khảo

[1] Z. Q. Zhao, P. Zheng, S. T. Xu, and X. Wu, "Object Detection with Deep Learning: A Review," IEEE Transactions on Neural Networks and Learning Systems, vol. 30, no. 11, pp. 3212-3232, 2019.

[2] G. Tan, Z. Guo, and Y. Xiao, "PA-RetinaNet: Path augmented RetinaNet for dense object detection," in International Conference on Artificial Neural Networks, 2019, pp. 138-149.

[3] B. Koonce and B. Koonce, "ResNet 50," in Convolutional Neural Networks with Swift for TensorFlow: Image Recognition and Dataset Categorization, 2021, pp. 63-72.

[4] D. Reis, J. Kupec, J. Hong, and A. Daoudi, "Real-time flying object detection with YOLOv8," arXiv preprint arXiv:2305.09972, pp. 1-12, 2023.

[5] S. Alexandrova, Z. Tatlock, and M. Cakmak, "RoboFlow: A flow-based visual programming language for mobile manipulation tasks," in 2015 IEEE International Conference on Robotics and Automation (ICRA), 2015, pp. 5537-5544.

[6] L. Tan, T. Huangfu, L. Wu, and W. Chen, "Comparison of RetinaNet, SSD, and YOLO v3 for Real-Time Pill Identification," BMC Medical Informatics and Decision Making, vol. 21, pp. 1- 11, 2021.

[7] N. I. Nife and M. Chtourou, "A Comprehensive Study of Deep Learning and Performance Comparison of Deep Neural Network Models (YOLO, RetinaNet)," International Journal of Online & Biomedical Engineering, vol. 19, no. 12, pp. 456-469, 2023.

[8] D. Reis, J. Kupec, J. Hong, and A. Daoudi, "Real-time flying object detection with YOLOv8," IEEE Transactions on Neural Networks and Learning Systems, vol. 30, no. 11, pp. 3212-3232, 2023.

[9] L. Tan, T. Huangfu, L. Wu, and W. Chen, "Comparison of RetinaNet, SSD, and YOLO v3 for Real-Time Pill Identification," IEEE Transactions on Medical Imaging, vol. 21, no. 1, pp. 1- 11, 2021.

[10] H. Guo, Y. Zhang, L. Chen, and A. A. Khan, "Research on vehicle detection based on improved YOLOv8 network," arXiv preprint arXiv:2501.00300, pp. 1-8, 2024.

[11] Y. Li, S. Zhou, and H. Chen, "Attention-based fusion factor in FPN for object detection," Applied Intelligence, vol. 52, no. 13, pp. 15547-15556, 2022.

[12] N. Wulandari, I. Ardiyanto, and H. A. Nugroho, "A Comparison of Deep Learning Approach for Underwater Object Detection," Journal of Engineering Systems and Information Technology, vol. 6, no. 2, pp. 252-258, 2022.

[13] Z. Luo, F. Branchaud-Charron, C. Lemaire, J. Konrad, S. Li, A. Mishra, and P. M. Jodoin, "MIO-TCD: A new benchmark dataset for vehicle classification and localization," IEEE Transactions on Image Processing, vol. 27, no. 10, pp. 5129-5141, 2018.

[14] X. Pan, R. Snyder, J. N. Wang, C. Lander, C. Wickizer, R. Van, and Y. Shao, "Training machine learning potentials for reactive systems: A Colab tutorial on basic models," Journal of Computational Chemistry, vol. 45, no. 10, pp. 638-647, 2024.

DOI: https://doi.org/10.34238/tnu-jst.11942

Các bài báo tham chiếu

Hiện tại không có bài báo tham chiếu



Ghi nhớ