MỘT MÔ HÌNH TRUY VẤN ẢNH SỬ DỤNG ĐỒ THỊ TRI THỨC VÀ TÚI TỪ THỊ GIÁC | Tài | TNU Journal of Science and Technology

MỘT MÔ HÌNH TRUY VẤN ẢNH SỬ DỤNG ĐỒ THỊ TRI THỨC VÀ TÚI TỪ THỊ GIÁC

Thông tin bài báo

Ngày nhận bài: 17/04/25                Ngày hoàn thiện: 29/06/25                Ngày đăng: 30/06/25

Các tác giả

1. Trần Đức Tài, Trường Đại học Sư phạm Thành phố Hồ Chí Minh
2. Nguyễn Ngọc Sang, Trường Đại học Sư phạm Thành phố Hồ Chí Minh
3. Tô Thanh Tuấn, Trường Đại học Sư phạm Thành phố Hồ Chí Minh
4. Nguyễn Đỗ Thái Nguyên Email to author, Trường Đại học Sư phạm Thành phố Hồ Chí Minh

Tóm tắt


Trong bối cảnh nhu cầu tra cứu ảnh theo hướng hiểu nội dung và ngữ nghĩa ngày một trở nên phổ biến, những kỹ thuật truyền thống vốn chỉ dựa vào đặc trưng thị giác đang dần bộc lộ nhiều hạn chế, đặc biệt khi phải diễn tả được các quan hệ ngữ nghĩa giữa những thực thể có trong ảnh. Nghiên cứu này đề xuất một mô hình tích hợp gồm ba yếu tố chính: phát hiện thực thể bằng YOLOv8, biểu diễn đặc trưng thị giác với túi từ thị giác, và tổ chức thông tin bằng đồ thị tri thức. Các thực thể được phát hiện sẽ được tổ chức vào túi từ thị giác từ đó tạo các bộ ba quan hệ để ánh xạ vào đồ thị tri thức. Khi truy vấn, hệ thống sinh các bộ ba từ ảnh đầu vào để thực hiện tra cứu trong đồ thị tri thức. Mô hình được triển khai đánh giá trên hai tập ảnh dữ liệu phổ biến là OpenImagesV7 và MS-COCO với độ chính xác đạt được ở mức 84,1% và 89,6%, vượt qua nhiều mô hình truyền thống, phản ánh độ tin cậy và khả thi của mô hình đề xuất.

Từ khóa


Truy vấn ảnh; Túi từ thị giác; Đồ thị tri thức; YOLOv8; Trích xuất đối tượng

Toàn văn:

PDF

Tài liệu tham khảo


[1] I. M. Hameed, S. H. Abdulhussain, and B. M. Mahmmod, “Content-based image retrieval: A review of recent trends,” Cogent Engineering, vol. 8, no. 1, 2021, Art. no. 1927469, doi: 10.1080/23311916.2021.1927469.

[2] X. Li, J. Yang, and J. Ma, "Recent developments of content-based image retrieval (CBIR),” Neurocomputing, vol. 452, no. 10, pp. 675-689, 2021, doi: 10.1016/j.neucom.2020.07.139.

[3] A. Zareian, S. Karaman, and S. F. Chang, "Bridging Knowledge Graphs to Generate Scene Graphs," July 18, 2020. [Online]. Available: https://arxiv.org/pdf/2001.02314. [Accessed March 30, 2025].

[4] L. Giacomo, "Semantic Aware Image Search with Scene," October 17, 2022. [Online]. Available: https://thesis.unipd.it/bitstream/20.500.12608/36544/1/Loreggia_Giacomo.pdf. [Accessed March 30, 2025].

[5] X. Chang, P. Ren, P. Xu, Z. Li, X. Chen, and A. Hauptmann, "A Comprehensive Survey of Scene Graphs: Generation and Application," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 45, no. 1, pp. 1-26, 2023, doi: 10.1109/TPAMI.2021.3137605.

[6] Z. Mohamad, H. Reza, and M. Rabiei, "A Review of Knowledge Graph Completion," Information, vol. 13, no. 8, 2022, doi: 10.3390/info13080396.

[7] W. H. Li, S. Yang, Y. Wang, D. Song, and X. Li, “Multi-level similarity learning for image-text retrieval,” Information Processing & Management, vol. 58, no. 1, 2021, doi: 10.1016/j.ipm.2020.102432.

[8] T. V. T. Le and T. T. Van, “An Image Retrieval Model combining Neighbor Graph and Semantic Graph,” (in Vietnamese), Proceedings of the 15th National Conference on Fundamental and Applied Information Technology Research (FAIR), 2022, pp. 400-412, doi: 10.15625/vap.2022.0249.

[9] M. T. Phan and T. T. Van, “An image retrieval model combining statistical methods and knowledge graphs,” (in Vietnamese), Proceedings of the 17th National Conference on Fundamental and Applied Information Technology Research (FAIR), 2024, pp. 531-539.

[10] A. Radford, J. W. Kim, C. Hallacy, A.Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, G. Krueger, and I. Sutskever, “Learning Transferable Visual Models From Natural Language Supervision,” Proceedings of the 38th International Conference on Machine Learning, 2021, pp. 8748-8763.

[11] X. Li, X. Yin, C. Li, P. Zhang, X. Hu, L. Zhang, L. Wang, H. Hu, L. Dong, F. Wei, Y. Choi, and J. Gao, “Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks,” Computer Vision – ECCV 2020: 16th European Conference, 2020, pp. 121-137, doi: 10.1007/978-3-030-58577-8_8.




DOI: https://doi.org/10.34238/tnu-jst.12608

Các bài báo tham chiếu

  • Hiện tại không có bài báo tham chiếu
Tạp chí Khoa học và Công nghệ - Đại học Thái Nguyên
Phòng 408, 409 - Tòa nhà Điều hành - Đại học Thái Nguyên
Phường Tân Thịnh - Thành phố Thái Nguyên
Điện thoại: 0208 3840 288 - E-mail: jst@tnu.edu.vn
Phát triển trên nền tảng Open Journal Systems
©2018 All Rights Reserved