TẠO SINH CHÚ THÍCH HÌNH ẢNH BẰNG MÔ HÌNH LAI CNN-LSTM | Quý | TNU Journal of Science and Technology

TẠO SINH CHÚ THÍCH HÌNH ẢNH BẰNG MÔ HÌNH LAI CNN-LSTM

Thông tin bài báo

Ngày nhận bài: 30/06/25                Ngày hoàn thiện: 24/08/25                Ngày đăng: 26/08/25

Các tác giả

1. Trần Quang Quý Email to author, Trường Đại học Công nghệ Thông tin và Truyền thông - ĐH Thái Nguyên
2. Nguyễn Thị Khuyên, Trường Trung học Cơ sở Tích Lương, tỉnh Thái Nguyên
3. Bùi Tiến Lập, Trường Công nghệ - Đại học Kinh tế Quốc dân

Tóm tắt


Trong bối cảnh phát triển mạnh mẽ của trí tuệ nhân tạo hiện nay, bài toán tạo sinh chú thích ảnh (image captioning) đã trở thành một lĩnh vực nghiên cứu quan trọng, đóng vai trò chủ đạo trong các ứng dụng như truy xuất hình ảnh, hỗ trợ người khiếm thị và quản lý nội dung đa phương tiện. Bài báo này đề xuất một hệ thống tạo chú thích ảnh tự động dựa trên mô hình lai giữa mạng nơ-ron tích chập InceptionV3 và mạng bộ nhớ dài-ngắn hạn. Mô hình được huấn luyện và đánh giá trên bộ dữ liệu Flickr8k. Để cải thiện hiệu quả tổng quát hóa và giảm thiểu hiện tượng quá khớp, kỹ thuật dropout được áp dụng trong quá trình huấn luyện. Kết quả thực nghiệm cho thấy mô hình đề xuất có khả năng tạo sinh chú thích ảnh với các chỉ số đánh giá BLEU-1 và BLEU-2 lần lượt đạt 0,39 và 0,172. Mặc dù phương pháp sử dụng mô hình lai này chưa thể đảm bảo độ chính xác cao trong việc mô tả nội dung ảnh so với các mô hình Transformer hoặc mô hình biến đổi thị giác – bộ nhớ ngắn dài hạn, nhưng kết quả đạt được có thể chấp nhận được so với mô hình nơ rơn tích chập – bộ nhớ ngắn dài han cơ sở. Kết quả của bài báo mở ra tiềm năng ứng dụng trong các hệ thống xử lý ngôn ngữ tự nhiên và thị giác máy tính.


Từ khóa


Mô hình lai; Flickr8k; Ảnh; Chú thích; InceptionV3; LSTM

Toàn văn:

PDF

Tài liệu tham khảo


[1] O. Vinyals, A. Toshev, S. Bengio, and D. Erhan, “Show and tell: A neural image caption generator,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Boston, MA, USA, 2015, pp. 3156–3164.

[2] V. Ordonez, G. Kulkarni, and T. L. Berg, “Im2text: Describing images using 1 million captioned photographs,” Adv. Neural Inf. Process. Syst., vol. 24, pp. 1143–1151, 2011.

[3] M. Z. Hossain, F. Sohel, M. F. Shiratuddin, and H. Laga, “A comprehensive survey of deep learning for image captioning,” ACM Comput. Surv., vol. 51, no. 6, pp. 1–36, Jan. 2019.

[4] X. Chen and C. L. Zitnick, “Mind's eye: A recurrent visual representation for image caption generation,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2015, pp. 2422–2431.

[5] A. K. Poddar, S. Ghosh, and P. Bhattacharyya, “Image caption generation in Hindi using deep learning,” Procedia Comput. Sci., vol. 218, pp. 388–395, 2023.

[6] K. Al-Malla, F. Al-Doghman, and M. Abou El-Nasr, “Image captioning with attention mechanism using Xception and YOLOv4,” IEEE Access, vol. 9, pp. 112491–112503, 2021.

[7] A. Mishra, A. Shah, and P. Bhattacharyya, “Hindi image captioning using transformers,” in Proc. Int. Conf. Comput. Vis. Graph., 2022, pp. 325–335.

[8] T. P. Dang, Q. T. Tran, V. T. Nguyen, and S. H. Dau, “Video captioning in Vietnamese using deep learning,” International Journal of Electrical and Computer Engineering (IJECE), vol. 12, no. 3, pp. 3092–3103, Jun. 2022, doi: 10.11591/ijece.v12i3.pp3092-3103.

[9] J. Radford, K. Narasimhan, and I. Sutskever, “Learning transferable visual models from natural language supervision,” in Proc. Int. Conf. Mach. Learn. (ICML), 2021, pp. 8748–8763.

[10] P. Mokady, A. Hertz, and A. Shamir, “ClipCap: CLIP prefix for image captioning,” in Proc. Eur. Conf. Comput. Vis. (ECCV), 2022, pp. 570–588.

[11] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna, “Rethinking the Inception architecture for computer vision,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Las Vegas, NV, USA, 2016, pp. 2818–2826.

[12] K. Papineni, S. Roukos, T. Ward, and W.-J. Zhu, “BLEU: a method for automatic evaluation of machine translation,” in Proc. 40th Annu. Meeting Assoc. Comput. Linguist. (ACL), Philadelphia, PA, USA, 2002, pp. 311–318.

[13] O. Vinyals, A. Toshev, S. Bengio, and D. Erhan, “Show and tell: A neural image caption generator,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Boston, MA, USA, 2015, pp. 3156–3164.

[14] A. Karpathy and L. Fei‑Fei, “Deep visual‑semantic alignments for generating image descriptions,” arXiv preprint arXiv:1412.2306, Dec. 2014.

[15] K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhutdinov, R. Zemel, and Y. Bengio, “Show, Attend and Tell: Neural image caption generation with visual attention,” arXiv preprint arXiv:1502.03044, Feb. 2015.

[16] Q. You, H. Jin, Z. Wang, C. Fang, and J. Luo, “Image captioning with semantic attention,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016, pp. 4651–4659.




DOI: https://doi.org/10.34238/tnu-jst.13155

Các bài báo tham chiếu

  • Hiện tại không có bài báo tham chiếu
Tạp chí Khoa học và Công nghệ - Đại học Thái Nguyên
Phòng 408, 409 - Tòa nhà Điều hành - Đại học Thái Nguyên
Phường Tân Thịnh - Thành phố Thái Nguyên
Điện thoại: 0208 3840 288 - E-mail: jst@tnu.edu.vn
Phát triển trên nền tảng Open Journal Systems
©2018 All Rights Reserved