NHẬN DIỆN NGÔN NGỮ KÍ HIỆU TIẾNG VIỆT SỬ DỤNG MẠNG HỌC SÂU | Duy | TNU Journal of Science and Technology

NHẬN DIỆN NGÔN NGỮ KÍ HIỆU TIẾNG VIỆT SỬ DỤNG MẠNG HỌC SÂU

Thông tin bài báo

Ngày nhận bài: 29/04/25                Ngày hoàn thiện: 26/06/25                Ngày đăng: 28/06/25

Các tác giả

1. Nguyễn Quang Duy, Trường Đại học Giao thông Vận tải
2. Lương Thái Lê Email to author, Trường Đại học Giao thông Vận tải

Tóm tắt


Ngôn ngữ ký hiệu Việt Nam đóng vai trò thiết yếu trong việc tạo điều kiện giao tiếp hiệu quả cho cộng đồng người điếc và khiếm thính trên khắp lãnh thổ Việt Nam. Trong nghiên cứu này, chúng tôi đề xuất một hệ thống nhận dạng dựa trên học sâu, tận dụng thư viện MediaPipe để trích xuất chính xác các điểm mốc bàn tay từ chuỗi phim. Các điểm mốc này sau đó được đưa vào một kiến trúc mạng nơ-ron, có thể là mạng nơ-ron tích chập hoặc mạng nơ-ron với bộ nhớ ngắn hạn-dài hạn được trang bị cơ chế chú ý (bao gồm chú ý gia tính hoặc chú ý đa đầu) nhằm tập trung chọn lọc các mẫu thời gian nổi bật trong các cử chỉ ký hiệu. Để hỗ trợ quá trình huấn luyện và đánh giá độ chính xác, chúng tôi đã biên soạn và chú thích tỉ mỉ một tập dữ liệu đầy đủ về các động tác ký hiệu Việt Nam. Kết quả thực nghiệm cho thấy mô hình đề xuất đạt độ chính xác lên tới 99,51%, vượt trội so với các phương pháp cơ sở. Khả năng vận hành theo thời gian thực cùng độ chính xác cao của hệ thống nhấn mạnh tiềm năng ứng dụng trong các công cụ trợ giúp giao tiếp, đồng thời mở ra hướng nghiên cứu sâu hơn về xử lý ngôn ngữ ký hiệu và ứng dụng nhận dạng cử chỉ đa văn hóa trong bối cảnh Việt Nam.

Từ khóa


Ngôn ngữ kí hiệu Việt Nam; Mạng tích chập; Mạng bộ nhớ ngắn-dài hạn; Cơ chế chú ý; Thị giác máy tính

Toàn văn:

PDF (English)

Tài liệu tham khảo


[1] V. Bazarevsky et al., “MediaPipe: A Framework for Building Perception Pipelines,” arXiv preprint arXiv:1906.08172, 2019.

[2] R. Kumar, A. Bajpai, and A. Sinha, “Mediapipe and CNNs for Real-Time ASL Gesture Recognition,” arXiv preprint arXiv:2305.05296, 2023.

[3] H. P. The, H. C. Chau, V.-P. Bui, and K. Ha, “Automatic feature extraction for Vietnamese sign language recognition using support vector machine,” 2018 2nd International Conference on Recent Advances in Signal Processing, Telecommunications & Computing (SigTelCom), Jan. 2018, pp. 146–151, doi: 10.1109/SIGTELCOM.2018.8325780.

[4] S. Yan et al., “Spatial–Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition,” in Proc. 32nd AAAI Conf. on Artificial Intelligence, 2018, pp. 7444–7452.

[5] L. Shi et al., “Two-Stream Adaptive Graph Convolutional Network for Skeleton-Based Action Recognition,” in Proc. IEEE/CVF Conf. on Computer Vision and Pattern Recognition, 2019, pp. 5678–5686.

[6] C. C. De Amorim et al., “Spatial-Temporal Graph Convolutional Networks for Sign Language Recognition,” in Proc. International Joint Conference on Neural Networks (IJCNN), 2019, pp. 1–8.

[7] S. Hochreiter and J. Schmidhuber, “Long short-term memory,” Neural Computation, vol. 9, no. 8, pp. 1735–1780, 1997.

[8] M. Schuster and K. K. Paliwal, “Bidirectional recurrent neural networks,” IEEE Trans. Signal Process., vol. 45, no. 11, pp. 2673–2681, Nov. 1997.

[9] D. Bahdanau, K. Cho, and Y. Bengio, “Neural Machine Translation by Jointly Learning to Align and Translate,” arXiv preprint arXiv:1409.0473, 2014.

[10] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, “Attention Is All You Need,” in NIPS'17: Proceedings of the 31st International Conference on Neural Information Processing Systems, 2017, pp. 6000 - 6010.




DOI: https://doi.org/10.34238/tnu-jst.12708

Các bài báo tham chiếu

  • Hiện tại không có bài báo tham chiếu
Tạp chí Khoa học và Công nghệ - Đại học Thái Nguyên
Phòng 408, 409 - Tòa nhà Điều hành - Đại học Thái Nguyên
Phường Tân Thịnh - Thành phố Thái Nguyên
Điện thoại: 0208 3840 288 - E-mail: jst@tnu.edu.vn
Phát triển trên nền tảng Open Journal Systems
©2018 All Rights Reserved