PHÁT TRIỂN HỆ THỐNG ĐIỀU KHIỂN TỰ ĐỘNG DỰA TRÊN HỌC SÂU SỬ DỤNG PHÂN TÍCH TÍN HIỆU ÂM THANH ỨNG DỤNG CHO TIẾNG VIỆT | Thành | TNU Journal of Science and Technology

PHÁT TRIỂN HỆ THỐNG ĐIỀU KHIỂN TỰ ĐỘNG DỰA TRÊN HỌC SÂU SỬ DỤNG PHÂN TÍCH TÍN HIỆU ÂM THANH ỨNG DỤNG CHO TIẾNG VIỆT

Thông tin bài báo

Ngày nhận bài: 20/03/25                Ngày hoàn thiện: 09/07/25                Ngày đăng: 09/07/25

Các tác giả

1. Phạm Văn Thành Email to author, Trường Đại học Khoa học Tự nhiên – ĐH Quốc gia Hà Nội
2. Nguyễn Xuân Nam, Trường Đại học Khoa học Tự nhiên – ĐH Quốc gia Hà Nội
3. Vi Anh Quân, Trường Đại học Khoa học Tự nhiên – ĐH Quốc gia Hà Nội
4. Phạm Tiến Lâm, Đại học Phenikaa

Tóm tắt


Sự phát triển của điện toán biên và TinyAI đã mở ra nhiều cơ hội mới cho các hệ thống điều khiển thông minh dựa trên âm thanh. Nghiên cứu này đề xuất một phương pháp nhận diện tín hiệu điều khiển bằng giọng nói sử dụng tiếng Việt dựa trên học sâu và triển khai trên các thiết bị biên có tài nguyên hạn chế. Hệ thống sử dụng Mel-Frequency Cepstral Coefficients để trích xuất đặc trưng âm thanh và áp dụng mô hình kết hợp mạng nơ-ron tích chập và mạng nơ-ron hồi quy dài-ngắn hạn, nhằm phát triển mô hình TinyAI nhận diện lệnh điều khiển với độ chính xác cao. Chúng tôi triển khai và tối ưu hóa mô hình trên phần cứng Raspberry Pi 3, tận dụng TinyAI để giảm thiểu yêu cầu tính toán mà vẫn đảm bảo hiệu suất xử lý nhanh chóng. Kết quả thực nghiệm cho thấy hệ thống đạt độ chính xác 96,25%, với độ trễ thấp, phù hợp cho các ứng dụng điều khiển robot và thiết bị IoT mà không cần kết nối đám mây. Nghiên cứu này góp phần khẳng định tiềm năng của TinyAI trong điện toán biên, giúp cải thiện hiệu quả và khả năng ứng dụng của các hệ thống điều khiển bằng giọng nói sử dụng tiếng Việt trong môi trường thực tế.

Từ khóa


Học sâu; Nhận diện giọng nói; Điện toán biên; Điều khiển tự động; IoT

Toàn văn:

PDF

Tài liệu tham khảo


[1] M. Chiang and T. Zhang, "Fog and IoT: An overview of research opportunities," IEEE Internet of Things Journal, vol. 3, no. 6, pp. 854-864, 2016.

[2] A. V. Dastjerdi and R. Buyya, "Fog computing: Helping the Internet of Things realize its potential," Computer, vol. 49, no. 8, pp. 112-116, 2016.

[3] M. Prasad et al., "Voice-controlled autonomous navigation system for mobile robots in dynamic environments," IEEE Transactions on Robotics and Automation, vol. 39, no. 4, pp. 1852-1867, 2023.

[4] A. Khan and R. Johnson, "Efficient voice control systems for IoT devices and smart homes: A comprehensive review," Internet of Things Journal, vol. 11, no. 2, pp. 345-362, 2024.

[5] L. Zhang et al., "Challenges and solutions for on-device audio processing in resource-constrained edge devices," IEEE Transactions on Edge Computing, vol. 8, no. 3, pp. 512-528, 2023.

[6] Y. Chen and P. Smith, "Lightweight deep learning architectures for real-time speech recognition on edge devices," Neural Computing and Applications, vol. 36, no. 1, pp. 78-93, 2024.

[7] Q. Vu et al., "Vietnamese Automatic Speech Recognition: the FLaVoR Approach," in Proc. International Symposium on Chinese Spoken Language Processing, Singapore, December 2006, vol. 4274, pp. 464–474.

[8] T. Le, H. Nguyen, and Q. Vu, "Progress in Transcription of Vietnamese Broadcast News," in Proc. International Conference on Communications and Electronics (ICCE'06), October 2006, pp. 300–304.

[9] T.-S. Phan, T.-C. Duong, A.-T. Dinh, T.-T. Vu, and C.-M. Luong, "Improvement of naturalness for an HMM-based Vietnamese speech synthesis using the prosodic information," Proceedings of the 2013 RIVF International Conference on Computing & Communication Technologies - Research, Innovation, and Vision for Future (RIVF), 2013, pp. 276–281.

[10] Q. B. Nguyen, T. T. Vu, and C. M. Luong, "Improving acoustic model for Vietnamese large vocabulary continuous speech recognition system using deep bottleneck features," Proceedings of the Sixth International Conference on Knowledge and Systems Engineering (KSE 2014), 2015, pp. 49–60.

[11] P. Hung, T. Minh, L. Hoang, and M. Phan, "Vietnamese speech command recognition using recurrent neural networks," International Journal of Advanced Computer Science and Applications, vol. 10, no. 1, 2019, doi: 10.14569/IJACSA.2019.0100728.

[12] T.-T. Le, L. T. Nguyen, and D. Q. Nguyen, "PhoWhisper: Automatic speech recognition for Vietnamese," arXiv preprint arXiv:2406.02555, 2024.

[13] F. J. Harris, "On the use of windows for harmonic analysis with the discrete Fourier transform," Proceedings of the IEEE, vol. 66, no. 1, pp. 51-83, Jan. 1978.

[14] S. Davis and P. Mermelstein, "Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences," IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 28, no. 4, pp. 357-366, 1980.

[15] M. Sahidullah and G. Saha, "Design, analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition," Speech Communication, vol. 54, no. 4, pp. 543-565, 2012.

[16] M. Xue and C. Zhu, "The Socket Programming and Software Design for Communication Based on Client/Server," 2009 Pacific-Asia Conference on Circuits, Communications and Systems, Chengdu, China, 2009, pp. 775-777, doi: 10.1109/PACCS.2009.89.




DOI: https://doi.org/10.34238/tnu-jst.12357

Các bài báo tham chiếu

  • Hiện tại không có bài báo tham chiếu
Tạp chí Khoa học và Công nghệ - Đại học Thái Nguyên
Phòng 408, 409 - Tòa nhà Điều hành - Đại học Thái Nguyên
Phường Tân Thịnh - Thành phố Thái Nguyên
Điện thoại: 0208 3840 288 - E-mail: jst@tnu.edu.vn
Phát triển trên nền tảng Open Journal Systems
©2018 All Rights Reserved