NGHIÊN CỨU NÂNG CAO NHẬN DẠNG CẢM XÚC TIẾNG VIỆT: PHƯƠNG PHÁP DỰA TRÊN PHOBERT PHỤC VỤ TƯƠNG TÁC HIỆU QUẢ | Trâm | TNU Journal of Science and Technology

NGHIÊN CỨU NÂNG CAO NHẬN DẠNG CẢM XÚC TIẾNG VIỆT: PHƯƠNG PHÁP DỰA TRÊN PHOBERT PHỤC VỤ TƯƠNG TÁC HIỆU QUẢ

Thông tin bài báo

Ngày nhận bài: 26/05/25                Ngày hoàn thiện: 29/06/25                Ngày đăng: 29/06/25

Các tác giả

1. Huỳnh Thị Ngọc Trâm, Trường Đại học Quốc tế - Đại học Quốc gia Thành phố Hồ Chí Minh; Đại học Quốc gia Thành phố Hồ Chí Minh
2. Phạm Minh Dzuy Email to author, Trường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh ; Đại học Quốc gia Thành phố Hồ Chí Minh
3. Phạm Đức Đạt, Trường Đại học Quốc tế - Đại học Quốc gia Thành phố Hồ Chí Minh; Đại học Quốc gia Thành phố Hồ Chí Minh
4. Lê Duy Tân, Trường Đại học Quốc tế - Đại học Quốc gia Thành phố Hồ Chí Minh; Đại học Quốc gia Thành phố Hồ Chí Minh
5. Huỳnh Khả Tú, Trường Đại học Quốc tế - Đại học Quốc gia Thành phố Hồ Chí Minh; Đại học Quốc gia Thành phố Hồ Chí Minh

Tóm tắt


Nhận diện cảm xúc bằng trí tuệ nhân tạo đóng vai trò quan trọng trong việc cải thiện tương tác người – máy. Nghiên cứu này giải quyết các thách thức đặc thù của tiếng Việt bằng cách xây dựng bộ dữ liệu chất lượng cao từ bài đăng trên mạng xã hội, đánh giá sản phẩm và hội thoại tự nhiên. Dữ liệu được tiền xử lý nghiêm ngặt (làm sạch, chuẩn hóa, tách từ) và sử dụng kỹ thuật lấy mẫu bổ sung để cân bằng các lớp dữ liệu thiếu hụt, nâng cao độ tin cậy của mô hình. PhoBERT-base-v2, một mô hình Transformer tối ưu cho tiếng Việt, đạt độ chính xác hiện đại (94,22%) và các chỉ số macro trên 94%, vượt trội rõ rệt so với các phương pháp học máy truyền thống và các mô hình học sâu khác. Phân tích cho thấy mô hình phân biệt tốt các cảm xúc tinh tế, dù vẫn còn nhầm lẫn giữa các cảm xúc gần nhau (ví dụ: Giận dữ và Ghê tởm). Chúng tôi triển khai giao diện Gradio để minh họa ứng dụng thực tế trong phân tích thời gian thực, giám sát mạng xã hội, đánh giá phản hồi khách hàng và hỗ trợ sức khỏe tinh thần. Hướng nghiên cứu tương lai đề xuất tích hợp đa phương thức (văn bản và giọng nói) nhằm nâng cao hơn nữa độ chính xác nhận diện.

Từ khóa


Nhận dạng cảm xúc; Xử lý ngôn ngữ tự nhiên tiếng Việt; Mô hình học sâu; Phân tích cảm xúc; Trí tuệ nhân tạo

Toàn văn:

PDF (English)

Tài liệu tham khảo


[1] M. Dhuheir, A. Albaseer, E. Baccour, A. Erbad, M. Abdallah, and M. Hamdi, “Emotion recognition for healthcare surveillance systems using neural networks: A survey,” in Proceedings of the 2021 International Wireless Communications and Mobile Computing Conference (IWCMC), Harbin City, China, 2021, pp. 681–687, doi: 10.1109/IWCMC51323.2021.9498861.

[2] X. T. Le, T. T. Dao, V. L. Trinh, and H. Q. Nguyen, “Speech Emotions and Statistical Analysis for Vietnamese Emotion Corpus,” Journal on Information Technologies & Communications, vol. V-1, no. 35, pp. 86-98, 2022, doi: 10.32913/mic-ict-research-vn.v1.n35.233.

[3] V. A. Ho, D. H.-C. Nguyen, D. H. Nguyen, L. T.-V. Pham, D.-V. Nguyen, K. V. Nguyen, and N. L.-T. Nguyen, “Emotion Recognition for Vietnamese Social Media Text,” CoRR, 2019, doi: 10.48550/arXiv.1911.09339.

[4] D. Q. Nguyen and A. T. Nguyen, “PhoBERT: Pre-trained language models for Vietnamese,” in Findings of the Association for Computational Linguistics: EMNLP 2020, Online: Association for Computational Linguistics, Nov. 2020, pp. 1037–1042, doi: 10.18653/v1/2020.findings-emnlp.92.

[5] A. F. A. Nasir, E. Nee, C. S. Choong, A. S. A. Ghani, A. P. P. A. Majeed, A. Adam, and M. Furqan, “Text-based emotion prediction system using machine learning approach,” in IOP Conference Series: Materials Science and Engineering, vol. 769, Jun. 2020, Art. no. 012022.

[6] R. Pascanu, T. Mikolov, and Y. Bengio, “On the difficulty of training recurrent neural networks,” in Proceedings of the 30th International Conference on Machine Learning (ICML), vol. 28, no. 3, pp. 1310–1318, 2013.

[7] Y. Bengio, P. Simard, and P. Frasconi, “Learning long-term dependencies with gradient descent is difficult,” in IEEE Transactions on Neural Networks, vol. 5, no. 2, pp. 157-166, March 1994, doi: 10.1109/72.279181.

[8] S.-H. Noh, “Analysis of Gradient Vanishing of RNNs and Performance Comparison,” Information, vol. 12, vol. 12, no. 11, 2021, Art. no. 442, doi: 10.3390/info12110442.

[9] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of deep bidirectional transformers for language understanding,” in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT), Minneapolis, MN, USA, Jun. 2019, pp. 4171–4186, doi: 10.18653/v1/N19-1423.

[10] M. T. Ngo, B. H. Ngo, and V. V. Stuchilin, “Fine-tuned PhoBERT for sentiment analysis of Vietnamese phone reviews,” CTU Journal of Innovation & Sustainable Development, vol. 16, no. Special issue: ISDS, pp. 52-57, 2024.

[11] H. T. T. Thieu, “Challenges in Classification of Vietnamese Sentiment,” International Journal of Scientific and Technical Research in Engineering (IJSTRE), vol. 6, no. 5, pp. 1–6, 2021.

[12] N. D. Q. Anh, M.-H. Ha, Q. C. Nguyen, T. H. T. Nguyen, Q. Vu, D. X. Minh-Duc, D.-C. Nguyen, and T. K. Dinh, "VNEMOS: Vietnamese Speech Emotion Inference Using Deep Neural Networks," in 2024 9th International Conference on Integrated Circuits, Design, and Verification (ICDV), Hanoi, Vietnam, 2024, pp. 97-101, doi: 10.1109/ICDV61346.2024.10616411.

[13] undertheseanlp, “undertheseanlp/underthesea: Underthesea - Vietnamese NLP Toolkit,” 2017, [Online]. Available: https://github.com/undertheseanlp/underthesea. [Accessed 11 May 2025].

[14] C. Cortes and V. Vapnik, “Support-vector networks,” Machine Learning, vol. 20, no. 3, pp. 273-297, 1995.

[15] S. Robertson, “Understanding inverse document frequency: on theoretical arguments for IDF,” Journal of Documentation, vol. 60, no. 5, pp. 503-520, 2004.

[16] N. S. M. Nafis and S. Awang, “An Enhanced Hybrid Feature Selection Technique Using Term Frequency-Inverse Document Frequency and Support Vector Machine-Recursive Feature Elimination for Sentiment Classification,” IEEE Access, vol. 9, pp. 52177-52192, 2021.

[17] E. Gkintoni, A. Aroutzidis, H. Antonopoulou, and C. Halkiopoulos, “From Neural Networks to Emotional Networks: A Systematic Review of EEG-Based Emotion Recognition in Cognitive Neuroscience and Real-World Applications,” Brain Sciences, vol. 15, no. 3, 2025, Art. no. 220.

[18] Z. Hameed and B. Garcia-Zapirain, “Sentiment Classification Using a Single-Layered BiLSTM Model,” IEEE Access, vol. 8, pp. 73992-74001, 2020.

[19] M. Samaneh, P. David, A. Olayinka, P. Christian, M. Farhaan, M. Shilpa, and S. Sandra, “Automatic Speech Emotion Recognition Using Machine Learning: Digital Transformation of Mental Health,” in PACIS 2022 Proceedings, Chiang Mai, Thailand, 2022, Art. no. 45.

[20] M. Awatef, B. Hayet, and L. Zied, “Multimodal emotion recognition: Integrating speech and text for improved valence, arousal, and dominance prediction,” Annals of Telecommunications., vol. 80, no. 5, pp. 401-415, 2025.




DOI: https://doi.org/10.34238/tnu-jst.12889

Các bài báo tham chiếu

  • Hiện tại không có bài báo tham chiếu
Tạp chí Khoa học và Công nghệ - Đại học Thái Nguyên
Phòng 408, 409 - Tòa nhà Điều hành - Đại học Thái Nguyên
Phường Tân Thịnh - Thành phố Thái Nguyên
Điện thoại: 0208 3840 288 - E-mail: jst@tnu.edu.vn
Phát triển trên nền tảng Open Journal Systems
©2018 All Rights Reserved