MỘT KỸ THUẬT MÔ PHỎNG CỬ ĐỘNG CỦA MÔ HÌNH ĐẦU NGƯỜI 3D THEO LỜI THOẠI TIẾNG VIỆT | Phương | TNU Journal of Science and Technology

MỘT KỸ THUẬT MÔ PHỎNG CỬ ĐỘNG CỦA MÔ HÌNH ĐẦU NGƯỜI 3D THEO LỜI THOẠI TIẾNG VIỆT

Thông tin bài báo

Ngày nhận bài: 07/07/23                Ngày hoàn thiện: 30/08/23                Ngày đăng: 31/08/23

Các tác giả

1. Trần Thanh Phương, Trường Đại học Lạc Hồng
2. Ngô Đức Vĩnh, Trường Đại học Công nghiệp Hà Nội
3. Hà Mạnh Toàn, Viện Công nghệ thông tin - Viện Hàn lâm Khoa học & Công nghệ Việt Nam
4. Đỗ Năng Toàn Email to author, Viện Công nghệ thông tin - Viện Hàn lâm Khoa học & Công nghệ Việt Nam
5. Nông Minh Ngọc, Đại học Thái Nguyên

Tóm tắt


Trong lĩnh vực thực tại ảo, vấn đề mô phỏng cử chỉ, trạng thái đầu người 3D là một chủ đề nhận được nhiều sự quan tâm bởi khả năng ứng dụng mạnh mẽ trong nhiều bài toán thực tế, chẳng hạn như xây dựng các nhân vật trong phim ảnh, trong các hệ thống phát thanh viên ảo, hướng dẫn viên ảo… Bài báo quan tâm đến vấn đề mô phỏng cử động của mô hình đầu người 3D theo lời thoại tiếng Việt và các nội dung thực hiện có tính chất xâu chuỗi từ những vấn đề về mô hình hóa đầu người 3D đến những thuật toán điều khiển, biến đổi mô hình. Cụ thể, bài báo đã trình bày cách thức xây dựng mô hình mẫu đầu người 3D, cách thức tính toán các vector biến đổi dựa vào các biểu diễn âm tiết riêng lẻ cũng như việc biến đổi mô hình theo thời gian, trên cơ sở phân tích nội dung lời thoại tiếng Việt đầu vào để tạo ra được hoạt cảnh mong muốn. Các kết quả thực nghiệm đã chứng tỏ được sự hiệu quả của những đề xuất được đặt ra và là cơ sở cho việc tiến tới những ứng dụng thực tại ảo mô phỏng con người hoàn thiện hơn.

Từ khóa


Thực tại ảo; Biến dạng; Đầu người 3D; Lời thoại Việt Nam; Xử lý âm tiết

Toàn văn:

PDF

Tài liệu tham khảo


[1] L. Chen, R. K. Maddox, Z. Duan, and C. Xu, "Hierarchical cross-modal talking face generation with dynamic pixel-wise loss," in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019, pp. 7832-7841.

[2] H. Zhou, Y. Liu, Z. Liu, P. Luo, and X. Wang, "Talking face generation by adversarially disentangled audio-visual representation," in Proceedings of the AAAI conference on artificial intelligence, 2019, vol. 33, no. 01, pp. 9299-9306.

[3] Y. Song, J. Zhu, D. Li, A. Wang, and H. Qi, "Talking face generation by conditional recurrent adversarial network," in Proceedings of the 28th International Joint Conference on Artificial Intelligence, 2019, pp. 919-925.

[4] V. Konstantinos, P. Stavros, and P. Maja, "Realistic speech-driven facial animation with gans," International Journal of Computer Vision, vol. 128, pp. 1398-1413, 2020.

[5] K. Prajwal, R. Mukhopadhyay, V. P. Namboodiri, and C. Jawahar, "A lip sync expert is all you need for speech to lip generation in the wild," in Proceedings of the 28th ACM international conference on multimedia, 2020, pp. 484-492.

[6] Y. Zhou, X. Han, E. Shechtman, J. Echevarria, E. Kalogerakis, and D.Li, "Makelttalk: speaker-aware talking-head animation," ACM Transactions On Graphics, vol. 39, no. 6, pp. 1-15, 2020.

[7] Y. Ding, C. Pelachaud, and T. Artieres, "Modeling multimodal behaviors from speech prosody," in Proceedings of 13th International Conference on Intelligent Virtual Agents, Springer, 2013, pp. 217-228.

[8] L. Chen, C. Guofeng, L. Celong, L. Zhong, K. Ziyi, X. Yi, and X. Chenliang, "Talking-head generation with rhythmic head motion," in European Conference on Computer Vision, Springer, 2020, pp. 35-51.

[9] M. Fratarcangeli and M. Schaerf, "Realistic modeling of animatable faces in MPEG-4," in Proceedings of 17th Annual Conference on Computer Animation and Social Agents, 2004, pp. 285-297.

[10] L. Turban, D. Girard, N. Kose, and J.-L. Dugelay, "From Kinect video to realistic and animatable MPEG-4 face model: A complete framework," in 2015 IEEE International Conference on Multimedia & Expo Workshops (ICMEW), 2015, pp. 1-6.

[11] I. R. Ali, H. Kolivand, and M. H. Alkawaz, "Lip syncing method for realistic expressive 3D face model," Multimedia Tools Applications, vol. 77, pp. 5323-5366, 2018.

[12] Y. Zhao, D. Jiang, and H. Sahli, "3D emotional facial animation synthesis with factored conditional Restricted Boltzmann Machines," in 2015 International Conference on Affective Computing and Intelligent Interaction (ACII), 2015, pp. 797-803.

[13] S. Dahmani, V. Colotte, V. Girard, and S. Ouni, "Conditional variational auto-encoder for text-driven expressive audiovisual speech synthesis," in INTERSPEECH 2019-20th Annual Conference of the International Speech Communication Association, 2019, pp. 2598-2602.

[14] M. Liu, Y. Duan, R. A. Ince, C. Chen, O. G. Garrod, P. G. Schyns, and R. E. Jack, "Building a generative space of facial expressions of emotions using psychological data-driven methods," in Proceedings of the 20th ACM International Conference on Intelligent Virtual Agents, 2020, pp. 1-3.

[15] S. Wang, L. Li, Y. Ding, C. Fan, and X. Yu, "Audio2Head: Audio-driven One-shot Talking-head Generation with Natural Head Motion," arXiv e-prints, no. arXiv: 2107.09293, 2021.

[16] C. D. Thi and T. L. Son, "3D character expression animation according to Vietnamese sentence semantics," TNU Journal of Science and Technology, vol. 227, no. 16, pp. 20 - 28, 2022.




DOI: https://doi.org/10.34238/tnu-jst.8297

Các bài báo tham chiếu

  • Hiện tại không có bài báo tham chiếu
Tạp chí Khoa học và Công nghệ - Đại học Thái Nguyên
Phòng 408, 409 - Tòa nhà Điều hành - Đại học Thái Nguyên
Phường Tân Thịnh - Thành phố Thái Nguyên
Điện thoại: 0208 3840 288 - E-mail: jst@tnu.edu.vn
Phát triển trên nền tảng Open Journal Systems
©2018 All Rights Reserved