NGHIÊN CỨU HỆ THỐNG DỊCH NGÔN NGỮ TIẾNG VIỆT-K’HO SỬ DỤNG DỊCH MÁY BẰNG NƠRON | Lương | TNU Journal of Science and Technology

NGHIÊN CỨU HỆ THỐNG DỊCH NGÔN NGỮ TIẾNG VIỆT-K’HO SỬ DỤNG DỊCH MÁY BẰNG NƠRON

Thông tin bài báo

Ngày nhận bài: 29/10/22                Ngày hoàn thiện: 31/03/23                Ngày đăng: 07/04/23

Các tác giả

1. Nguyễn Thị Lương Email to author, Trường Đại học Đà Lạt
2. La Quốc Thắng, Trường Đại học Đà Lạt
3. Trần Nhật Quang, Trường Đại học Đà Lạt
4. Dương Bảo Ninh, Trường Đại học Đà Lạt
5. Nguyễn Hữu Khánh, Trường Đại học Đà Lạt
6. Phan Thị Thanh Nga, Trường Đại học Đà Lạt
7. Trần Ngô Như Khánh, Trường Đại học Đà Lạt
8. Trần Thống, Trường Đại học Đà Lạt

Tóm tắt


Ngôn ngữ K’Ho là ngôn ngữ được sử dụng bởi dân tộc K’Ho, sinh sống ở vùng Nam Tây Nguyên, đặc biệt là các huyện Đơn Dương, Đức Trọng, Di Linh, Đạ Huoai, Lạc Dương thuộc tỉnh Lâm Đồng. Hiện nay, ủy ban nhân dân tỉnh và ban dân tộc tỉnh Lâm Đồng đang khuyến khích cán bộ và viên chức trong tỉnh biết tiếng K’Ho để tiếp xúc và tuyên truyền các chủ trương, đường lối, chính sách, pháp luật của Đảng và Nhà nước tới người K’Ho. Trong bài báo này, chúng tôi sử dụng nguồn tài nguyên tiếng K’Ho và sự hỗ trợ từ các chuyên gia tiếng K’Ho để xây dựng bộ song ngữ Việt – K’Ho nhằm góp phần vào việc quảng bá và bảo tồn ngôn ngữ K’Ho. Bộ ngữ liệu bao gồm hơn 16.000 cặp câu song ngữ Việt-K’Ho, vốn không dễ dàng thu thập do giới hạn về nguồn tài liệu liên quan tới ngôn ngữ tiếng K’Ho. Chúng tôi sử dụng bộ mã nguồn OpenNMT để xây dựng hệ thống dịch tự động dựa trên bộ dữ liệu song ngữ. Kết quả dịch có thể đạt được độ chính xác lên tới 56,54%, là một kết quả có thể chấp nhận được trong lĩnh vực dịch tự động.

Từ khóa


Ngôn ngữ K’Ho; Ngữ liệu song ngữ; Dịch tự động; RNN; OpenMNT

Toàn văn:

PDF (English)

Tài liệu tham khảo


REFERENCES

[1] D. C. Le and T. T. T. Nguyen, "Vietnamese-English Translation with Transformer and Back Translation in VLSP 2020 Machine Translation Shared Task," in Proceedings of the 7th International Workshop on Vietnamese Language and Speech Processing, Hanoi, Vietnam, Association for Computational Linguistics, 2020, pp. 64–70.

[2] H. H. P. Vu, V. T. Tran, V. N. Nguyen, H. V. Dang, and P. T. Do, "Machine Translation between Vietnamese and English: an Empirical Study," Journal of Computer Science and Cybernetics, vol. 35, no. 2, pp. 147-166, 2019.

[3] N. Q. Phuoc, Y. Quan, and C.-Y. Ock, "Building a bidirectional english-vietnamese statistical machine translation system by using moses," International Journal of Computer and Electrical Engineering, vol. 8, no. 2, pp. 161-168, 2016.

[4] P. Huang, C. Wang, D. Zhou, and L. Deng, "Neural phrase-based machine translation," in CoRR, 2017.

[5] M. Cettolo, J. Niehues, S. Stuker, L. Bentivogli, R. Cattoni, and M. Federico, "The iwslt 2015 evaluation campaign," in Proceeding of the 12th International Workshop on Spoken Language Translation, 2015, pp 2-14,.

[6] H. P. Vu, V. Nguyen, V. Tran, and P. Do, "Towards state-of-the-art english-vietnamese neural machine translation," in Proceedings of the Eighth International Symposium on Information and Communication Technology, Nha Trang, 2017, pp 120-126,.

[7] H. Nguyen, L. Nguyen, P. Le, H. Nguyen, and T. Dinh, "Vietnamese-K'Ho automatic translation using statistical-based methods," Science Journal of Da Lat University, vol. 8, no. 3, pp.135-148, 2018.

[8] T. Nguyen and T. Dinh, "Vietnamese-K'Ho automatic translation using an example-based method," Science Journal of Da Lat University, vol. 6, pp.160 - 173, 2016.

[9] M-T. Luong, H. Pham, and C. D. Manning, “Effective Approaches to Attention-based Neural Machine Translation,” arXiv prePrint arXiv:1508.04025, 2015.

[10] J. Gehring, M. Auli, D. Grangier, D. Yarats, Y. N. Dauphin, “Convolutional Sequence to Sequence Learning,” arXiv prePrint arXiv:1705.03122, 2017.

[11] Y. Wu, M. Schuster, Z. Chen, Q. V. Le, M. Norouzi, W. Macherey, M. Krikun, Y. Cao, Q. Gao, K. Macherey, et al., “Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation,” arXiv prePrint arXiv:1609.08144, 2016.

[12] A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, and I. Sutskever, “Language Models are Unsupervised Multitask Learners,” Technical report, OpenAi, 2019.

[13] A. Radford, K. Narasimhan, T. Salimans, and I. Sutskever, “Improving Language Understanding by Generative Pre-Training,” Computer Science, 2018. [Online]. Available: https://www.semanticscholar. org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b66 8 a1cc19f2ec95b5003d0a5035. [Accessed October 05, 2022].

[14] Y. G. Nie, V. N. Hiep, and T. C. Lam, “Research and perfect the program to support handwriting processing of some ethnic minorities in the Central Highlands by TayNguyenKey software,” Science and technology research topics, DakLak, 2010.

[15] F. J. Och and H. Ney, "Improved Statistical Alignment Models," in Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics, Hong Kong, 2000, pp. 440-447,.

[16] R. Östling and J. Tiedemann, "Efficient Word Alignment with Markov Chain Monte Carlo," The Prague Bulletin of Mathematical Linguistics, vol. 106, pp. 125-146, 2016.

[17] S. Ker and J. Chang, "A Class-based Approach to Word Alignment," Computational Linguistics, vol. 23, pp. 313-343, 2002.

[18] Z.-Y. Dou and G. Neubig, "Word Alignment by Fine-tuning Embeddings on Parallel Corpora," CoRR, vol. abs/2101.08231, pp. 2112-2128, 2021.

[19] G. Klein, Y. Kim, Y. Deng, J. Senellart, and A.M. Rush, “OpenNMT: Open-Source Toolkit for Neural Machine Translation,” arXiv prePrint arXiv:1701.02810, 2017.

[20] D. Amodei, S. Ananthanarayanan, R. Anubhai, J. Bai, E. Battenberg, et al. “Deep Speech 2: End-to-End Speech Recognition in English and Mandarin,” arXiv prePrint arXiv:1512.02595, 2015.

[21] Y. Deng, A. Kanervisto, J. Ling, and A. M. Rush, “Image-to-Markup Generation with Coarse-to-Fine Attention,” arXiv prePrint arXiv:1609.04938, 2016.

[22] W. Chan, N. Jaitly, Q. V. Le, and O. Vinyals, “Listen, Attend and Spell,” arXiv prePrint arXiv:1508.01211, 2015.

[23] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, “Attention Is All You Need,” arXiv prePrint arXiv:1706.03762, 2017.

[24] D. Bahdanau, K. Cho, and Y. Bengio, “Neural Machine Translation by Jointly Learning to Align and Translate,” arXiv prePrint arXiv:1409.0473, 2014.




DOI: https://doi.org/10.34238/tnu-jst.6818

Các bài báo tham chiếu

  • Hiện tại không có bài báo tham chiếu
Tạp chí Khoa học và Công nghệ - Đại học Thái Nguyên
Phòng 408, 409 - Tòa nhà Điều hành - Đại học Thái Nguyên
Phường Tân Thịnh - Thành phố Thái Nguyên
Điện thoại: 0208 3840 288 - E-mail: jst@tnu.edu.vn
Phát triển trên nền tảng Open Journal Systems
©2018 All Rights Reserved