SO SÁNH ĐỘ TƯƠNG ĐỒNG CÂU HỎI TRONG DIỄN ĐÀN | Tiến | TNU Journal of Science and Technology

SO SÁNH ĐỘ TƯƠNG ĐỒNG CÂU HỎI TRONG DIỄN ĐÀN

Thông tin bài báo

Ngày nhận bài: 09/04/25                Ngày hoàn thiện: 26/06/25                Ngày đăng: 28/06/25

Các tác giả

1. Võ Trần Tiến, Trường Đại học Sư phạm Thành phố Hồ Chí Minh
2. Lương Trần Ngọc Khiêt Email to author, Trường Đại học Sư phạm Thành phố Hồ Chí Minh
3. Nguyễn Phương Nam, Trường Đại học Sư phạm Thành phố Hồ Chí Minh
4. Huỳnh Thị Tường Vi, Trường Đại học Sư phạm Thành phố Hồ Chí Minh
5. Nguyễn Huỳnh Phúc Khang, Trường Đại học Sư phạm Thành phố Hồ Chí Minh
6. Phan Thị Nam Anh, Trường Đại học Sư phạm Thành phố Hồ Chí Minh
7. Lương Trần Hy Hiến, Trường Đại học Sư phạm Thành phố Hồ Chí Minh

Tóm tắt


Nghiên cứu này nhằm xây dựng hệ thống so sánh độ tương đồng giữa các câu hỏi trên các diễn đàn trực tuyến, sử dụng mô hình PhoBERT kết hợp với các phương pháp xử lý ngôn ngữ tự nhiên. Mục đích là cải thiện khả năng nhận diện câu hỏi tương đồng, từ đó tự động đề xuất câu trả lời thích hợp và nhanh chóng. Phương pháp nghiên cứu bao gồm thu thập dữ liệu từ các diễn đàn, confession của sinh viên và fanpage, xử lý dữ liệu bằng các bước như loại bỏ trùng lặp, chuẩn hóa văn bản và tách từ (tokenization). Mô hình được huấn luyện trên bộ dữ liệu tiếng Việt gồm 31.201 cặp câu hỏi. Sau đó, mô hình PhoBERT được áp dụng để phân loại các câu hỏi tương đồng. Kết quả cho thấy hệ thống đạt độ chính xác 82,98%, vượt trội hơn so với phương pháp truyền thống như TF-IDF. Để ứng dụng trong thực tế, hệ thống còn tích hợp thư viện FAISS nhằm cho phép tìm kiếm tương đồng hiệu quả và nhanh chóng. Hệ thống không chỉ hiệu quả trong việc so sánh câu hỏi mà còn có thể áp dụng trong các nền tảng hỏi đáp trực tuyến hoặc hỗ trợ khách hàng, mở ra cơ hội ứng dụng trong nhiều lĩnh vực khác.

Từ khóa


PhoBERT; Câu hỏi tương đồng; Phương pháp xử lý ngôn ngữ tự nhiên; Diễn đàn; Trích xuất văn bản

Toàn văn:

PDF

Tài liệu tham khảo


  1. [1] Y. Seonwoo, J. Son, J. Jin, S.-W. Lee, J.-H. Kim, J.-W. Ha, and A. Oh, “Two-Step Question Retrieval for Open-Domain QA,” 19 May 2022. [Online]. Available: https://arxiv.org/abs/2205.09393. [Accessed December 24, 2024].

    [2] D. Viji and S. Revathy, "A novel approach for paraphrase detection in Tamil language using deep learning models," Multimedia Tools and Applications, vol. 81, pp. 18881–18901, 2022, doi: 10.1007/s11042-021-11771-6. [Online]. Available: https://link.springer.com/article/10.1007/s11042-021-11771-6. [Accessed April 21, 2025].

    [3] N. Reimers and I. Gurevych, “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks,” in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing, 2019, pp. 3982–3992, doi: 10.18653/v1/D19-1410. [Accessed April 23, 2025].

    [4] A. Romadhony and A. Hasmawati, “Question Similarity Detection to Handle Similar User Questions using Support Vector Machine,” Jurnal Nasional Pendidikan Teknik Informatika (JANAPATI), vol. 11, no. 3, pp. 248-257, 2023, doi: 10.23887/janapati.v11i3.52582. [Online]. Available: https://ejournal.undiksha.ac.id/index.php/janapati/article/view/52582. [Accessed March 24, 2025].

    [5] S. Gochhait, "Comparative Analysis of Machine and Deep Learning Techniques for Text Classification with Emphasis on Data Preprocessing," Multimedia Tools and Applications, vol. 81, no. 5, pp. 7455–7471, 2022, doi: 10.1007/s1042-021-11786-z. [Accessed March 25, 2025].

    [6] I. Bandara and F. Ioras, “A deep learning similarity-checking method that can identify patterns of resemblance in duplicated questions can be used to combat the problem of plagiarism,” in ICERI2023 Proceedings, 2023, pp. 5876-5884, doi: 10.21125/iceri.2023.1464. [Online]. Available: https://library.iated.org/view/BANDARA2023ADE. [Accessed Jan. 30, 2025].

    [7] Y. Zhou, C. Li, G. Huang, Q. Guo, H. Li, and X. Wei, “A Short Text Similarity Evaluation Method Combining Syntax and Semantics,” Electronics, vol. 12, no. 14, 2023, Art. no. 3126, doi: 10.3390/electronics12143126. [Online]. Available: https://www.mdpi.com/2079-9292/12/14/3126. [Accessed Jan. 18, 2025].

    [8] D. Q. Nguyen and A. T. Nguyen, “PhoBERT: Pre-trained language models for Vietnamese,” in Findings of the Association for Computational Linguistics: EMNLP 2020, 2020, pp. 1037-1042, doi: 10.48550/arXiv.2003.00744. [Online]. Available: https://aclanthology.org/2020.findings-emnlp.92. [Accessed March 21, 2025].

    [9] P. Q. Long, T. H. P. Doan, L. H. Ngoc, and D. Tran, “Vietnamese Sentence Paraphrase Identification Using Sentence-BERT and PhoBERT,” in Intelligent Things and Technologies for an Green and Smart Environment (ITT-GSE 2022), 2022, pp. 416–423, doi: 10.1007/978-3-031-15063-0_40. [Accessed March 30, 2025].

    [10] S. Cao, H. Vo, L. T. T. Hang, and D. Dinh, “Hybrid approach for text similarity detection in Vietnamese based on Sentence-BERT and WordNet,” in Proceedings of the 4th International Conference on Information Technology and Computer Communications (ITCC '22), 2022, pp. 59–63, doi: 10.1145/3548636.3548645. [Accessed March 25, 2025].

    [11] V. D. T. Doan et al., “Dive into Deep Learning,” 2025. [Online]. Available: https://d2l.aivivn.com/ chapter_recurrent-neural-networks/text-preprocessing_vn.html. [Accessed Feb. 24, 2025].

    [12] J. Johnson, M. Douze, and H. Jégou, “Billion-scale similarity search with GPUs,” IEEE Transactions on Big Data, vol. 7, no. 3, pp. 535-547, 2019, doi: 10.1109/TBDATA.2019.2921276.

    [13] T. Gao, X. Yao, and D. Chen, “SimCSE: Simple Contrastive Learning of Sentence Embeddings,” in Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 2021, pp. 6894–6910, doi: 10.18653/v1/2021.emnlp-main.552.




DOI: https://doi.org/10.34238/tnu-jst.12516

Các bài báo tham chiếu

  • Hiện tại không có bài báo tham chiếu
Tạp chí Khoa học và Công nghệ - Đại học Thái Nguyên
Phòng 408, 409 - Tòa nhà Điều hành - Đại học Thái Nguyên
Phường Tân Thịnh - Thành phố Thái Nguyên
Điện thoại: 0208 3840 288 - E-mail: jst@tnu.edu.vn
Phát triển trên nền tảng Open Journal Systems
©2018 All Rights Reserved