ỨNG DỤNG MÔ HÌNH BERT CHO BÀI TOÁN PHÂN LOẠI HỒ SƠ THEO THỜI HẠN BẢO QUẢN | Sáu | TNU Journal of Science and Technology

ỨNG DỤNG MÔ HÌNH BERT CHO BÀI TOÁN PHÂN LOẠI HỒ SƠ THEO THỜI HẠN BẢO QUẢN

Thông tin bài báo

Ngày nhận bài: 06/02/21                Ngày hoàn thiện: 19/04/21                Ngày đăng: 04/05/21

Các tác giả

1. Tôn Nữ Thị Sáu Email to author, Phân hiệu Trường Đại học Nội vụ Hà Nội tại TP. Hồ Chí Minh
2. Trần Quốc Toanh, Phân hiệu Trường Đại học Nội vụ Hà Nội tại TP. Hồ Chí Minh

Tóm tắt


Công tác lưu trữ hồ sơ tại các cơ quan, tổ chức có thẩm quyền là một vấn đề cần thiết trong việc quản lý và tổ chức bảo quản tài liệu. Tuy nhiên, hiện nay với số lượng hồ sơ lưu trữ ngày càng nhiều và có nhiều loại văn bản quy định lưu trữ khác nhau dẫn đến việc tình trạng quá tải tài liệu trong quá trình lưu trữ. Do đó, việc phân loại hồ sơ theo thời hạn bảo quản là một công đoạn rất quan trọng trong việc bảo quản, góp phần tối ưu hóa thành phần trong các phòng lưu trữ, tiết kiệm chi phí bảo quản tài liệu. Để góp phần giải quyết được vấn đề trên, trong bài báo này, chúng tôi trình bày nghiên cứu đánh giá sự hiệu quả của mô hình BERT so sánh với các thuật toán máy học truyền thống và mô hình học sâu trên các bộ dữ liệu thực tế hồ sơ lưu trữ theo thời hạn bảo quản ở các cơ quan. Kết quả nghiên cứu cho thấy rằng, mô hình BERT đạt kết quả tốt nhất với độ chính xác là 93,10%, độ phủ là 90,68% và độ đo F1 là 91,49%. Kết quả này cho thấy rằng, mô hình BERT có thể được áp dụng để xây dựng các hệ thống hỗ trợ phân loại hồ sơ theo thời hạn bảo quản là hoàn toàn khả thi.

Từ khóa


Kiến trúc BERT; Máy học; Học sâu; Phân loại hồ sơ; Phân loại văn bản

Toàn văn:

PDF

Tài liệu tham khảo


[1] N. V. Ket, “Clerical - archive 4.0”: premise, scientific - legal basis and basic features,” Proceedings of scientific seminars: Management and confidentiality of electronic documents in the context of the industrial revolution 4.0: Current situation - Solutions, HCM City National University Publisher, 2018, pp. 41-52.

[2] H. Q. Cuong, “Identify documents archived during the operation of the commune-level government in Ho Chi Minh City,” Master thesis, Ho Chi Minh City University of Science and Humanities, 2017.

[3] N. T. T. Huong and D. M. Trung, “Applying the random forest classification algorithm to develop land cover map of Dak Lak based on 8-olive landsat satellite image,” Journal of Agriculture and Rural Development, vol. 13, pp. 122-129, 2018.

[4] T. C. De and P. N. Khang, “Text classification with Support Vector Machine and Decision Tree,” Can Tho University Journal of Science, vol. 21a, pp. 52–63, 2012.

[5] D. T. Thanh, N. Thai-Nghe, and T. Thanh, “Solutions to classify scientific articles by machine learning,” Can Tho University Journal of Science, vol. 55, pp. 29-37, 2019.

[6] T. N. T. Sau, D. V. Thin, and N. L. T Nguyen, “Classification of file names in Vietnamese according to the preservation period,” The conference on Information Technology and Its Applications, 2019, pp. 198-206.

[7] S. Xu, “Bayesian naıve bayes classifiers to text classification,” Journal of Information Science, vol. 44, no. 1, pp. 48-59, 2018.

[8] Y. Kim, “Convolutional neural networks for sentence classification,” Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014, pp. 1746-1751.

[9] K. Kowsari, D. E. Brown, M. Heidarysafa, K. J. Meimandi, M. S. Gerber, and L. E. Barnes, “Hdltex: Hierarchical deep learning for text classification,” Conference on machine learning and applications (ICMLA), 2017, pp. 364-371.

[10] K. Kowsari, M. Heidarysafa, D. E. Brown, K. J. Meimandi, and L. E. Barnes, “Rmdl: Random multimodel deep learning for classification,” International Conference on Information System and Data Mining, 2018, pp. 19-28.

[11] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “Bert: Pre-training of deep bidirectional transformers for language understanding”, arXiv preprint arXiv:1810.04805, 2018.

[12] P. T. Ha and N. Q. Chi, “Automatic classification for vietnamese news,” Advances in Computer Science: an International Journal, vol. 4, no. 4, pp. 126-132, 2015.

[13] N. T. Hai, N. H. Nghia, T. D. Le, and V. T. Nguyen, “A hybrid feature selection method for vietnamese text classification,” Conference on Knowledge and Systems Engineering (KSE), IEEE, 2015, pp. 91-96.

[14] P. Le-Hong and A.-C. Le, “A comparative study of neural network models for sentence classification,” 5th NAFOSTED Conference on Information and Computer Science (NICS), IEEE, 2018, pp. 360-365.

[15] K. D. T. Nguyen, A. P. Viet, and T. H. Hoang, “Vietnamese document classification using hierarchical attention networks,” Frontiers in Intelligent Computing: Theory and Applications, Springer, 2020, pp. 120-130.

[16] D. Q. Nguyen and A. T. Nguyen, “PhoBERT: Pre-trained language models for Vietnamese”, arXiv preprint, vol. arXiv:2003.00744, 2020.

[17] T. Vu, D. Q. Nguyen, D. Q. Nguyen, M. Dras, and M. Johnson, “VnCoreNLP: A Vietnamese natural language processing toolkit,” Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics, Jun. 2018, pp. 56-60.

[18] S. Hochreiter and J. Schmidhuber, “Long short-term memory,” Neural computation, vol. 9, no. 8, pp. 1735-1780, 1997.




DOI: https://doi.org/10.34238/tnu-jst.3990

Các bài báo tham chiếu

  • Hiện tại không có bài báo tham chiếu
Tạp chí Khoa học và Công nghệ - Đại học Thái Nguyên
Phòng 408, 409 - Tòa nhà Điều hành - Đại học Thái Nguyên
Phường Tân Thịnh - Thành phố Thái Nguyên
Điện thoại: 0208 3840 288 - E-mail: jst@tnu.edu.vn
Phát triển trên nền tảng Open Journal Systems
©2018 All Rights Reserved