NÂNG CAO ĐỘ CHÍNH XÁC TRONG NHẬN DẠNG CHỮ VIỆT ĐỨT, DÍNH
Thông tin bài báo
Ngày đăng: 05/03/18Tóm tắt
Bài báo này đề xuất một giải pháp hiệu quả nhằm nâng cao độ chính xác nhận dạng các văn bản tiếng Việt chứa nhiều ký tự bị đứt, dính. Ý tưởng cơ bản của phương pháp đề xuất dựa trên việc tối ưu quá trình nhận dạng trên từng dòng văn bản, trong đó tập trung vào 3 công đoạn chính: (i) Tăng cường độ chính xác nhận dạng ký tự; (ii) Xây dựng tập lát cắt ứng cử viên rút gọn; (iii) Tối ưu hóa quá trình tìm kiếm lời giải tốt từ tập ứng cử viên. Phương pháp này đã được thử nghiệm trên ba tập dữ liệu tiếng Việt được thu thập từ thực tế với tổng số 15270 dòng văn bản, đa dạng về số lượng, chất lượng và kiểu font chữ. Kết quả thực nghiệm cho thấy phương pháp này có độ chính xác cao và ổn định trên các tập dữ liệu thử nghiệm và hoàn toàn có khả năng ứng dụng để nhận dạng những văn bản đầu vào có chất lượng xấu.
Từ khóa
Toàn văn:
PDFCác bài báo tham chiếu
- Hiện tại không có bài báo tham chiếu





