NÂNG CAO ĐỘ CHÍNH XÁC TRONG NHẬN DẠNG CHỮ VIỆT ĐỨT, DÍNH | Tân | TNU Journal of Science and Technology

NÂNG CAO ĐỘ CHÍNH XÁC TRONG NHẬN DẠNG CHỮ VIỆT ĐỨT, DÍNH

Thông tin bài báo

Ngày đăng: 05/03/18

Các tác giả

Nguyễn Thị Thanh Tân Email to author, Trường Đại học Điện Lực

Tóm tắt


Bài báo này đề xuất một giải pháp hiệu quả  nhằm nâng cao độ chính xác nhận dạng các văn bản tiếng Việt chứa nhiều ký tự bị đứt, dính. Ý tưởng cơ bản của phương pháp đề xuất dựa trên việc tối ưu quá trình nhận dạng trên từng dòng văn bản, trong đó tập trung vào 3 công đoạn chính: (i) Tăng cường độ chính xác nhận dạng ký tự; (ii) Xây dựng tập lát cắt ứng cử viên rút gọn;  (iii) Tối ưu hóa quá trình tìm kiếm lời giải tốt từ tập ứng cử viên. Phương pháp này đã được thử nghiệm trên ba tập dữ liệu tiếng Việt được thu thập từ thực tế với tổng số 15270 dòng văn bản, đa dạng về số lượng, chất lượng và kiểu font chữ. Kết quả thực nghiệm cho thấy phương pháp này có độ chính xác cao và ổn định trên các tập dữ liệu thử nghiệm và hoàn toàn có khả năng ứng dụng để nhận dạng những văn bản đầu vào có chất lượng xấu.


Từ khóa


Thành phần liên thông; đoạn ảnh chữ; ký tự bị đứt, dính; lát cắt ứng cử viên rút gọn; cắt nhỏ; lát cắt sai; lát cắt nghi ngờ; nhận dạng; phân lớp;độ tin cậy; qui hoạch động; mạng nơron; học sâu; Convolutional Neural Networks; Convolutions; pooling; subsam

Toàn văn:

PDF

Các bài báo tham chiếu

  • Hiện tại không có bài báo tham chiếu
Tạp chí Khoa học và Công nghệ - Đại học Thái Nguyên
Phòng 408, 409 - Tòa nhà Điều hành - Đại học Thái Nguyên
Phường Tân Thịnh - Thành phố Thái Nguyên
Điện thoại: 0208 3840 288 - E-mail: jst@tnu.edu.vn
Phát triển trên nền tảng Open Journal Systems
©2018 All Rights Reserved