VietOCR.NET – Chuyển ký tự trong hình ảnh sang văn bản Tiếng Việt

VietOCR.NET là một chương trình mã nguồn mở do người Việt phát triển. Có cùng khả năng nhận diện ký tự từ các loại dạng ảnh phổ thông. Chương trình còn có khả năng vận hành như một ứng dụng console, thi hành lệnh từ command line 2 phiên bản 1 sử dụng nền tảng .Net, 2 là sử dụng trên nền Java (Java Enviroment 6.0 trở lên).

VietOCR.NET4

Dữ liệu ngôn ngữ Language cho Việt ngữAnh ngữ đã được gói kèm với chương trình. Data cho các ngôn ngữ khác có thể hạ tải từ Tesseract website và cần đặt vào tessdata folder. Lưu ý rằng language data files cho Tesseract 2.0x và 3.0 có định dạng khác nhau và không hoán đổi cho nhau được, vì vậy hãy hạ tải files tương thích với phiên bản Tesseract bạn có (2.0x, 3.0).

Với việc chuyển đổi ký tự  từ hình ảnh sang văn bản thì sẽ tiết kiệm được nhiều thời gian gõ lại và tiện lợi trong việc thông báo lỗi trong sử dụng máy tính để copy lên google search tìm cách khăc phục 1 cách dễ dàng.

Đặc điểm:

  • Các đinh dạng file hỗ trợ: pdf, jpg/jpeg, bmp, gif, png, tif/tiff.
  • Không giới hạn dung lượng file.
  • Bộ Vietnamese language data được tạo cho các font Times New Roman, Arial, Verdana, và Courier New. Do đó, việc nhận dạng sẽ có kết quả cao hơn cho các ảnh có font glyphs tương tự.
  • OCR ảnh có font glyph trông khác các font hỗ trợ thông thường sẽ đòi hỏi tập huấn Tesseract để tạo một bộ language data khác cụ thể cho những mặt chữ đó.

Cập nhật: Thêm language data đã được tạo cho các kiểu font cũ Việt Nam, VNI và TCVN3 (ABC). Chúng có thể được tải xuống qua submenu Tải dữ liệu ngôn ngữ.

Hình ảnh muốn được OCR cần quét ở độ phân giải từ 200 DPI (dot per inch) trở lên tới 400 trong trắng đen hoặc grayscale. Quét ảnh với độ phân giải cao hơn nữa chưa hẳn sẽ tăng sự chính xác của kết quả nhận dạng. Hiện tại, mức chính xác có thể lên trên 97% cho Tiếng Việt (ảnh chuẩn), và phiên bản tới của Tesseract có thể nâng cao độ nhận dạng hơn nữa.Vì vậy, độ chính xác thực thụ vẫn còn tùy thuộc rất lớn vào phẩm chất của ảnh quét.

Hướng dẫn chuyển đổi

Sau khi cài đặt, bạn mở chưa trình lên, lựa chọn 1 bức ảnh có đoạn văn bản ở trong.

Từ  giao diện ấn nút” Open” để lấy ảnh đưa vào chương trình. Cần lựa chọn định dạng để mở, làm theo hình.

VietOCR.NET1

Tiếp tục ấn OCR để chương trình tiến scan( quét) để lấy ra văn bản. Còn lựa chọn OCR Languge theo ngôn ngữ “ Vietnamnes”.

VietOCR.NET2

Khi đã quét xong toàn bộ dữ liệu văn bản, chúng ta có lưu lại dưới dạng văn bản Word.

VietOCR.NET3

Khắc phục lỗi xảy ra:

  1.  Gom dòng. Các hàng chữ (line) cần được gom lại theo từng đoạn (paragraph), bởi khi được OCR, mỗi hàng chữ trở thành đoạn 1-hàng tách riêng. Dùng tính năng Nối dòng trong menu Định dạng. Lưu ý rằng tác vụ này có thể không cần cho thi thơ.
  2.  Cũng trong menu Định dạng, bấm Đổi ngữ cách và chọn Chữ hoa đầu câu để sửa gần như tất cả các lỗi chữ hoa-thường. Hãy dò tìm và sửa các lỗi hoa-thường còn sót.
  3. Sửa lỗi chính tả bằng công cụ Dò chính tả.

Chú ý:
Tesseract 2.0x không hỗ trợ dàn trang, cho nên chỉ có thể nhận diện văn bản có một cột text. Tesseract 3.0x đã tích hợp tính phân tích dàn trang, hỗ trợ nhận dạng các văn bản có nhiều cột.

Leave a Reply