Thông tin phần mềm
Phát Hành:
VietOCR
Phiên bản:
3.4
Dung lượng:
5,67 MB
Bản quyền:
Miễn phí
Cập nhật:
01/08/2013
Nền tảng:
Windows XP/ Vista/ 7/ 8
Giới thiệu phần mềm   VietOCR.NET là một chương trình mã nguồn mở do người Việt phát triển. Có cùng khả năng nhận diện ký tự từ các loại dạng ảnh phổ thông. Chương trình còn có khả năng vận hành như một ứng dụng console, thi hành lệnh từ command line 2 phiên bản 1 sử dụng nền tảng .Net, 2 là sử dụng trên nền Java (Java Enviroment 6.0 trở lên). VietOCR.NET4 Dữ liệu ngôn ngữ Language cho Việt ngữAnh ngữ đã được gói kèm với chương trình. Data cho các ngôn ngữ khác có thể hạ tải từ Tesseract website và cần đặt vào tessdata folder. Lưu ý rằng language data files cho Tesseract 2.0x và 3.0 có định dạng khác nhau và không hoán đổi cho nhau được, vì vậy hãy hạ tải files tương thích với phiên bản Tesseract bạn có (2.0x, 3.0). Với việc chuyển đổi ký tự  từ hình ảnh sang văn bản thì sẽ tiết kiệm được nhiều thời gian gõ lại và tiện lợi trong việc thông báo lỗi trong sử dụng máy tính để copy lên google search tìm cách khăc phục 1 cách dễ dàng. Đặc điểm:
  • Các đinh dạng file hỗ trợ: pdf, jpg/jpeg, bmp, gif, png, tif/tiff.
  • Không giới hạn dung lượng file.
  • Bộ Vietnamese language data được tạo cho các font Times New Roman, Arial, Verdana, và Courier New. Do đó, việc nhận dạng sẽ có kết quả cao hơn cho các ảnh có font glyphs tương tự.
  • OCR ảnh có font glyph trông khác các font hỗ trợ thông thường sẽ đòi hỏi tập huấn Tesseract để tạo một bộ language data khác cụ thể cho những mặt chữ đó.
Cập nhật: Thêm language data đã được tạo cho các kiểu font cũ Việt Nam, VNI và TCVN3 (ABC). Chúng có thể được tải xuống qua submenu Tải dữ liệu ngôn ngữ. Hình ảnh muốn được OCR cần quét ở độ phân giải từ 200 DPI (dot per inch) trở lên tới 400 trong trắng đen hoặc grayscale. Quét ảnh với độ phân giải cao hơn nữa chưa hẳn sẽ tăng sự chính xác của kết quả nhận dạng. Hiện tại, mức chính xác có thể lên trên 97% cho Tiếng Việt (ảnh chuẩn), và phiên bản tới của Tesseract có thể nâng cao độ nhận dạng hơn nữa.Vì vậy, độ chính xác thực thụ vẫn còn tùy thuộc rất lớn vào phẩm chất của ảnh quét. Hướng dẫn chuyển đổi Sau khi cài đặt, bạn mở chưa trình lên, lựa chọn 1 bức ảnh có đoạn văn bản ở trong. Từ  giao diện ấn nút” Open” để lấy ảnh đưa vào chương trình. Cần lựa chọn định dạng để mở, làm theo hình. VietOCR.NET1 Tiếp tục ấn OCR để chương trình tiến scan( quét) để lấy ra văn bản. Còn lựa chọn OCR Languge theo ngôn ngữ “ Vietnamnes”. VietOCR.NET2 Khi đã quét xong toàn bộ dữ liệu văn bản, chúng ta có lưu lại dưới dạng văn bản Word. VietOCR.NET3 Khắc phục lỗi xảy ra:
  1.  Gom dòng. Các hàng chữ (line) cần được gom lại theo từng đoạn (paragraph), bởi khi được OCR, mỗi hàng chữ trở thành đoạn 1-hàng tách riêng. Dùng tính năng Nối dòng trong menu Định dạng. Lưu ý rằng tác vụ này có thể không cần cho thi thơ.
  2.  Cũng trong menu Định dạng, bấm Đổi ngữ cách và chọn Chữ hoa đầu câu để sửa gần như tất cả các lỗi chữ hoa-thường. Hãy dò tìm và sửa các lỗi hoa-thường còn sót.
  3. Sửa lỗi chính tả bằng công cụ Dò chính tả.
Chú ý: Tesseract 2.0x không hỗ trợ dàn trang, cho nên chỉ có thể nhận diện văn bản có một cột text. Tesseract 3.0x đã tích hợp tính phân tích dàn trang, hỗ trợ nhận dạng các văn bản có nhiều cột.

Tìm kiếm mới nhất:
  • phần mềm chuyển từ đọc sang ký tự
  • cách sử dụng glyphs trong word 2010
  • phần mềm quét chữ từ hình ảnh android
  • phan mem chuyen tu anh sang chu tieng viet
  • phần mềm chuyển hình ảnh thành văn bản tiếng việt
  • phan mem chuyen file pdf thanh van ban tieng viet
  • phần mềm chuyển ảnh sang ký tự
  • chuyển hình ảnh thành văn bản tiếng việt
  • chuyen hinh anh thanh van ban android
  • chuyen file anh sang van ban
Download phần mềm