1. 程式人生 > >幾款常用光學字元識別(OCR)軟體比較

幾款常用光學字元識別(OCR)軟體比較

常見的OCR識別軟體包括ABBYY FineReader、LEADTOOLS、Dynamsoft OCR SDK、Tesseract、ExperVisionTypeReader。

只要有掃描器和光學字元識別(OCR)軟體,將掃描文件轉換成Word文件是相當容易的。掃描器將紙質文件轉換成掃描影象,而光學字元識別(OCR)軟體則將所掃描的影象轉換成PDF和Word等可編輯和可搜尋的文件格式。在文件的轉換過程中,OCR軟體技術主要用來分析和比較帶有資料庫中所存字型的文件。雖然,OCR軟體的識別準確率不可能達到100%,但是一些OCR軟體包含拼寫檢查功能,可查出無法辨認的字。本文對多款常用OCR軟體的效能進行了多角度的對比,希望為使用者在選擇和使用OCR軟體時候提供一些實用性參考。

光學字元識別(OCR)軟體比較

名稱 支援平臺 程式語言 字型語言 輸出格式 備註
Tesseract Windows/MacOSX
/Linux
C++, C 40+ 文字,hOCR,其他 開源,支援中文
ExperVisionTypeReader

Windows/MacOSX
/Linux

C/C++ 21 hOCR 多次獲獎;不支援中文
ABBYY FineReader
Windows/MacOSX
/Linux
C/C++ 198 DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2 世界排名第一;識別精度達99%;
LEADTOOLS Windows/MacOSX
/Linux
C/C++, .NET, Objective-C, Java, JavaScript 56 PDF, PDF/A, DOC, DOCX, XLS, XPS, RTF, HTML, ANSI Text, Unicode Text, CSV 支援拉丁語, 亞洲語言,阿拉伯語,MICR字符集;支援整頁或者部分割槽域的OCR識別;
CuneiForm/OpenOCR Windows/MacOSX
/Linux
C/C++ 28 ? 企業級系統,可以儲存文字格式,並識別結構的複雜表格
Image to OCR Converter Windows C/C++, VB , .NET 40 PDF, Word, HTML, Text 讀取的影象格式和PDF檔案,並可以從照相機掃描影象
Dynamsoft OCR SDK Windows C/C++ 40+ PDF, TXT -
Puma.NET Windows C# 28 ? -