幾款常用光學字元識別(OCR)軟體比較
阿新 • • 發佈:2018-10-31
常見的OCR識別軟體包括ABBYY FineReader、LEADTOOLS、Dynamsoft OCR SDK、Tesseract、ExperVisionTypeReader。
只要有掃描器和光學字元識別(OCR)軟體,將掃描文件轉換成Word文件是相當容易的。掃描器將紙質文件轉換成掃描影象,而光學字元識別(OCR)軟體則將所掃描的影象轉換成PDF和Word等可編輯和可搜尋的文件格式。在文件的轉換過程中,OCR軟體技術主要用來分析和比較帶有資料庫中所存字型的文件。雖然,OCR軟體的識別準確率不可能達到100%,但是一些OCR軟體包含拼寫檢查功能,可查出無法辨認的字。本文對多款常用OCR軟體的效能進行了多角度的對比,希望為使用者在選擇和使用OCR軟體時候提供一些實用性參考。
光學字元識別(OCR)軟體比較
名稱 | 支援平臺 | 程式語言 | 字型語言 | 輸出格式 | 備註 |
Tesseract | Windows/MacOSX /Linux |
C++, C | 40+ | 文字,hOCR,其他 | 開源,支援中文 |
ExperVisionTypeReader | Windows/MacOSX |
C/C++ | 21 | hOCR | 多次獲獎;不支援中文 |
Windows/MacOSX /Linux |
C/C++ | 198 | DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2 | 世界排名第一;識別精度達99%; | |
LEADTOOLS | Windows/MacOSX /Linux |
C/C++, .NET, Objective-C, Java, JavaScript | 56 | PDF, PDF/A, DOC, DOCX, XLS, XPS, RTF, HTML, ANSI Text, Unicode Text, CSV | 支援拉丁語, 亞洲語言,阿拉伯語,MICR字符集;支援整頁或者部分割槽域的OCR識別; |
CuneiForm/OpenOCR | Windows/MacOSX /Linux |
C/C++ | 28 | ? | 企業級系統,可以儲存文字格式,並識別結構的複雜表格 |
Image to OCR Converter | Windows | C/C++, VB , .NET | 40 | PDF, Word, HTML, Text | 讀取的影象格式和PDF檔案,並可以從照相機掃描影象 |
Dynamsoft OCR SDK | Windows | C/C++ | 40+ | PDF, TXT | - |
Puma.NET | Windows | C# | 28 | ? | - |