1. 程式人生 > >6 個優秀的開源 OCR 光學字元識別工具

6 個優秀的開源 OCR 光學字元識別工具

紙張在許多地方已日益失寵,無紙化辦公談論40多年,辦公環境正限制紙山的生成。而過去幾年,無紙化辦公的概念發生了顯著的轉變。在計算機軟體的幫助 下,包含大量重要管理資料和資訊的文件可以更方便的以電子形式儲存。掃描文件的好處不純粹是存檔理由。為了訪問基於紙張的資訊和將資訊整合進數字工作流, 光學字元識別(OCR)技術至關重要。選擇正確的OCR工具要基於特定需求而定,例如線上OCR服務對某些人有用,但可能存在隱私問題和檔案大小限制。 OCR軟體非大眾產品,因此開源替代相對於商業級重量級產品相對較少,再加上OCR軟體需要先進的演算法將掃描的影象正確翻譯成實際的文字,而影象不僅僅含 有文字,它還包含佈局、圖形和表格,可能會跨越多頁。

優秀的開源OCR軟體包括:

原本由惠普開發的影象識別類庫tesseract-ocr已經更新到2.04, 就是最近Google支援的那個OCR。原先是惠普寫的,現在Open source了。

Ocropus的(TM)是一個先進的檔案分析和OCR系統,採用可插入的佈局分析,可插入的字元識別,自然語言統計建模和多語言支援功能。

Cuneiform 是一個 OCR 文字識別系統的商標,最開始是由Cognitive 技術所開發的執行在 Windows 下的軟體。而這個專案是該軟體在 Linux 系統下的移植版本。

GOCR

GOCR 是一個開源的OCR光學識別程式。

OCRFeeder 是 GNOME 桌面下的一個開源 OCR 套件。可將紙質或者圖形文件轉成電子文件。

Lios

linux-intelligent-ocr-solution (Lios) 是Linux下一個開源的 OCR 解決方案,可將列印的文件轉成可編輯的文字。