1. 程式人生 > >OCR文字識別軟件:數字信息化不可或缺的重要組成部分

OCR文字識別軟件:數字信息化不可或缺的重要組成部分

orien 生產 結果 復制粘貼 自學 文檔 能夠 字符 結構

OCR文字識別技術,是在國家“863”計劃國家自然科學基金長期支持下,清華大學電子工程系智能圖文信息處理研究室漢字識別研究工作的基礎上開發完成的。該軟件能夠快速地將印刷的文檔轉化為可供閱讀和可編輯的高質量電子文檔,進而將電子文檔應用到各類數據庫、電子出版物、數字圖書館、網絡資源等新型資源的建設和再版圖書生產中,是行業數字信息化不可或缺的重要組成部分。

技術分享

主要功能模塊

OCR文字識別軟件識別核心

OCR文字識別軟件內置高性能文字識別引擎,中文識別率達99.8%以上。英文、日文、韓文的識別率居世界領先水平。

技術分享

OCR文字識別軟件UNICODE編碼

OCR文字識別軟件采用UNICODE國際編碼標準。系統可在一個統一的平臺下,同時處理包括中文、日文、韓文、英文在內的多種文字的識別和校對修改。

OCR文字識別軟件XML技術

OCR文字識別軟件系統基於開放式的XML數據結構,可以對數據進行擴充和再定義。支持第三方開發廠商方便地進行文檔數據的轉換、遷移和再利用。

OCR文字識別軟件版面還原

OCR文字識別軟件強大的版面還原技術,可將識別後的報刊、雜誌、圖書等多種形式的文檔,通過還原字體、字號、版面位置、字體顏色等信息以原版原式呈現在讀者面前,最終生成優質的全息PDF文檔。

技術分享

OCR文字識別軟件集字校對

集字校對是OCR文字識別軟件特有的文字校對技術,該技術打破了傳統校對工具圖像與識別結果文本比對顯示的模式,將多篇文檔中所有識別結果相同的字符圖像集中呈現在一個視圖中,給校對人員強烈的視覺沖擊,讓錯字自動“跳”入校對人員的眼中,避免了校對人員因陷入文檔的上下文語境而產生視覺疲勞,引起的校對準確率下降。同時,由於常用漢字集中在3000-4000個左右,面對海量文字的校對時,不會因文字量的上升帶來相應的校對量的上升,仍只需校對這幾千個不同的漢字,明顯提高工作效率。

技術分享

OCR文字識別軟件自學習功能

OCR文字識別軟件針對古籍、科研等特殊領域文檔中經常出現的特殊文字,即使不在國家標準範圍以內或者TH-OCR字庫中並沒有支持,用戶也可通過自學習功能,將這些文字的圖像學習進入系統,使得調整後的核心可以支持這些文字的識別。

OCR文字識別軟件雙層PDF批量制作功能

OCR文字識別軟件可以實現圖像文件到PDF文件的自動轉換,生成的PDF文件能夠實現全文檢索,可以復制粘貼,也可以對某個指定目錄進行長期監視,真正實現無人操作。

技術交流:18701686857 QQ:283870550

OCR文字識別軟件:數字信息化不可或缺的重要組成部分