1. 程式人生 > >ORC相關的庫介紹和應用

ORC相關的庫介紹和應用

fix 是個 圖像 blank info file 解壓 redirect 要去

將圖像翻譯成文字一般被稱為光學文字識別(Optical Character Recognition,OCR)

OCR庫:Pillow、Tesseract、NumPy

Pillow

Pillow可以對圖片進行預處理,比如圖片背景色不是純白,而是漸進色,那麽就可以利用Pillow進行預處理得到相對清晰的圖片來提供給Tesseract去識別。

Tesseract

Tesseract可以通過訓練識別出任何字體(要求字體風格保持不變)

安裝Tesseract

Tesseract不是python的庫,所以不是通過import的方式導入,而是需要去下載安裝,截至目前最新版本是 3.02.02。下載地址

簡體中文字庫文件下載地址為:http://download.csdn.net/detail/wanghui2008123/7621567

下載完成後解壓,然後將該文件剪切到tessdata目錄下去就可以了。字庫文件:chi_sim.traineddata

技術分享圖片

Tesseract默認安裝在C盤,默認安裝是不是會自動添加環境變量,我沒試。

我是安裝在F盤 F:\Program Files\Tesseract-OCR。安裝成功後,再去設置一下環境變量,把安裝的路勁加到環境變量裏就好了,或者執行指令:

#setx TESSDATA_PREFIX F:\Program Files\Tesseract OCR\

安裝的步驟我就不贅述了,安裝的過程中出現失敗的情況,沒有關系,繼續就OK。

接著去CMD指令界面中輸入:C:\Users\Administrator>tesseract

如果出現下面的結果,那就是安裝成功了!

技術分享圖片

為了驗證下是否能識別成功,我在D盤根目錄下放了一張圖片

技術分享圖片

然後在cmd指令界面中輸入如下指令:

C:\Users\Administrator>tesseract e:\img.jpg e:\img -l chi_sim

結果:(img默認是txt格式)

技術分享圖片

淚崩~

這識別是個什麽幾把玩意啊???不管識別的怎麽樣,人家也是識別了一部分不是?

NumPy

NumPy 並非解決OCR 問題時必須使用的庫,但是如果你想訓練Tesseract 識別,那麽就會用到它。NumPy 是一個非常強大的庫,具有大量線性代數以及大規模科學計算的方法。

ORC相關的庫介紹和應用