python使用tesseract-ocr完成驗證碼識別
阿新 • • 發佈:2018-11-05
一、 tesseract-ocr
- C++編寫,最開始由hp編寫,後來束之高閣,最後決定貢獻給google開源。
原始碼:https://github.com/tesseract-ocr/tesseract
2. 沒找到官方exe下載,非官方下載地址:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.00dev.exe
3. 安裝&配置
win10安裝,64位系統安裝:沒裝在預設路徑,安裝在D:\Tesseract-ocr\
- 注意64位系統安裝要修改預設地址,C:\Program Files 32位系統預設:C:\Program Files (x86)
- 配置環境變數:編輯path,新增D:\Tesseract-ocr\,新建系統變數:TESSDATA_PREFIX,值:D:\Tesseract-ocr\
- 檢視tesseract-ocr 是否安裝成功:tesseract -v ,失敗的原因多數是因為環境變數配置的問題
4. 安裝pytesseract:pip install pytesteract,很多參考資料都需要安裝pillow,安裝pytesseract後發現pillow已安裝。無需再裝
另外,有篇文章把不同os下的安裝總結了,資料:https://blog.csdn.net/blogliang/article/details/78185011?utm_source=blogxgwz0
注意 windows 64位OS引用image等庫時 需要寫成 from PIL import image,32位os直接寫import image
5. 圖片識別時還用到pylab: pylab 模組是一款由python提供的可以繪製二維,三維資料的工具模組,其中包括了繪圖軟體包 matplotlib,其可以生成 matab繪相簿的影象。但是在我們安裝了python後,預設狀態下並不包含pylab模組,所以我們要先安裝pylab模組。
安裝命令:pip install matplotlib