1. 程式人生 > >python使用tesseract-ocr完成驗證碼識別

python使用tesseract-ocr完成驗證碼識別

一、 tesseract-ocr

  1.    C++編寫,最開始由hp編寫,後來束之高閣,最後決定貢獻給google開源。

     原始碼:https://github.com/tesseract-ocr/tesseract

      2.  沒找到官方exe下載,非官方下載地址:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.00dev.exe 

      3.  安裝&配置

        win10安裝,64位系統安裝:沒裝在預設路徑,安裝在D:\Tesseract-ocr\

  •         注意64位系統安裝要修改預設地址,C:\Program Files 32位系統預設:C:\Program Files (x86)
  •         配置環境變數:編輯path,新增D:\Tesseract-ocr\,新建系統變數:TESSDATA_PREFIX,值:D:\Tesseract-ocr\
  •         檢視tesseract-ocr 是否安裝成功:tesseract -v ,失敗的原因多數是因為環境變數配置的問題   

       4.  安裝pytesseract:pip install pytesteract,很多參考資料都需要安裝pillow,安裝pytesseract後發現pillow已安裝。無需再裝

           另外,有篇文章把不同os下的安裝總結了,資料:https://blog.csdn.net/blogliang/article/details/78185011?utm_source=blogxgwz0

           注意 windows 64位OS引用image等庫時 需要寫成 from PIL import image,32位os直接寫import image

       5.  圖片識別時還用到pylab: pylab 模組是一款由python提供的可以繪製二維,三維資料的工具模組,其中包括了繪圖軟體包 matplotlib,其可以生成 matab繪相簿的影象。但是在我們安裝了python後,預設狀態下並不包含pylab模組,所以我們要先安裝pylab模組。

           安裝命令:pip install matplotlib