1. 程式人生 > >python呼叫pytesseract識別某網站的驗證碼(實戰專案)

python呼叫pytesseract識別某網站的驗證碼(實戰專案)

一、首先安裝 tesseract-ocr-setup-4.00.00dev.exe

1.直接安裝

2.安裝完之後,將目錄檔案 配置到path中

3.新建一個系統變數,名稱為“ TESSDATA_PREFIX”  內容跟步驟二一樣的內容

二、配置完系統變數之後

1.執行cmd

2.輸入命令 tesseract.exe 1.png output -l eng  (圖片為1.png)

3.那麼就會在當前路徑 輸出一個outinput的txt檔案了,檔案裡面的內容 就是識別出來的內容  

三、安裝 PIL(Pillow-3.4.2-cp36-cp36m-win_amd64)

1.如果pip安裝不行的話 這裡下載地址分享給你們給你們

連結:https://pan.baidu.com/s/1_DOGYfVkx5u2pg73hP_hFA  提取碼:d25h 

四、安裝 pytesseract

1.這個毫無疑問 直接 pip3 install pytesseract

五、最後 就是如何使用了

1.記住如果提示環境變數有問題  那就是因為你們建立那個叫做TESSDATA_PREFIX的系統變數,或者她對應的路徑錯誤

2.使用程式碼展示

import pytesseract
from PIL import Image
code = pytesseract.image_to_string(Image.open(r"%s.png" %tel), lang='eng').replace(" ", "")

3.只要這三行程式碼,你就能得到 純數字驗證碼了(當然這個如果你需要識別中文或者其他的文字,需要下載啥補丁包)。