python呼叫pytesseract識別某網站的驗證碼(實戰專案)
阿新 • • 發佈:2018-12-21
一、首先安裝 tesseract-ocr-setup-4.00.00dev.exe
1.直接安裝
2.安裝完之後,將目錄檔案 配置到path中
3.新建一個系統變數,名稱為“ TESSDATA_PREFIX” 內容跟步驟二一樣的內容
二、配置完系統變數之後
1.執行cmd
2.輸入命令 tesseract.exe 1.png output -l eng (圖片為1.png)
3.那麼就會在當前路徑 輸出一個outinput的txt檔案了,檔案裡面的內容 就是識別出來的內容
三、安裝 PIL(Pillow-3.4.2-cp36-cp36m-win_amd64)
1.如果pip安裝不行的話 這裡下載地址分享給你們給你們
連結:https://pan.baidu.com/s/1_DOGYfVkx5u2pg73hP_hFA 提取碼:d25h
四、安裝 pytesseract
1.這個毫無疑問 直接 pip3 install pytesseract
五、最後 就是如何使用了
1.記住如果提示環境變數有問題 那就是因為你們建立那個叫做TESSDATA_PREFIX的系統變數,或者她對應的路徑錯誤
2.使用程式碼展示
import pytesseract from PIL import Image
code = pytesseract.image_to_string(Image.open(r"%s.png" %tel), lang='eng').replace(" ", "")
3.只要這三行程式碼,你就能得到 純數字驗證碼了(當然這個如果你需要識別中文或者其他的文字,需要下載啥補丁包)。