1. 程式人生 > >Python識別影象中的文字

Python識別影象中的文字

按步驟……….
一步一步來
一、配置執行環境
1、安裝PIL:pip install Pillow
2、安裝pytesseract:pip install pytesseract
3、安裝Tesseract-OCR:https://github.com/UB-Mannheim/tesseract/wiki (進入網頁下載安裝包)
(1)安裝Tesseract-OCR可以直接使用傻瓜安裝法,但是在選擇語言那一步一定要選中文,不然會報錯
這裡寫圖片描述
(中文選項在最後一個選項裡,可以直接選擇最後一項全部安裝,非常耗時;也可以只選擇自己需要的幾種語言)
是不是覺得可以用了? 不!還得接著配置。
(2)、開啟原始碼
這裡寫圖片描述


(我用的是pycharm)
選中pytesseract,然後Ctrl+B進入它的*__init.py__檔案,接著選中pytesseract然後Ctrl+B
這裡寫圖片描述
修改檔案裡的路徑(以自己安裝的為主)
這裡寫圖片描述

(3)、這並沒有結束,來來來,我們接著配置:
設定環境變數 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata
(如何配置環境變數:此電腦右鍵=》屬性=》高階系統設定=》右下角“環境變數”)
這樣就算是安裝完成了,如果出錯了……………….那你重啟一下(可能是環境變數的原因)

終於大功告成
二、程式碼部分

#coding=utf-8
from PIL import Image
import pytesseract
Img = Image.open('output/3.jpg')
text=pytesseract.image_to_string(Img,lang='chi_sim')
print(text)

三、效果如下
個別字還是有錯~_~
這裡寫圖片描述