1. 程式人生 > >圖片提取文字

圖片提取文字

先上一張效果圖


程式碼:

from PIL import Image
import pytesseract

text=pytesseract.image_to_string(Image.open('timg.jpg'),lang='chi_sim')
print(text)

具體實現:

1.使用的庫有pillow(PIL的代替,PIL年久失修),pytesser,Tesseract OCR引擎。
pillow,pytesser都是python庫,可以通過pip下載。
pip install pytesseract
pip install pillow
Tesseract OCR引擎是一個exe檔案,下載後需要安裝,配置環境變數。
下載地址:http://download.csdn.net/download/l_lipo/10202168
包含了Tesseract OCR和需要的中文語音包。
下載後安裝,path中配置環境變數,D:\Learning Programs\Tesseract-OCR
配置TESSDATA_PREFIX變數,指向D:\Learning Programs\Tesseract-OCR\tessdata
把語言包放到tessdata資料夾中。
修改pytesser庫中pytesseract.py檔案,地址指向引擎執行檔案路徑。
import os
import sys
import subprocess
import 
tempfile import shlex # CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY tesseract_cmd = 'D:/Learning Programs/Tesseract-OCR/tesseract.exe'

至此,準備工作就做完了。

2.操作:

將圖片放在與py檔案平齊的目錄中,寫程式碼。執行即可

from PIL import Image
import pytesseract

text=pytesseract.image_to_string(Image.open('timg.jpg'
),lang='chi_sim') print(text)