1. 程式人生 > >centos下安裝tesseract方法

centos下安裝tesseract方法

1.編譯安裝
    a.編譯環境: gcc gcc-c++ make(這個環境一般機器都具備,可以忽略) 
     sudo yum install gcc gcc-c++ make 
    b.安裝tesseract-ocr編譯必須的包
     sudo yum install autoconf automake libtool
    c.增加影象解析需要的包,可以按照指定的格式選擇包
     sudo yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel


2.安裝leptonica
wget http://www.leptonica.org/source/leptonica-1.73.tar.gz 
tar zxvf leptonica-1.73.tar.gz
cd leptonica-1.73
./configure     #注意:沒做configure之前是沒有Makefile檔案的,之後才生成的
make 
sudo make install    #預設安裝到了/usr/local/lib 下面,是一些靜態庫和動態庫檔案;標頭檔案預設位於/usr/local/include/leptonica


3.安裝Tesseract
sudo wget https://github.com/tesseract-ocr/tesseract/archive/3.04.00.tar.gz
mv 3.05.00.tar.gz  Tesseract3.04.00.tar.gz
tar -zxvf Tesseract3.04.00.tar.gz  
cd tesseract-3.04.0
./autogen.sh  #用來生成configure檔案
./configure 
make 
sudo make install     #預設安裝到 /usr/local/include、 /usr/local/lib 和 /usr/local/bin/ 下面
sudo ldconfig    #這步操作別忘了


在 3.03 及以上版本中,用於訓練產生語言檔案的工具需要單獨編譯和安裝:
make training
sudo make training-install


4.下載字型庫
cd /usr/local/tesseract/share/tessdata
sudo wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddata
sudo wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata 
sudo wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi_tra.traineddata 
  環境變數設定
vim ~/.bash_profile
export TESSDATA_PREFIX=/usr/local/share/tessdata/tessdata
export PATH=$PATH:$TESS_ROOT/bin

重啟雲伺服器
cd leptonica-1.73/tesseract-3.04.00/testing
 命令列:
tesseract phototest.tif protest -l eng
 輸出:
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Page 1