centos下安裝tesseract方法
阿新 • • 發佈:2019-02-15
1.編譯安裝
a.編譯環境: gcc gcc-c++ make(這個環境一般機器都具備,可以忽略)
sudo yum install gcc gcc-c++ make
b.安裝tesseract-ocr編譯必須的包
sudo yum install autoconf automake libtool
c.增加影象解析需要的包,可以按照指定的格式選擇包
sudo yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel
2.安裝leptonica
wget http://www.leptonica.org/source/leptonica-1.73.tar.gz
tar zxvf leptonica-1.73.tar.gz
cd leptonica-1.73
./configure #注意:沒做configure之前是沒有Makefile檔案的,之後才生成的
make
sudo make install #預設安裝到了/usr/local/lib 下面,是一些靜態庫和動態庫檔案;標頭檔案預設位於/usr/local/include/leptonica
3.安裝Tesseract
sudo wget https://github.com/tesseract-ocr/tesseract/archive/3.04.00.tar.gz
mv 3.05.00.tar.gz Tesseract3.04.00.tar.gz
tar -zxvf Tesseract3.04.00.tar.gz
cd tesseract-3.04.0
./autogen.sh #用來生成configure檔案
./configure
make
sudo make install #預設安裝到 /usr/local/include、 /usr/local/lib 和 /usr/local/bin/ 下面
sudo ldconfig #這步操作別忘了
在 3.03 及以上版本中,用於訓練產生語言檔案的工具需要單獨編譯和安裝:
make training
sudo make training-install
4.下載字型庫
cd /usr/local/tesseract/share/tessdata
sudo wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddata
sudo wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata
sudo wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi_tra.traineddata
環境變數設定
vim ~/.bash_profile
export TESSDATA_PREFIX=/usr/local/share/tessdata/tessdata
export PATH=$PATH:$TESS_ROOT/bin
重啟雲伺服器
cd leptonica-1.73/tesseract-3.04.00/testing
命令列:
tesseract phototest.tif protest -l eng
輸出:
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Page 1
a.編譯環境: gcc gcc-c++ make(這個環境一般機器都具備,可以忽略)
sudo yum install gcc gcc-c++ make
b.安裝tesseract-ocr編譯必須的包
sudo yum install autoconf automake libtool
c.增加影象解析需要的包,可以按照指定的格式選擇包
sudo yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel
2.安裝leptonica
wget http://www.leptonica.org/source/leptonica-1.73.tar.gz
tar zxvf leptonica-1.73.tar.gz
cd leptonica-1.73
./configure #注意:沒做configure之前是沒有Makefile檔案的,之後才生成的
make
sudo make install #預設安裝到了/usr/local/lib 下面,是一些靜態庫和動態庫檔案;標頭檔案預設位於/usr/local/include/leptonica
3.安裝Tesseract
sudo wget https://github.com/tesseract-ocr/tesseract/archive/3.04.00.tar.gz
mv 3.05.00.tar.gz Tesseract3.04.00.tar.gz
tar -zxvf Tesseract3.04.00.tar.gz
cd tesseract-3.04.0
./autogen.sh #用來生成configure檔案
./configure
make
sudo make install #預設安裝到 /usr/local/include、 /usr/local/lib 和 /usr/local/bin/ 下面
sudo ldconfig #這步操作別忘了
在 3.03 及以上版本中,用於訓練產生語言檔案的工具需要單獨編譯和安裝:
make training
sudo make training-install
4.下載字型庫
cd /usr/local/tesseract/share/tessdata
sudo wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddata
sudo wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata
sudo wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi_tra.traineddata
環境變數設定
vim ~/.bash_profile
export TESSDATA_PREFIX=/usr/local/share/tessdata/tessdata
export PATH=$PATH:$TESS_ROOT/bin
重啟雲伺服器
cd leptonica-1.73/tesseract-3.04.00/testing
命令列:
tesseract phototest.tif protest -l eng
輸出:
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Page 1