驗證碼圖片識別訓練記錄

阿新 • • 發佈：2018-12-06

環境:
作業系統: Windows 8.1中文版
tesseract： 4.00.00alpha

1.準備

(1)在工作目錄下建立font_properties檔案.內容為:

font 0 0 0 0 0

font_properties為字元配置檔案.

(2)儲存下面內容作為bat檔案(如t.bat),生成訓練資料檔案並複製到tesseract訓練資料檔案目錄.

程式碼來自網上，稍作了修改。

echo Run Tesseract for Training.. 
tesseract.exe %1.font.exp0.tif %1.font.exp0 -l eng -psm 7 nobatch box.train 

echo Compute the Character Set.. 
unicharset_extractor.exe %1.font.exp0.box 
rem shapeclustering -F font_properties -U unicharet %1.font.exp0.tr
mftraining -F font_properties -U unicharset -O %1.unicharset %1.font.exp0.tr 

echo Clustering.. 
cntraining.exe %1.font.exp0.tr 

echo Rename Files.. 
if exist %1.normproto del %1.normproto 
if exist %1.inttemp del %1.inttemp 
if exist %1.pffmtable del %1.pffmtable 
if exist %1.shapetable del %1.shapetable  
rename normproto %1.normproto 
rename inttemp %1.inttemp 
rename pffmtable %1.pffmtable 
rename shapetable %1.shapetable  

echo Create Tessdata.. 
combine_tessdata.exe %1. 

echo Copy Tessdata...
copy /Y %1.traineddata TESSDATA_PREFIX

echo. & pause

其中,安裝tesseract-ocr後的環境變數:

TESSDATA_PREFIX=E:\Program Files (x86)\Tesseract-OCR\tessdata

執行t.bat，需要提供語言名稱引數.如本訓練過程採用cbbs作為語言名稱.

2.訓練

(1)合併樣本檔案
用jTessBoxEditor合併樣本檔案(jpg).儲存為cbbs.font.exp0.tif

(2)生成BOX檔案

tesseract -psm 7 cbbs.font.exp0.tif cbbs.font.exp0 batch.nochop makebox

生成cbbs.font.exp0.box檔案

.必須有-psm 7引數,否則報"Empty page!!"資訊(與圖片特點有關)
.-psm 7位置不是任意的,如不能放到命令的尾部

(3)字元矯正
用jTessBoxEditor對合並樣本檔案進行矯正

(4)執行t.bat

t.bat cbbs

3.資料

如何訓練的官方資料

https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract-4.00

權威資料。但無法短時間內理解，而且是針對linux平臺。

圖片識別，訓練

https://www.cnblogs.com/cnlian/p/5765871.html

本文訓練的參照物件。

Windows下Tesseract4.0識別與中文手寫字型訓練

https://blog.csdn.net/dcrmg/article/details/78233459

若識別中文可參考。

附：問題

執行生成訓練資料過程的命令，出現過以下問題。

(1)tesseract.exe cbbs.font.exp0.tif cbbs.font.exp0 -l eng -psm 7 nobatch box.train

有提示資訊：

Page 15

Warning. Invalid resolution 1 dpi. Using 70 instead.

APPLY_BOXES:

   Boxes read from boxfile:       4

APPLY_BOXES: Unlabelled word at :Bounding box=(51,1)->(56,3)

APPLY_BOXES: Unlabelled word at :Bounding box=(82,0)->(96,28)

   Found 4 good blobs.

   Leaving 4 unlabelled blobs in 0 words.

   2 remaining unlabelled words deleted.

Generated training data for 1 words

關於APPLY_BOXES: Unlabelled word at :Bounding box=(51,1)->(56,3)的錯誤，找到了2篇文章。

但都不符。第15張圖片(從1開始),box並沒有離得太近，而且box檔案，(51,1)的座標都沒有找到。

有的建議廢棄這種圖片。

(2)mftraining -F font_properties -U unicharset -O cbbs.unicharset cbbs.font.exp0.tr

(2.1)很多下面的資訊：

Bad properties for index 32, char N: 0,255 0,255 0,0 0,0 0,0

(2.2)程式崩潰

Error: Illegal malloc request size!

"Fatal error encountered!" == NULL:Error:Assert failed:in file ../../../../ccuti

l/globaloc.cpp, line 75

在mftraining命令前執行下面的命令之後就不崩潰了：

shapeclustering -F font_properties -U unicharet cbbs.font.exp0.tr

雖然不崩潰，但執行此命令在手寫字元圖片識別的測試中根本無法識別。這個命令不能用。

去掉後沒有再生成異常，不知道是否和再次對字元矯正有關。

選用的圖片有的人工識別都不確定，實在看不清，以上2個問題，可能和圖片本身，矯正結果有關。

mftraining在以前的粗略測試中也曾出現過crash,當時可能是從box檔案刪除某些圖片解決的。

網上相關資料：

Tesseract OCR 詞庫訓練時一些錯誤的解決辦法

http://blog.sina.com.cn/s/blog_603cc5600102v3i2.html

Tesseract OCR training gives 'APPLY_BOXES' errors

https://stackoverflow.com/questions/13394807/tesseract-ocr-training-gives-apply-boxes-errors

tesseract訓練字元中遇到的問題總結

https://blog.csdn.net/wsbeibei/article/details/28632507

驗證碼圖片識別訓練記錄

環境: 作業系統: Windows 8.1中文版 tesseract： 4.00.00alpha 1.準備 (1)在工作目錄下建立font_properties檔案.內容為: font 0 0 0 0 0 font_properties為字元配置檔案. (2)儲存下面內容作為b

去噪：用於驗證碼圖片識別的類續（C#程式碼）

///<summary>/// 得到灰度影象前景背景的臨界值最大類間方差法，yuanbao,2007.08 ///</summary>///<returns>前景背景的臨界值</returns>publicint GetDgGrayValue()

用於驗證碼圖片識別的類續（C#程式碼）

1、如何設前景/背景的分界值 UnCodebase類中有一個GetPicValidByValue( int dgGrayValue) 函式，可以得到前景的有效區域，常有人問我前景/背景的分界值dgGrayValue是如何確定的（常用的是灰度128）。這個值的獲取是有數學演算法，叫最大類間方

Tensorflow例項3: 驗證碼圖片的識別訓練，每張圖片有4個字母

學習目標目標說明驗證碼識別的原理說明全連線層的輸出設定說明輸出結果的損失、準確率計算說明驗證碼標籤值的數字轉換應用tf.one_hot實現驗證碼目標值的one_hot編碼處理應用

Python 批量下載驗證碼圖片及切割驗證碼圖片，識別驗證碼，並以識別的文字重命令驗證碼

1、Python 批量下載驗證碼圖片 2、批量切割驗證碼圖片 3、識別驗證碼，並以識別的文字重命令驗證碼 #!C:/Python27 #coding=utf-8 import pytesseract from pytesser import * from PIL imp

Ocrking圖片識別之Java實現本地驗證碼的識別

本例項程式碼為Java實現本地驗證碼的識別依賴庫為 httpclient-4.2 使用最新的庫需要修改部分程式碼 Author: [email protected] //構造一個httpclient HttpClient client = new DefaultH

簡單圖片數字驗證碼的識別

由於近期工作的一些需要，研究了下驗證碼的自動識別方面的東西，同時參考了網上別人寫的一些程式和思路，這裡大概記一下，主要用於備忘。該方法只適用於字型統一規整的、沒有扭曲拉伸的簡單數字驗證碼的識別，形如這樣的圖片驗證碼，可以考慮採用類似的法來進行自動識別。演算法思路如

Python3.4---實戰專案-自動下載圖片驗證碼，並儲存到專門資料夾，使用圖片驗證碼庫識別，然後打印出來

Python3.4—實戰專案-自動下載圖片驗證碼，並儲存到專門資料夾，使用圖片驗證碼庫識別，然後打印出來 1、環境部署參考文章《使用Python識別圖片驗證碼》內容，製造好圖片驗證碼識別庫msweb1.dat 1.1、對圖片驗證碼隨時下載的URL地址

Web驗證碼圖片的生成-基於Java的實現

submit esc page resp ioe 代碼 oge cnblogs pro 驗證碼圖片是由程序動態產生的，每次訪問的內容都是隨機的。那麽如何采用程序動態產生圖片，並能夠顯示在客戶端頁面中呢？原理很簡單，對於java而言，我們首先開發一個Servlet，這個Se

C#實現登陸驗證碼圖片的動態生成

res pla brush rgb nal pub array ide try public ActionResult SecurityCode() { string oldcode = TempData["SecurityCode"] as string; strin

java生成驗證碼圖片

val ttr attribute cep 隨機字符串 sta random pragma rac public class AuthImg extends HttpServlet { /** * */ privat

java生成簡單驗證碼圖片

沒有 setfont red width public bre 成功 edi args 概要　　最近項目需要用java實現輸出隨機驗證碼圖片到前臺，正好有機會接觸下java的繪圖類，完成需求後也有時間做個總結，寫篇隨筆記錄下也希望能幫助到有同樣需求的人！需求流程圖１

使用php寫出一個驗證碼圖片，由於寬度被定死了，所以操作起來不太方便，之後盡量寫靈活，成為一個可調用的函數。

新手 put 由於 -type draw cat 驗證 font 寬度 <?php // Due to the height and width of the captcha image is fixed, not so easy to use, change

登錄（帶驗證碼圖片）小案例

this rgb equals param dex gre type size image 1 <%@ page contentType="text/html;charset=UTF-8" language="java" %> 2 <html&g

JAVA生成問答式驗證碼圖片，支持加減算法

idt case rate cas end setattr ons trace api 原文：http://liuguihua0823.iteye.com/blog/1511355 import java.awt.Color; import java.awt.Font

Thinkphp 3.2 驗證碼圖片顯示錯誤解決方法

try bsp () func class 問題其他解決方法 ont 在調用驗證碼之前加上 ob_clean(); 不顯示驗證碼的代碼： public function verify(){ $verify = new \Think\

前端生成驗證碼圖片utils

sta substr setfont som 生成 col height log etc <%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%

Python爬蟲實例動態ip+抓包+驗證碼自動識別

PE IT agent 也有 pass ttr timeout edi targe 　　最近出於某種不可描述的原因，需要爬一段數據，大概長這樣：　　　　是一個價格走勢圖，鼠標移到上面會顯示某個時刻的價格，需要爬下來日期和價格。　　第一步肯定先看源代碼，找到了這

【日常筆記】生成驗證碼圖片

check finally 字節數 ont sys rec colors eva eat public string MakeValidateCode() { char[] s = new char[] {‘0‘,

註冊帳號界面，驗證碼圖片出錯

from 碼代碼 str type t對象代碼 oserror internal 圖片出現情況: 　　註冊帳號界面，驗證碼圖片出錯　　瀏覽器報錯，GET http://127.0.0.1:8000/check_code.html 500 (Internal Serve

驗證碼圖片識別訓練記錄

1.準備

2.訓練

3.資料

附：問題

相關推薦