1. 程式人生 > >06《基於卷積神經網路LeNet-5的車牌字元識別研究》學習總結

06《基於卷積神經網路LeNet-5的車牌字元識別研究》學習總結

一、本篇介紹

篇名:基於卷積神經網路LeNet-5的車牌字元識別研究
作者:趙志巨集,楊紹普,馬增強
作者單位:北京交通大學 機械與電子控制工程學院
發表在:系統模擬學報,2010年3日#二、本文主要內容(知識點)

二、本文主要內容(知識點)

1、概要

車牌識別系統主要包括三個部分:車牌定位、字元分割與字元識別。本篇論文主要研究字元識別。
字元識別方法大致可以分為兩類:基於結構的方法和基於統計的方法。
基於結構的方法的優點是符合人的直覺,可以容易地處理區域性變換,其主要缺點是抗噪聲能力差。
基於統計的方法比較成熟,具有抗干擾、噪聲的能力,識別效能好,識別速度快的優點,它的難點是特徵提取,因此,在統計字元識別中,特徵提取的質量是影響系統性能的關鍵因素。
卷積神經網路較一般神經網路在影象處理方面具有如下優點:(1)輸入影象和網路的拓撲結構能很好的吻合;(2)特徵提取和模式分類同時進行;(3)權值共享可以減少網路的訓練引數,使神經網路結構變得更簡單,適應性更強。

2、卷積神經網路介紹

卷積神經網路避免了對影象的複雜前期預處理,可以直接輸入原始影象,因而得到了廣泛的應用。
卷積神經網路通過結合三個方法來實現識別位移、縮放和扭曲不變性:局域感受野、權值共享和次抽樣。

1.卷積層

在卷積層,前一層的特徵圖與一個可學習的核進行卷積,卷積的結果經過啟用函式後的輸出形成這一層的特徵圖。每一個輸出的特徵圖可能與前一層的幾個特徵圖的卷積建立關係。一般地,卷積層的形式如式(1)所示:
這裡寫圖片描述
其中,l代表層數,k是卷積核,Mj代表輸入特徵圖的一個選擇。每個輸出圖有一個偏置b。

2.次抽樣層

一個次抽樣層對輸入進行抽樣操作。如果輸入的特徵圖為n個,則經過次抽樣層後特徵圖的個數仍然為n,但是輸出的特徵圖要變小(例如,變為原來的一半)。次抽樣層的一般形式如式(2)所示:
這裡寫圖片描述


其中,down(·)表示次抽樣函式。次抽樣函式一般是對該層輸入影象的一個n×n大小的區域求和,因此,輸出影象的大小是輸入影象大小的1/n。每一個輸出的特徵圖有自己的β和b。

3、LeNet-5介紹

輸入影象要經過大小歸一化,每一個神經元的輸入來自於前一層的一個區域性鄰域,並被加上由一組權值決定的權重。提取的這些特徵在下一層結合形成更高一級的特徵。同一特徵圖的神經元共享相同的一組權值,次抽樣層對上一層進行平均。
LeNet-5包括輸入,由8層組成,每一層都包括可訓練的引數(權值) ,其中C層是由卷積層神經元組成的網路層,S層是由次抽樣層神經元組成的網路層。
第一層是輸入層,是32×32的影象。
第二層,網路層C1是由6個特徵圖組成的卷積層。每個神經元與輸入影象的一個5×5的鄰域相連線,因此每個特徵圖的大小是28×28。
第三層,網路層S2是由6個大小為14×14的特徵圖組成的次抽樣層,它是由C1層抽樣得到。特徵圖的每個神經元與C1層的一個大小為2×2的鄰域連線。
第四層,網路層C3是由16個大小為10×10的特徵圖組成的卷積層。特徵圖的每個神經元與S2網路層的若干個特徵圖的5×5的鄰域連線。
第五層,網路層S4是由16個大小為5×5的特徵圖組成的次抽樣層。特徵圖的每個神經元與C3層的一個2×2大小的鄰域相連線。
第六層,網路層C5是由120個特徵圖組成的卷積層。每個神經元與S4網路層的所有特徵圖的5×5大小的鄰域相連線。
第七層,網路層F6,包括84個神經元,與網路層C5進行全連線。
第八層,輸出層有10個神經元,是由徑向基函式單元(RBF)組成,輸出層的每個神經元對應一個字元類別。
RBF單元的輸出yi的計算方法如式(3)所示:
這裡寫圖片描述

4、對LeNet-5的改進

改變C5層特徵圖的個數。
C5層特徵圖個數對車牌字元識別率有直接影響,隨著C5層特徵圖個數的增加,車牌字元的識別率也有所提高。這說明,在類別數增加的情況下,增加C5層特徵圖的個數,可以提高LeNet-5卷積神經網路的分類能力。但當提高到一定程度後,再增加C5層特徵圖的數目,識別率將不再提高。

5、實驗的資料集

車牌影象經過定位,字元分割後,存入車牌字元資料庫,沒有對車牌影象進行去噪處理。為了應用卷積神經網路LeNet-5,所有的車牌字元都歸一化為32×32大小。
所用的車牌影象均由數碼相機在實際環境中獲取的解析度為640×480的真實車牌影象,收集到實際車牌影象資料共650個,利用其中的字元分別建立訓練資料集與測試資料集,訓練資料集與測試資料集之間沒有重疊。

6、實驗結果分析

隨著訓練次數的增加,訓練樣本與測試樣本的正確率都隨著增加。並且當訓練樣本集的正確率達到100%後,繼續訓練,測試樣本集的正確率仍然得到提高,基本不出現過訓練的情況。這體現了卷積神經網路良好的效能。
識別錯誤的38個車牌字元或者是由於預處理效果不好(字元分割的效果不理想),或者是由於噪聲的影響(在字元的關鍵地方有很強的噪聲),還有部分是由於傾斜的影響(傾斜角度很大)。識別錯誤的字元,可以通過有效的預處理過程來進一步減少。另外,可以通過擴大訓練字符集來進一步提高車牌字元識別的正確率。

三、具體創新

用CNN中的LeNet-5解決車牌字元識別問題,相比於傳統的機器學習,使用CNN可以大幅度提高準確率和減低資料預處理的難度,傳統的卷積神經網路LeNet-5的結構進行了改進,改進後的LeNet-5比傳統的LeNet-5識別率有所提高。

四、心得感想

對CNN的學習,本文雖然和車型識別沒關係,而且年份太早,但是本文的被引次數卻非常的高,證明這是一篇質量非常高的論文。
本文從一個車牌字元識別的領域入手,通過對一個現有的LeNet-5網路的改進,提高了識別率。

五、專業詞彙的學習

license plate character recognition 車牌字元識別

另:一些說明
1、本部落格僅用於學習交流,歡迎大家瞧瞧看看,為了方便大家學習,相關論文請去知網等地方自行下載。
2、如果原作者認為侵權,請及時聯絡我,我的qq是244509154,郵箱是[email protected],我會及時刪除侵權文章。
3、我的文章大家如果覺得對您有幫助或者您喜歡,請您在轉載的時候請註明來源,不管是我的還是其他原作者,我希望這些有用的文章的作者能被大家記住。
4、最後希望大家多多的交流,提高自己,從而對社會和自己創造更大的價值。