1. 程式人生 > >CRNN論文翻譯——中文版

CRNN論文翻譯——中文版

An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

摘要

基於影象的序列識別一直是計算機視覺中長期存在的研究課題。在本文中,我們研究了場景文字識別的問題,這是基於影象的序列識別中最重要和最具挑戰性的任務之一。提出了一種將特徵提取,序列建模和轉錄整合到統一框架中的新型神經網路架構。與以前的場景文字識別系統相比,所提出的架構具有四個不同的特性:(1)與大多數現有的元件需要單獨訓練和協調的演算法相比,它是端對端訓練的。(2)它自然地處理任意長度的序列,不涉及字元分割或水平尺度歸一化。(3)它不僅限於任何預定義的詞彙,並且在無詞典和基於詞典的場景文字識別任務中都取得了顯著的表現。(4)它產生了一個有效而小得多的模型,這對於現實世界的應用場景更為實用。在包括IIIT-5K,Street View Text和ICDAR資料集在內的標準基準資料集上的實驗證明了提出的演算法比現有的技術更有優勢。此外,提出的演算法在基於影象的音樂樂譜識別任務中表現良好,這顯然證實了它的泛化性。

1. 引言

最近,社群已經看到神經網路的強大復興,這主要受到深度神經網路模型,特別是深度卷積神經網路(DCNN)在各種視覺任務中的巨大成功的推動。然而,最近大多數與深度神經網路相關的工作主要致力於檢測或分類物件類別[12,25]。在本文中,我們關注計算機視覺中的一個經典問題:基於影象的序列識別。在現實世界中,穩定的視覺物件,如場景文字,手寫字元和樂譜,往往以序列的形式出現,而不是孤立地出現。與一般的物件識別不同,識別這樣的類序列物件通常需要系統預測一系列物件標籤,而不是單個標籤。因此,可以自然地將這樣的物件的識別作為序列識別問題。類序列物件的另一個獨特之處在於它們的長度可能會有很大變化。例如,英文單詞可以由2個字元組成,如“OK”,或由15個字元組成,如“congratulations”。因此,最流行的深度模型像DCNN[25,26]不能直接應用於序列預測,因為DCNN模型通常對具有固定維度的輸入和輸出進行操作,因此不能產生可變長度的標籤序列。

已經針對特定的類似序列的物件(例如場景文字)進行了一些嘗試來解決該問題。例如,[35,8]中的演算法首先檢測單個字元,然後用DCNN模型識別這些檢測到的字元,並使用標註的字元影象進行訓練。這些方法通常需要訓練強字元檢測器,以便從原始單詞影象中準確地檢測和裁剪每個字元。一些其他方法(如[22])將場景文字識別視為影象分類問題,併為每個英文單詞(總共9萬個詞)分配一個類標籤。結果是一個大的訓練模型中有很多類,這很難泛化到其它型別的類序列物件,如中文文字,音樂配樂等,因為這種序列的基本組合數目可能大於100萬。總之,目前基於DCNN的系統不能直接用於基於影象的序列識別。

迴圈神經網路(RNN)模型是深度神經網路家族中的另一個重要分支,主要是設計來處理序列。RNN的優點之一是在訓練和測試中不需要序列目標影象中每個元素的位置。然而,將輸入目標影象轉換成影象特徵序列的預處理步驟通常是必需的。例如,Graves等[16]從手寫文字中提取一系列幾何或影象特徵,而Su和Lu[33]將字元影象轉換為序列HOG特徵。預處理步驟獨立於流程中的後續元件,因此基於RNN的現有系統不能以端到端的方式進行訓練和優化。

一些不是基於神經網路的傳統場景文字識別方法也為這一領域帶來了有見地的想法和新穎的表現。例如,Almaza`n等人[5]和Rodriguez-Serrano等人[30]提出將單詞影象和文字字串嵌入到公共向量子空間中,並將詞識別轉換為檢索問題。Yao等人[36]和Gordo等人[14]使用中層特徵進行場景文字識別。雖然在標準基準資料集上取得了有效的效能,但是前面的基於神經網路的演算法[8,22]以及本文提出的方法通常都優於這些方法。

本文的主要貢獻是一種新穎的神經網路模型,其網路架構設計專門用於識別影象中的類序列物件。所提出的神經網路模型被稱為卷積迴圈神經網路(CRNN),因為它是DCNN和RNN的組合。對於類序列物件,CRNN與傳統神經網路模型相比具有一些獨特的優點:1)可以直接從序列標籤(例如單詞)學習,不需要詳細的標註(例如字元);2)直接從影象資料學習資訊表示時具有與DCNN相同的性質,既不需要手工特徵也不需要預處理步驟,包括二值化/分割,元件定位等;3)具有與RNN相同的性質,能夠產生一系列標籤;4)對類序列物件的長度無約束,只需要在訓練階段和測試階段對高度進行歸一化;5)與現有技術相比,它在場景文字(字識別)上獲得更好或更具競爭力的表現[23,8]。6)它比標準DCNN模型包含的引數要少得多,佔用更少的儲存空間。

2. 提出的網路架構

如圖1所示,CRNN的網路架構由三部分組成,包括卷積層,迴圈層和轉錄層,從底向上。

Figure 1

圖1。網路架構。架構包括三部分:1) 卷積層,從輸入影象中提取特徵序列;2) 迴圈層,預測每一幀的標籤分佈;3) 轉錄層,將每一幀的預測變為最終的標籤序列。

在CRNN的底部,卷積層自動從每個輸入影象中提取特徵序列。在卷積網路之上,構建了一個迴圈網路,用於對卷積層輸出的特徵序列的每一幀進行預測。採用CRNN頂部的轉錄層將迴圈層的每幀預測轉化為標籤序列。雖然CRNN由不同型別的網路架構(如CNN和RNN)組成,但可以通過一個損失函式進行聯合訓練。

2.1. 特徵序列提取

在CRNN模型中,通過採用標準CNN模型(去除全連線層)中的卷積層和最大池化層來構造卷積層的元件。這樣的元件用於從輸入影象中提取序列特徵表示。在進入網路之前,所有的影象需要縮放到相同的高度。然後從卷積層元件產生的特徵圖中提取特徵向量序列,這些特徵向量序列作為迴圈層的輸入。具體地,特徵序列的每一個特徵向量在特徵圖上按列從左到右生成。這意味著第i個特徵向量是所有特徵圖第i列的連線。在我們的設定中每列的寬度固定為單個畫素。

由於卷積層,最大池化層和元素啟用函式在區域性區域上執行,因此它們是平移不變的。因此,特徵圖的每列對應於原始影象的一個矩形區域(稱為感受野),並且這些矩形區域與特徵圖上從左到右的相應列具有相同的順序。如圖2所示,特徵序列中的每個向量關聯一個感受野,並且可以被認為是該區域的影象描述符。

Figure 2

圖2。感受野。提取的特徵序列中的每一個向量關聯輸入影象的一個感受野,可認為是該區域的特徵向量。

2.2. 序列標註

一個深度雙向迴圈神經網路是建立在卷積層的頂部,作為迴圈層。迴圈層預測特徵序列中每一幀的標籤分佈。迴圈層的優點是三重的。首先,RNN具有很強的捕獲序列內上下文資訊的能力。對於基於影象的序列識別使用上下文提示比獨立處理每個符號更穩定且更有幫助。以場景文字識別為例,寬字元可能需要一些連續的幀來完全描述(參見圖2)。此外,一些模糊的字元在觀察其上下文時更容易區分,例如,通過對比字元高度更容易識別“il”而不是分別識別它們中的每一個。其次,RNN可以將誤差差值反向傳播到其輸入,即卷積層,從而允許我們在統一的網路中共同訓練迴圈層和卷積層。第三,RNN能夠從頭到尾對任意長度的序列進行操作。

傳統的RNN單元在其輸入和輸出層之間具有自連線的隱藏層。每次接收到序列中的幀時,它將使用非線性函式來更新其內部狀態,該非線性函式同時接收當前輸入和過去狀態作為其輸入:。那麼預測是基於的。以這種方式,過去的上下文{被捕獲並用於預測。然而,傳統的RNN單元有梯度消失的問題[7],這限制了其可以儲存的上下文範圍,並給訓練過程增加了負擔。長短時記憶[18,11](LSTM)是一種專門設計用於解決這個問題的RNN單元。LSTM(圖3所示)由一個儲存單元和三個多重門組成,即輸入,輸出和遺忘門。在概念上,儲存單元儲存過去的上下文,並且輸入和輸出門允許單元長時間地儲存上下文。同時,單元中的儲存可以被遺忘門清除。LSTM的特殊設計允許它捕獲長距離依賴,這經常發生在基於影象的序列中。

Figure 3

圖3。(a) 基本的LSTM單元的結構。LSTM包括單元模組和三個門,即輸入門,輸出門和遺忘門。(b)我們論文中使用的深度雙向LSTM結構。合併前向(從左到右)和後向(從右到左)LSTM的結果到雙向LSTM中。在深度雙向LSTM中堆疊多個雙向LSTM結果。

LSTM是定向的,它只使用過去的上下文。然而,在基於影象的序列中,兩個方向的上下文是相互有用且互補的。因此,我們遵循[17],將兩個LSTM,一個向前和一個向後組合到一個雙向LSTM中。此外,可以堆疊多個雙向LSTM,得到如圖3.b所示的深雙向LSTM。深層結構允許比淺層抽象更高層次的抽象,並且在語音識別任務中取得了顯著的效能改進[17]。

在迴圈層中,誤差在圖3.b所示箭頭的相反方向傳播,即反向傳播時間(BPTT)。在迴圈層的底部,傳播差異的序列被連線成對映,將特徵對映轉換為特徵序列的操作進行反轉並反饋到卷積層。實際上,我們建立一個稱為“Map-to-Sequence”的自定義網路層,作為卷積層和迴圈層之間的橋樑。

2.3. 轉錄

轉錄是將RNN所做的每幀預測轉換成標籤序列的過程。數學上,轉錄是根據每幀預測找到具有最高概率的標籤序列。在實踐中,存在兩種轉錄模式,即無詞典轉錄和基於詞典的轉錄。詞典是一組標籤序列,預測受拼寫檢查字典約束。在無詞典模式中,預測時沒有任何詞典。在基於詞典的模式中,通過選擇具有最高概率的標籤序列進行預測。

2.3.1 標籤序列的概率

我們採用Graves等人[15]提出的聯接時間分類(CTC)層中定義的條件概率。按照每幀預測對標籤序列定義概率,並忽略中每個標籤所在的位置。因此,當我們使用這種概率的負對數似然作為訓練網路的目標函式時,我們只需要影象及其相應的標籤序列,避免了標註單個字元位置的勞動。

條件概率的公式簡要描述如下:輸入是序列,其中是序列長度。這裡,每個是在集合上的概率分佈,其中包含了任務中的所有標籤(例如,所有英文字元),以及由-表示的“空白”標籤。序列到序列的對映函式定義在序列上,其中是長度。將對映到上,首先刪除重複的標籤,然後刪除blank。例如,將“–hh-e-l-ll-oo–”(-表示blank)對映到“hello”。然後,條件概率被定義為由對映到上的所有的概率之和:

 

 

的概率定義為,是時刻時有標籤的概率。由於存在指數級數量的求和項,直接計算方程1在計算上是不可行的。然而,使用[15]中描述的前向演算法可以有效計算方程1。

2.3.2 無字典轉錄

在這種模式下,將具有方程1中定義的最高概率的序列作為預測。由於不存在用於精確找到解的可行方法,我們採用[15]中的策略。序列通過近似發現,即在每個時間戳採用最大概率的標籤,並將結果序列對映到。

2.3.3 基於詞典的轉錄

在基於字典的模式中,每個測試取樣與詞典相關聯。基本上,通過選擇詞典中具有方程1中定義的最高條件概率的序列來識別標籤序列,即。然而,對於大型詞典,例如5萬個詞的Hunspell拼寫檢查詞典[1],對詞典進行詳盡的搜尋是非常耗時的,即對詞典中的所有序列計算方程1,並選擇概率最高的一個。為了解決這個問題,我們觀察到,2.3.2中描述的通過無詞典轉錄預測的標籤序列通常在編輯距離度量下接近於實際結果。這表示我們可以將搜尋限制在最近鄰候選目標,其中是最大編輯距離,是在無詞典模式下從轉錄的序列:

 

 

可以使用BK樹資料結構[9]有效地找到候選目標,這是一種專門適用於離散度量空間的度量樹。BK樹的搜尋時間複雜度為,其中是詞典大小。因此,這個方案很容易擴充套件到非常大的詞典。在我們的方法中,一個詞典離線構造一個BK樹。然後,我們使用樹執行快速線上搜尋,通過查詢具有小於或等於編輯距離來查詢序列。

2.4. 網路訓練

表示訓練集,是訓練影象,是真實的標籤序列。目標是最小化真實條件概率的負對數似然:

 

 

是迴圈層和卷積層從生成的序列。目標函式直接從影象和它的真實標籤序列計算代價值。因此,網路可以在成對的影象和序列上進行端對端訓練,去除了在訓練影象中手動標記所有單獨元件的過程。

網路使用隨機梯度下降(SGD)進行訓練。梯度由反向傳播演算法計算。特別地,在轉錄層中,如[15]所述,誤差使用前向演算法進行反向傳播。在迴圈層中,應用隨時間反向傳播(BPTT)來計算誤差。

為了優化,我們使用ADADELTA[37]自動計算每維的學習率。與傳統的動量[31]方法相比,ADADELTA不需要手動設定學習率。更重要的是,我們發現使用ADADELTA的優化收斂速度比動量方法快。

3. 實驗

為了評估提出的CRNN模型的有效性,我們在場景文字識別和樂譜識別的標準基準資料集上進行了實驗,這些都是具有挑戰性的視覺任務。資料集和訓練測試的設定見3.1小節,場景文字影象中CRNN的詳細設定見3.2小節,綜合比較的結果在3.3小節報告。為了進一步證明CRNN的泛化性,在3.4小節我們在樂譜識別任務上驗證了提出的演算法。

3.1. 資料集

對於場景文字識別的所有實驗,我們使用Jaderberg等人[20]釋出的合成數據集(Synth)作為訓練資料。資料集包含8百萬訓練影象及其對應的實際單詞。這樣的影象由合成文字引擎生成並且是非常現實的。我們的網路在合成數據上進行了一次訓練,並在所有其它現實世界的測試資料集上進行了測試,而沒有在其訓練資料上進行任何微調。即使CRNN模型是在純合成文字資料上訓練,但它在標準文字識別基準資料集的真實影象上工作良好。

有四個流行的基準資料集用於場景文字識別的效能評估,即ICDAR 2003(IC03),ICDAR 2013(IC13),IIIT 5k-word(IIIT5k)和Street View Text (SVT)。

IC03[27]測試資料集包含251個具有標記文字邊界框的場景影象。王等人[34],我們忽略包含非字母數字字元或少於三個字元的影象,並獲得具有860個裁剪的文字影象的測試集。每張測試影象與由Wang等人[34]定義的50詞的詞典相關聯。通過組合所有的每張影象詞彙構建完整的詞典。此外,我們使用由Hunspell拼寫檢查字典[1]中的單片語成的5萬個詞的詞典。

IC13[24]測試資料集繼承了IC03中的大部分資料。它包含1015個實際的裁剪單詞影象。

IIIT5k[28]包含從網際網路收集的3000張裁剪的詞測試影象。每張影象關聯一個50詞的詞典和一個1000詞的詞典。

SVT[34]測試資料集由從Google街景檢視收集的249張街景影象組成。從它們中裁剪出了647張詞影象。每張單詞影象都有一個由Wang等人[34]定義的50個詞的詞典。

3.2. 實現細節

在實驗中我們使用的網路配置總結在表1中。卷積層的架構是基於VGG-VeryDeep的架構[32]。為了使其適用於識別英文文字,對其進行了調整。在第3和第4個最大池化層中,我們採用1×2大小的矩形池化視窗而不是傳統的平方形。這種調整產生寬度較大的特徵圖,因此具有更長的特徵序列。例如,包含10個字元的影象通常為大小為100×32,可以從其生成25幀的特徵序列。這個長度超過了大多數英文單詞的長度。最重要的是,矩形池視窗產生矩形感受野(如圖2所示),這有助於識別一些具有窄形狀的字元,例如il

表1。網路配置總結。第一行是頂層。ksp分別表示核大小,步長和填充大小。

Table 1

網路不僅有深度卷積層,而且還有迴圈層。眾所周知兩者都難以訓練。我們發現批歸一化[19]技術對於訓練這種深度網路非常有用。分別在第5和第6卷積層之後插入兩個批歸一化層。使用批歸一化層訓練過程大大加快。

我們在Torch7[10]框架內實現了網路,使用定製實現的LSTM單元(Torch7/CUDA),轉錄層(C++)和BK樹資料結構(C++)。實驗在具有2.50 GHz Intel(R)Xeon E5-2609 CPU,64GB RAM和NVIDIA(R)Tesla(TM) K40 GPU的工作站上進行。網路用ADADELTA訓練,將引數ρ設定為0.9。在訓練期間,所有影象都被縮放為100×32,以加快訓練過程。訓練過程大約需要50個小時才能達到收斂。測試影象縮放的高度為32。寬度與高度成比例地縮放,但至少為100畫素。平均測試時間為0.16s/樣本,在IC03上測得的,沒有詞典。近似詞典搜尋應用於IC03的50k詞典,引數δ設定為3。測試每個樣本平均花費0.53s。

3.3. 比較評估

提出的CRNN模型在上述四個公共資料集上獲得的所有識別精度以及最近的最新技術,包括基於深度模型[23,22,21]的方法如表2所示。

表2。四個資料集上識別準確率(%)。在第二行,“50”,“1k”,“50k”和“Full”表示使用的字典,“None”表示識別沒有字典。*[22]嚴格意義上講不是無字典的,因為它的輸出限制在90K的字典。

Table 2

在有約束詞典的情況中,我們的方法始終優於大多數最新的方法,並且平均打敗了[22]中提出的最佳文字閱讀器。具體來說,與[22]相比,我們在IIIT5k和SVT上獲得了卓越的效能,僅在IC03上通過“Full”詞典實現了較低效能。請注意,[22]中的模型是在特定字典上訓練的,即每個單詞都與一個類標籤相關聯。與[22]不同,CRNN不限於識別已知字典中的單詞,並且能夠處理隨機字串(例如電話號碼),句子或其他諸如中文單詞的指令碼。 因此,CRNN的結果在所有測試資料集上都具有競爭力。

在無約束詞典的情況下,我們的方法在SVT上仍取得了最佳效能,但在IC03和IC13上仍然落後於一些方法[8,22]。注意,表2的“none”列中的空白表示這種方法不能應用於沒有詞典的識別,或者在無約束的情況下不能報告識別精度。我們的方法只使用具有單詞級標籤的合成文字作為訓練資料,與PhotoOCR[8]非常不同,後者使用790萬個具有字元級標註的真實單詞影象進行訓練。[22]中報告的最佳效能是在無約束詞典的情況下,受益於它的大字典,然而,它不是前面提到的嚴格的無約束詞典模型。在這個意義上,我們在無限制詞典表中的結果仍然是有前途的。

為了進一步瞭解與其它文字識別方法相比,所提出演算法的優點,我們提供了在一些特性上的綜合比較,這些特性名稱為E2E Train,Conv Ftrs,CharGT-Free,Unconstrained和Model Size,如表3所示。

表3。各種方法的對比。比較的屬性包括:1)端到端訓練(E2E Train);2)從影象中直接學習卷積特徵而不是使用手動設計的特徵(Conv Ftrs);3)訓練期間不需要字元的實際邊界框(CharGT-Free);4)不受限於預定義字典(Unconstrained);5)模型大小(如果使用端到端模型),通過模型引數數量來衡量(Model Size, M表示百萬)。

Table 3

E2E Train:這一列是為了顯示某種文字閱讀模型是否可以進行端到端的訓練,無需任何預處理或經過幾個分離的步驟,這表明這種方法對於訓練是優雅且乾淨的。從表3可以看出,只有基於深度神經網路的模型,包括[22,21]以及CRNN具有這種性質。

Conv Ftrs:這一列表明一個方法是否使用從訓練影象直接學習到的卷積特徵或手動特徵作為基本的表示。

CharGT-Free:這一列用來表明字元級標註對於訓練模型是否是必要的。由於CRNN的輸入和輸出標籤是序列,因此字元級標註是不必要的。

Unconstrained:這一列用來表明訓練模型是否受限於一個特定的字典,是否不能處理字典之外的單詞或隨機序列。注意儘管最近通過標籤嵌入[5, 14]和增強學習[22]學習到的模型取得了非常有競爭力的效能,但它們受限於一個特定的字典。

Model Size:這一列報告了學習模型的儲存空間。在CRNN中,所有的層有權重共享連線,不需要全連線層。因此,CRNN的引數數量遠小於CNN變體[22,21]所得到的模型,導致與[22,21]相比,模型要小得多。我們的模型有830萬個引數,只有33MB RAM(每個引數使用4位元組單精度浮點數),因此可以輕鬆地移植到移動裝置上。

表3詳細列出了不同方法之間的差異,充分展示了CRNN與其它競爭方法的優勢。

另外,為了測試引數的影響,我們在方程2中實驗了的不同值。在圖4中,我們將識別精度繪製為的函式。更大的導致更多的候選目標,從而基於詞典的轉錄更準確。另一方面,由於更長的BK樹搜尋時間,以及更大數量的候選序列用於測試,計算成本隨著的增大而增加。實際上,我們選擇作為精度和速度之間的折衷。

Figure 4

圖4。藍線圖:識別準確率作為的函式。紅條:每個樣本的詞典搜尋時間。在IC03資料集上使用50k詞典進行的測試。

3.4. 樂譜識別

樂譜通常由排列在五線譜的音符序列組成。識別影象中的樂譜被稱為光學音樂識別(OMR)問題。以前的方法通常需要影象預處理(主要是二值化),五線譜檢測和單個音符識別[29]。我們將OMR作為序列識別問題,直接用CRNN從影象中預測音符的序列。為了簡單起見,我們僅認識音調,忽略所有和絃,並假定所有樂譜具有相同的大調音階(C大調)。

據我們所知,沒有用於評估音調識別演算法的公共資料集。為了準備CRNN所需的訓練資料,我們從[2]中收集了2650張影象。每個影象中有一個包含3到20個音符的樂譜片段。我們手動標記所有影象的真實標籤序列(不是的音調序列)。收集到的影象通過旋轉,縮放和用噪聲損壞增強到了265k個訓練樣本,並用自然影象替換它們的背景。對於測試,我們建立了三個資料集:1)“純淨的”,其中包含從[2]收集的260張影象。例項如圖5.a所示;2)“合成的”,使用“純淨的”建立的,使用了上述的增強策略。它包含200個樣本,其中一些如圖5.b所示;3)“現實世界”,其中包含用手機相機拍攝的音樂書籍中的200張影象。例子如圖5.c所示。

Figure 5

圖5。(a)從[2]中收集的乾淨的樂譜影象。(b)合成的樂譜影象。(c)用手機相機拍攝的現實世界的樂譜影象。

由於我們的訓練資料有限,因此我們使用簡化的CRNN配置來減少模型容量。與表1中指定的配置不同,我們移除了第4和第6卷積層,將2層雙向LSTM替換為2層單向LSTM。網路對影象對和對應的標籤序列進行訓練。使用兩種方法來評估識別效能:1)片段準確度,即正確識別的樂譜片段的百分比;2)平均編輯距離,即預測音調序列與真實值之間的平均編輯距離。為了比較,我們評估了兩種商用OMR引擎,即Capella Scan[3]和PhotoScore[4]。

表4總結了結果。CRNN大大優於兩個商業系統。Capella Scan和PhotoScore系統在乾淨的資料集上表現相當不錯,但是它們的效能在合成和現實世界資料方面顯著下降。主要原因是它們依賴於強大的二值化來檢五線譜和音符,但是由於光線不良,噪音破壞和雜亂的背景,二值化步驟經常會在合成數據和現實資料上失敗。另一方面,CRNN使用對噪聲和扭曲具有魯棒性的卷積特徵。此外,CRNN中的迴圈層可以利用樂譜中的上下文資訊。每個音符不僅自身被識別,而且被附近的音符識別。因此,通過將一些音符與附近的音符進行比較可以識別它們,例如對比他們的垂直位置。

Table 4

表4。在我們收集的資料集上,CRNN和兩個商業OMR系統對音調識別準確率的對比。通過片段準確率和平均編輯距離(“片段準確率/平均編輯距離”)來評估效能。

結果顯示了CRNN的泛化性,因為它可以很容易地應用於其它的基於影象的序列識別問題,需要極少的領域知識。與Capella Scan和PhotoScore相比,我們的基於CRNN的系統仍然是初步的,並且缺少許多功能。但它為OMR提供了一個新的方案,並且在音高識別方面表現出有前途的能力。

4. 總結

在本文中,我們提出了一種新穎的神經網路架構,稱為卷積迴圈神經網路(CRNN),其集成了卷積神經網路(CNN)和迴圈神經網路(RNN)的優點。CRNN能夠獲取不同尺寸的輸入影象,併產生不同長度的預測。它直接在粗粒度的標籤(例如單詞)上執行,在訓練階段不需要詳細標註每一個單獨的元素(例如字元)。此外,由於CRNN放棄了傳統神經網路中使用的全連線層,因此得到了更加緊湊和高效的模型。所有這些屬性使得CRNN成為一種基於影象序列識別的極好方法。

在場景文字識別基準資料集上的實驗表明,與傳統方法以及其它基於CNN和RNN的演算法相比,CRNN實現了優異或極具競爭力的效能。這證實了所提出的演算法的優點。此外,CRNN在光學音樂識別(OMR)的基準資料集上顯著優於其它的競爭者,這驗證了CRNN的泛化性。

實際上,CRNN是一個通用框架,因此可以應用於其它的涉及影象序列預測的領域和問題(如漢字識別)。進一步加快CRNN,使其在現實應用中更加實用,是未來值得探索的另一個方向。

致謝

這項工作主要是由中國國家自然科學基金(NSFC)支援 (No. 61222308)。

References

[1] http://hunspell.sourceforge.net/. 4, 5

[2] https://musescore.com/sheetmusic. 7, 8

[3] http://www.capella.de/us/index.cfm/products/capella-scan/info-capella-scan/. 8

[4] http://www.sibelius.com/products/photoscore/ultimate.html. 8

[5] J. Almaza ́n, A. Gordo, A. Forne ́s, and E. Valveny. Word spotting and recognition with embedded attributes. PAMI, 36(12):2552–2566, 2014. 2, 6, 7

[6] O. Alsharif and J. Pineau. End-to-end text recognition with hybrid HMM maxout models. ICLR, 2014. 6, 7

[7] Y. Bengio, P. Y. Simard, and P. Frasconi. Learning long-term dependencies with gradient descent is difficult. NN, 5(2):157–166, 1994. 3

[8] A. Bissacco, M. Cummins, Y. Netzer, and H. Neven. Photoocr: Reading text in uncontrolled conditions. In ICCV, 2013. 1, 2, 6, 7

[9] W. A. Burkhard and R. M. Keller. Some approaches to best-match file searching. Commun. ACM, 16(4):230–236, 1973.4

[10] R. Collobert, K. Kavukcuoglu, and C. Farabet. Torch7: A matlab-like environment for machine learning. In BigLearn, NIPS Workshop, 2011. 6

[11] F. A. Gers, N. N. Schraudolph, and J. Schmidhuber. Learning precise timing with LSTM recurrent networks. JMLR, 3:115–143, 2002. 3

[12] R. B. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014. 1, 3

[13] V. Goel, A. Mishra, K. Alahari, and C. V. Jawahar. Whole is greater than sum of parts: Recognizing scene text words. In ICDAR, 2013. 6, 7

[14] A. Gordo. Supervised mid-level features for word image representation. In CVPR, 2015. 2, 6, 7

[15] A. Graves, S. Ferna ́ndez, F. J. Gomez, and J. Schmidhuber. Connectionist temporal classification: labelling unseg- mented sequence data with recurrent neural networks. In ICML, 2006. 4, 5

[16] A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, and J. Schmidhuber. A novel connectionist system for unconstrained handwriting recognition. PAMI, 31(5):855–868, 2009. 2

[17] A. Graves, A. Mohamed, and G. E. Hinton. Speech recognition with deep recurrent neural networks. In ICASSP, 2013. 3

[18] S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural Computation, 9(8):1735–1780, 1997. 3

[19] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015. 6

[20] M. Jaderberg, K. Simonyan, A. Vedaldi, and A. Zisserman. Synthetic data and artificial neural networks for natural scene text recognition. NIPS Deep Learning Workshop, 2014. 5

[21] M. Jaderberg, K. Simonyan, A. Vedaldi, and A. Zisserman. Deep structured output learning for unconstrained text recognition. In ICLR, 2015. 6, 7

[22] M. Jaderberg, K. Simonyan, A. Vedaldi, and A. Zisserman. Reading text in the wild with convolutional neural networks. IJCV (Accepted), 2015. 1, 2, 3, 6, 7

[23] M. Jaderberg, A. Vedaldi, and A. Zisserman. Deep features for text spotting. In ECCV, 2014. 2, 6, 7

[24] D. Karatzas, F. Shafait, S. Uchida, M. Iwamura, L. G. i Bigorda, S. R. Mestre, J. Mas, D. F. Mota, J. Almaza ́n, and L. de las Heras. ICDAR 2013 robust reading competition. In ICDAR, 2013. 5

[25] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012. 1, 3

[26] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998. 1

[27] S. M. Lucas, A. Panaretos, L. Sosa, A. Tang, S. Wong, R. Young, K. Ashida, H. Nagai, M. Okamoto, H. Yamamoto, H. Miyao, J. Zhu, W. Ou, C. Wolf, J. Jolion, L. Todoran, M. Worring, and X. Lin. ICDAR 2003 robust reading competitions: entries, results, and future directions. IJDAR, 7(2-3):105–122, 2005. 5

[28] A. Mishra, K. Alahari, and C. V. Jawahar. Scene text recognition using higher order language priors. In BMVC, 2012. 5, 6, 7

[29] A. Rebelo, I. Fujinaga, F. Paszkiewicz, A. R. S. Marc ̧al, C. Guedes, and J. S. Cardoso. Optical music recognition: state-of-the-art and open issues. IJMIR, 1(3):173–190, 2012. 7

[30] J. A. Rodr ́ıguez-Serrano, A. Gordo, and F. Perronnin. Label embedding: A frugal baseline for text recognition. IJCV, 113(3):193–207, 2015. 2, 6, 7

[31] D. E. Rumelhart, G. E. Hinton, and R. J. Williams. Neurocomputing: Foundations of research. chapter Learning Representations by Back-propagating Errors, pages 696–699. MIT Press, 1988. 5

[32] K. Simonyan and A. Zisserman. Very deep convolu- tional networks for large-scale image recognition. CoRR, abs/1409.1556, 2014. 5

[33] B. Su and S. Lu. Accurate scene text recognition based on recurrent neural network. In ACCV, 2014. 2, 6, 7

[34] K. Wang, B. Babenko, and S. Belongie. End-to-end scene text recognition. In ICCV, 2011. 5, 6, 7

[35] T. Wang, D. J. Wu, A. Coates, and A. Y. Ng. End-to-end text recognition with convolutional neural networks. In ICPR, 2012. 1, 6, 7

[36] C. Yao, X. Bai, B. Shi, and W. Liu. Strokelets: A learned multi-scale representation for scene text recognition. In CVPR, 2014. 2, 6, 7

[37] M. D. Zeiler. ADADELTA: anadaptive learning rate method. CoRR, abs/1212.5701, 2012. 5