1. 程式人生 > >論文筆記:An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application

論文筆記:An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application

1.歷史方法 1)基於字元的DCNN,比如photoOCR.單個字元的檢測與識別。要求單個字元的檢測器效能很強,crop的足夠好。 2)直接對圖片進行分類。9萬個單詞,組合成無數的單詞,無法直接應用 3)RNN,訓練和測試均不需要每個字元的位置。但是需要預處理,從圖片得到特徵序列,獨立做的,無法端到端。 2.propose method 1)端到端 2)任意長度 3)模型尺寸小 4)不針對特定字典,有無字典表現都很好 3.network如圖 圖: 1)輸入圖片高度要一致 2)(創新性的地方)map2seq:在最後一個卷基層輸出的所有通道上,從左到右逐列拼接,得到特徵序列。按照寬度為1來輸入到LSTM,這樣可能多個長條特徵才會cover一個單詞。 圖:
3)bp時需要seq2map,把梯度再拼成map 4)BLSTM利用雙向資訊,並stacked更深 5)標註序列的概率,通過CTC Layer,label不用具體到每個字元。 公式圖:
任意一個label序列的概率 = 它的不同對齊方式的概率之和。 主要是空格以及重複字母的影響 note:注意對映的時候是刪除重複的字母,刪除空格。 示意圖:“AAA” … “AA”是LSTM輸出的不同預測的一個分佈。 

6)優化方法採用adadelta。SGD似乎不work。 7)trick:長方形池化,BN end