(Paper)Robust Text Detection in Natural Scene Images
這篇文章是2014年PAMI上的文章,是目前文字檢測領域的state of the art.
該演算法是基於MSERs的,主要內容有:
演算法流程
1 Character candidates extraction
使用MSERs演算法來產生字元候選區域,但是MSER演算法可能產生過多的重複區域,因而需要剔除非文字的候選區域。根據MSER演算法的性質,可以構造一棵MSERs樹,每個MSER對應為一個可能的字元候選區域。
剔除的依據是,如果一個候選區域被認為是字元,則父子結點都不可能是字元了,(因為文字不會有相互包含關係),但問題是判斷一個結點是否為字元講花費大量計算,一種比較好的方法是通過父子結點的關係來判斷是否為字元,如果其MSER的variation小的則為字元(即stable的字元)。
但variation最小的不一定就是字元,所以作者提出了regularized variation具體的做法是,先用linear reduction的方法,對一棵MSERs樹中度為1的連線進行刪除,然後在用tree accumulation對度為2的連線中進行刪除。
2 Text Candidates Construction
上一步生成了字元候選區域,這一步通過字元候選區域構建文字行。
使用的是single-link(agglomerate)聚類演算法,是一種層次聚類演算法,需要定義點跟點(1中候選字元區域)的距離。
在層次聚類中
3 Text Candidates Elimination
通過以上的步驟,得到了文字候選區域,但是之前的步驟得到的文字候選區域只有9%是真正的文字,所以作者接下來又設計了一個分類器來分類文字候選區域。
這個階段涉及兩個分類器,一個是Character分類器一個是Text分類器。首先通過Character分類器可以得到Text中預測的一個觀測
最後使用貝葉斯分類器來對文字分類,及
4 Extension to Multi-Orientation Text Detection
這個部分是為了解決檢測非水平方向文字行的問題(但注意,文字還是在同一行上排列的),思路是使用啟發式方法,在1中生成字元候選區域後,使用3中Character分類器構造文字候選區域pair的優先順序依次是(char,char),(non-char,char),(non-char,non-char),然後根據這些pair的優先順序拓展文字的方向,來確定各個文字行的方向。確定文字行的方向後,再使用之前的方法進行檢測。
5 Experiment
最後的實驗是在ICDAR 2011,multilingual database, street view database以及multi-orientation database幾個資料集及方面展開的。