1. 程式人生 > >(Paper)Robust Text Detection in Natural Scene Images

(Paper)Robust Text Detection in Natural Scene Images

這篇文章是2014年PAMI上的文章,是目前文字檢測領域的state of the art.

該演算法是基於MSERs的,主要內容有:

演算法流程

1 Character candidates extraction

使用MSERs演算法來產生字元候選區域,但是MSER演算法可能產生過多的重複區域,因而需要剔除非文字的候選區域。根據MSER演算法的性質,可以構造一棵MSERs樹,每個MSER對應為一個可能的字元候選區域。
剔除的依據是,如果一個候選區域被認為是字元,則父子結點都不可能是字元了,(因為文字不會有相互包含關係),但問題是判斷一個結點是否為字元講花費大量計算,一種比較好的方法是通過父子結點的關係來判斷是否為字元,如果其MSER的variation小的則為字元(即stable的字元)。
但variation最小的不一定就是字元,所以作者提出了regularized variation具體的做法是,先用linear reduction的方法,對一棵MSERs樹中度為1的連線進行刪除,然後在用tree accumulation對度為2的連線中進行刪除。


2 Text Candidates Construction

上一步生成了字元候選區域,這一步通過字元候選區域構建文字行。

使用的是single-link(agglomerate)聚類演算法,是一種層次聚類演算法,需要定義點跟點(1中候選字元區域)的距離。

在層次聚類中ε為一個閾值,最後的生成的聚類,聚類與聚類間的距離(兩個聚類中每個點的距離)都大於ε,聚類內的值都小於該值,作者利用這個性質設計了一個self-training的邏輯迴歸分類器,來計算距離引數d(u,v;w)=wTxu,v中的w以及ε

3 Text Candidates Elimination

通過以上的步驟,得到了文字候選區域,但是之前的步驟得到的文字候選區域只有9%是真正的文字,所以作者接下來又設計了一個分類器來分類文字候選區域。
這個階段涉及兩個分類器,一個是Character分類器一個是Text分類器。首先通過Character分類器可以得到Text中預測的一個觀測O

(m,n;p)m是包含字元數量,n為Character判斷為非文字的個數,p為該分類器的精度。
最後使用貝葉斯分類器來對文字分類,及P(nontext|O(m,n;p))ε)

4 Extension to Multi-Orientation Text Detection

這個部分是為了解決檢測非水平方向文字行的問題(但注意,文字還是在同一行上排列的),思路是使用啟發式方法,在1中生成字元候選區域後,使用3中Character分類器構造文字候選區域pair的優先順序依次是(char,char),(non-char,char),(non-char,non-char),然後根據這些pair的優先順序拓展文字的方向,來確定各個文字行的方向。確定文字行的方向後,再使用之前的方法進行檢測。

5 Experiment

最後的實驗是在ICDAR 2011,multilingual database, street view database以及multi-orientation database幾個資料集及方面展開的。