1. 程式人生 > >自然場景文字處理論文整理(3)Mask TextSpotter

自然場景文字處理論文整理(3)Mask TextSpotter

這篇論文是2018年7月6號出來的,對於任意形狀的自然文字檢測識別效果非常好。
paper:https://arxiv.org/abs/1807.02242
目前無相關原始碼

1.摘要簡介

在本文中,我們提出了一個名為Mask TextSpotter的文字監視器,它可以檢測和識別任意形狀的文字例項。 這裡,任意形狀意味著現實世界中可能呈現的各種形式的文字例項。 受Mask R-CNN [9]的啟發,它可以生成物件的形狀蒙版,我們通過分段例項文字區域來檢測文字。 因此,我們的探測器能夠檢測任意形狀的文字。 此外,與以前基於序列的識別方法[10,11,12]不同,我們通過二維空間中的語義分割識別文字,解決了閱讀不規則文字例項的問題。 此外,該方法的另一個優點是它不需要準確的識別位置。 因此,檢測任務和識別任務可以完全端到端地訓練,並受益於特徵共享和聯合優化。。
效果:


在ICDAR2015上,在單一尺度上進行評估,我們的方法在檢測任務上實現了0.86的F-測量,並且在端到端識別任務上優於先前的最佳表現者13.2%-25.3%。
本文的主要貢獻
(1)我們提出了一種用於文字定位的端到端可訓練模型,它具有簡單,流暢的訓練方案。
(2)所提出的方法可以檢測和識別各種形狀的文字,包括水平,定向和彎曲文字。
(3)與以前的方法相比,我們的方法中的精確文字檢測和識別是通過語義分割完成的。
(4)我們的方法在各種基準測試中實現了文字檢測和文字定位的最先進效能。

2.相關工作

我們框架中提議的文字識別元件可以歸類為基於字元的方法。 然而,與之前基於字元的方法相比,我們使用FCN [40]來同時對字元進行本地化和分類。此外,與基於序列的方法相比,我們的方法更適合處理不規則文字(多向導向)
文字,彎曲文字等。我們提出的文字識別器不僅可以完全端到端地進行訓練,而且還具有檢測和識別任意形狀(水平,定向和彎曲)場景文字的能力。

一般物件檢測和語義分割
具體來說,我們的方法改編自通用物件例項分割模型Mask R-CNN [9]。 但是,我們的方法的掩碼分支與Mask R-CNN中的掩碼分支之間存在關鍵差異。 我們的掩碼分支不僅可以分割文字區域,還可以預測字元概率圖,這意味著我們的方法可以用於識別字符對映中的例項序列,而不僅僅是預測物件掩碼

3、實現

3.1框架
它由基於例項分割的文字檢測器和基於字元分割的文字識別器組成。
這裡寫圖片描述
Backbone
自然影象中的骨幹文字大小各異。 為了在所有尺度上構建高階語義特徵對映,我們應用了深度為50的ResNet [50]的特徵金字塔結構[46]骨幹.FPN使用自上而下的架構來融合不同解析度的特徵來自單個 - 輸入,可以提高邊際成本的準確性。

RPN
RPN用於為後續的Fast-R-CNN生成文字提議和Mask分支。在[46]之後,我們根據錨點大小在不同階段分配錨點。 具體來說,錨點的面積分別設定為五個階段{P 2,P 3,P 4,P 5,P 6}上的{32 2,64 2,128 2,256 2,512 2}畫素。在[33]中的每個階段也採用不同的寬高比{0.5,1,2}。這樣,RPN可以處理各種大小和寬高比的文字。 RoI Align [9]適用於提取提案的區域特徵。 與RoI Pooling [44]相比,RoI Align保留了更準確的位置資訊,這對掩碼分支中的分段任務非常有利。 請注意,沒有采用特殊的文字設計,例如文字錨的特殊寬高比或方向,如之前的作品[1,24,23]。

Fast-R-CNN
Fast-R-CNN分支包括分類任務和迴歸任務。 該分支的主要功能是提供更準確的檢測邊界框。 Fast-R-CNN的輸入為7×7解析度,由RoI Align根據RPN提出的提議生成。

掩碼分支
掩碼分支中有兩個任務,包括全域性文字例項分段任務和字元分段任務。 如圖3所示,通過四個卷積層和一個去卷積層給出一個輸入RoI,其大小固定為16 * 64,掩碼分支預測38個對映(大小為32 * 128),包括全域性文字 例項對映,36個字元對映和字元的背景對映。 無論文字例項的形狀如何,全域性文字例項對映都可以提供文字區域的準確定位。字元對映是36個字元的對映,包括26個字母和10個阿拉伯數字。 後處理也需要排除字元區域的字元背景圖。
這裡寫圖片描述
圖3:掩模分支的圖示。 隨後,有四個卷積層,一個去卷積層和一個最終卷積層,它預測38個通道的對映(1個用於全域性文字例項對映; 36個用於字元對映; 1個用於字元的背景對映)。

3.2標籤生成

這裡寫圖片描述
圖4:掩模分支的標籤生成。 左:藍框是由RPN產生的建議,紅色多邊形和黃色框是地面真實多邊形和字元框,綠色框是水平矩形,覆蓋多邊形區域。 右:全域性地圖(頂部)和角色地圖(底部)。

我們首先將多邊形轉換為水平矩形,以最小的面積覆蓋多邊形。 然後我們在[44,33,46]之後生成RPN和Fast-R-CNN的目標。 為掩模分支生成兩種型別的目標圖,其具有基礎事實P,C(可能不存在)以及由RPN產生的提議:用於文字例項分割的全域性圖和用於字元語義分割的字元圖。。 給定一個積極的提議r,我們首先使用[44,33,46]的匹配機制來獲得最佳匹配的水平矩形。 可以進一步獲得相應的多邊形以及字元(如果有的話)。 接下來,匹配的多邊形和字元框isMask TextSpotter 7移位並調整大小以使提案與H×W的目標地圖對齊,如下面的公式:
這裡寫圖片描述
其中(B x,B y)和(B x 0,B y 0)是多邊形和所有字元框的更新和原始頂點; (r x,r y)是提議r的頂點。

3.3優化
這裡寫圖片描述
文字例項分段損失
文字例項分段任務的輸出是單個對映。 設N是全域性對映中的畫素數,y n是畫素標籤(yn∈0,1),x n是輸出畫素,我們定義L全域性
如下:
這裡寫圖片描述
字元分段損失
字元分割的輸出由37個對映組成,對應於37個類(36個字元類和背景類)。 令T為類的數量,N為每個地圖中的畫素數。 輸出對映X可以被視為N×T矩陣。 這樣,加權空間 - 最大損失可以定義如下:
這裡寫圖片描述
其中Y是X的相應基本事實。權重W用於平衡積極(字元類)和背景類的損失值。 設背景畫素的數量為N neg,背景類索引為0,權重可以計算為:
這裡寫圖片描述
注意,在推理中,應用sigmoid函式和soft-max函式分別生成全域性對映和字元分割對映。

3.4推理
與掩模分支的輸入RoI來自RPN的訓練過程不同,在推理階段,我們使用Fast-R-CNN的輸出作為生成預測的全域性地圖和字元對映的建議,因為Fast-R-CNN輸出是 更準確。 特別地,推理過程如下:首先,輸入測試影象,我們獲得快速R-CNN的輸出[33]並通過NMS過濾掉冗餘候選框; 然後,將保留的提議輸入掩碼分支以生成全域性對映和字元對映; 最後,通過計算全域性地圖上文字區域的輪廓可以直接獲得預測的多邊形,可以通過我們提出的畫素生成字元序列字元對映的投票演算法。
這裡寫圖片描述
畫素投票
我們通過我們提出的畫素投票演算法將預測的字元對映解碼為字元序列。 我們首先將背景圖二進位制二值化為0到255,閾值為192.然後我們根據二值化地圖中的連通區域獲取所有字元區域。 我們計算所有字元對映的每個區域的平均值。 這些值可以看作該區域的字元類概率。 具有最大平均值的字元類將分配給該區域。 演算法1中顯示了具體的過程。之後,我們根據英語的寫作習慣將所有字元從左到右分組。 詳細的計算在本文的演算法1中描述。

加權編輯距離
編輯距離可用於查詢具有給定詞典的預測序列的最佳匹配單詞。 但是,可能存在多個與最小編輯距離同時匹配的單詞,並且演算法無法確定哪個單詞是最佳的。 上述問題的主要原因是原始編輯距離演算法中的所有操作(刪除,插入,替換)具有相同的成本,實際上沒有意義。
這裡寫圖片描述
圖6:編輯距離和我們建議的加權編輯距離的圖示。紅色字元是將被刪除,插入和替換的字元。綠色字元表示候選字元。 p cindex是字元概率,index是字元索引,c是當前字元。

受[51]的啟發,我們提出了一種加權編輯距離演算法。 如圖6所示,與編輯距離不同,編輯距離為不同的操作分配相同的成本,我們提出的加權編輯距離的成本取決於畫素投票產生的字元概率p cindex。 數學上,兩個字串a和b之間的加權編輯距離,其長度為| a | 和| b | 分別可以描述為D a,b(| a |,| b |),其中:
這裡寫圖片描述

4.實驗結果

在不同的資料集上表現良好。
這裡寫圖片描述