1. 程式人生 > >CVPR 2018 | 曠視科技Face++新方法——通過角點定位和區域分割檢測場景文字

CVPR 2018 | 曠視科技Face++新方法——通過角點定位和區域分割檢測場景文字

全球計算機視覺頂會 CVPR 2018 (Conference on Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議)將於6月18日至22日在美國鹽湖城舉行。作為大會鑽石贊助商,曠視科技Face++研究院也將在孫劍博士的帶領下重磅出席此次盛會。而在盛會召開之前,曠視將針對 CVPR 2018 收錄論文集中進行系列解讀。

目錄

  • 導語
  • 設計思想
  • 網路架構
    • 特徵提取
    • 角點檢測
    • 位置敏感分割
  • 訓練與推理
  • 實驗結果
    • 多方向文字
    • 水平文字
    • 多方向長文字
    • 多語種文字
    • 泛化能力
  • 結論
  • 參考文獻

導語

在機器之眼的檢測矩陣中,自然場景文字是一類不可避及的重要物件,且有外景、視訊、網頁、字幕、截圖等多種表現形式。曠視科技Face++通過吸取物體檢測與語義分割的各自優勢,並作創新性整合,突破性地提出了一種新型文字檢測器,把檢測精度推進到全新高度。這種底層檢測技術迭代升級的影響是普適性的,意味著絕大多數與文字識別相關的實際應用都可得到不同程度的優化和完善,促進文字檢測技術在直播、電商、論壇等 UGC 型內容平臺網站,或者彈幕、評論、群聊、暱稱等視訊網站與社交 APP 中的應用;進一步提升產品和影象中關於文字的搜尋檢索能力,促進智慧零售、無人超市等產業的發展和普及,甚至是促進自動駕駛技術的進步。由此可見,曠視科技推出的新型文字檢測技術不僅有助於幫助客戶走出海量資料的困境,制定個性化策略,高效過濾多類垃圾文字及敏感詞,消除文字隱患,進而營造智慧、安全、文明的社會環境,還可以推動新零售、無人超市、自動駕駛的進步發展。

設計思想

最近,由於實際應用需求不斷增長,從現實場景影象中提取文字資訊變得日益流行。場景文字檢測——一種自然影象文字的定位技術——在各種文字閱讀系統中發揮著不可或缺的作用。

由於內外兩種因素,場景文字檢測挑戰重重。外部因素是指噪音、模糊、遮擋等外在環境,它們同樣是困擾一般物體檢測的主要根源。內部因素來自場景文字的屬性。相較於一般物體檢測,場景文字檢測更為複雜,因為:1)自然場景中文字可以是任意方向的,因此需要檢測的邊界框通常為旋轉的矩形或四邊形;2)場景文字邊界框的長寬比變化很大,且通常會存在極端的長寬比;3)場景文字的粒度多樣,有字元、單詞或者文字行等多種形式,演算法在定位邊界框時會難以判定文字例項。

圖 1:上行和下行自左至右依次是已預測的左上、右上、右下、左下角點和位置敏感圖。

過去幾年中,場景文字檢測獲得大量研究,加之一般物體檢測和語義分割的推動,場景文字檢測近期成果顯著,演化出兩類主流的檢測器。第一類基於一般物體檢測器 SSD、YOLO、DenseBox,可以直接預測候選邊界框;第二類基於語義分割,可以生成分割圖,通過後處理給出最終的文字框。

本文結合了上述兩類方法的思想,並加以創新,其提出主要基於下面兩個發現:1)我們可以通過矩形的角點(corner point,左上,右上,右下,左下,如圖 1 所示)來確定一個矩形,而不用考慮其大小、長寬比或者方向;2)文字區域分割圖可以提供有效的文字定位資訊,位置敏感(position-sensitive)的文字區域分割圖(圖 1)可以提供有效的文字例項資訊。因此,本文首先直接檢測文字的角點而不是迴歸文字框。另外,本文預測位置敏感的的分割圖而不是文字/非文字圖。最後,本文通過取樣和組合已檢測的角點生成候選邊界框,並根據分割資訊消除不合理的邊界框。本文提出方法的 pipeline 如圖 2 所示。

圖 2:本文方法概覽。給定一張影象,網路藉助角點檢測和位置敏感的分割輸出角點和分割圖;然後通過取樣和組合角點生成候選框;最後,這些候選框通過分割圖進行評分,並由 NMS 抑制冗餘的候選框。

本文方法的主要亮點有:1)由於通過取樣和組合角點的方式來檢測場景文字,該方法可以處理任意方向的文字;2)由於檢測角點而不是文字邊界框,該方法可以自然而然地避免長寬比大幅變化的問題;3)通過位置敏感的分割,該方法可以很好地分割文字例項,而不管其是字元、單詞或者文字行;4)在該方法中,候選框的邊界由角點決定。相較於基於 anchor 或者文字區域迴歸文字邊界框,該方法生成的邊界框更精確,特別是對於長文字。

這一方法的有效性在水平文字、多方向文字、多方向長文字以及多語種文字的公開資料集上得到驗證,結果證明了它在精度和速度上的優勢。尤其是,該方法的 F-Measures 在 ICDAR2015、MSRA-TD500 和 MLT 上分別是 84.3%、81.5% 和 72.4%,顯著優於先前最佳方法。另外,該方法在效率方面同樣具有競爭優勢,在輸入圖片大小為 512x512 情況下,每秒可處理超過 10.4 張影象。

網路架構

本文方法是一個全卷積網路,可實現特徵提取、角點檢測和位置敏感的文字區域分割,其網路架構如圖 3 所示。給定一張影象,則網路給出候選角點和分割圖。

圖 3:該網路包含 3 部分:Backbone、角點檢測器和位置敏感分割檢測器。Backbone 沿用DSSD。角點檢測器構建在多個特徵層(粉色模組)之上。位置敏感分割檢測器與角點檢測器共享粉色模組。

特徵提取

該模型的 backbone 改編自預訓練的 VGG16 網路,並基於下述考量進行設計:1)場景文字的大小變化巨大,因此 backbone 必須足以應對該問題;2)自然場景中的背景非常複雜,因此特徵最好包含較多的語境。鑑於 FPN/DSSD 結構在上述問題上的良好表現,本文通過 FPN/DSSD backbone 提取特徵。

角點檢測

本文使用一個正方形框來表示一個角點,並用 default box 來回歸角點。其中,框的中心點為角點位置,框的邊長為角點所屬的文字框的最短邊。與 SSD/DSSD 每個 default box 輸出一種相應候選框的分類分值和偏移量(offset)不同,角點檢測更為複雜。因為同一位置可以存在多個的角點,因此本文中 default box 對應的輸出分別為 4 類角點的 4 個候選框的分類分值和偏移量。

本文以卷積的方式通過預測模組預測兩個分支的分值和偏移量。對於每個單元中帶有 k 個 default box 的 m × n 特徵圖,“分值”分支和“偏移量”分支分別為每個 default box 的每個型別的角點輸出 2 個分值和 4 個偏移量。這裡,在“分值”分支中 2 表示該位置是否有角點存在。總體上,“分數”分支和“偏移量”分支的輸出通道是 k×q×2 和 k×q×4,其中 q 表示角點型別。 q 預設等於 4。

訓練階段則遵從 SSD 中 default box 和 groundtruth 的匹配策略。為檢測不同大小的場景文字,本文在多個層特徵上使用不同大小的 default box。

位置敏感分割

先前基於分割的文字檢測方法通過生成分割圖表徵每個畫素屬於文字區域的概率。但是由於文字區域的重疊和文字畫素的不當預測,分值圖中的文字區域經常無法彼此分離。為從分割圖中獲得文字邊界框,需要進行復雜的後處理。

受到 InstanceFCN 啟發,本文使用位置敏感分割生成文字分割圖。相較於先前的文字分割方法,相對位置資訊被引入。具體而言,通過一個 g x g 規則網格把文字邊界框 R 分成多個 bin。對於每個 bin 來說,可使用一個分割圖決定該圖的畫素是否屬於該 bin。如圖 4 所示,藉助位置敏感的分割圖, 本文可以有效地處理相近或相互重疊的文字區域。

本文在統一網路中構建位置敏感分割,利用特徵 F3 , F4 , F7 , F8 , F9 等預測 g x g 張文字區域分割 map。預設 g 為 2。

圖 4:位置敏感的區域分割能提供例項資訊,有效地過濾掉虛警。(a)輸入影象;(b)已預測文字 proposal 和分割圖。(c)評分。紅框分別是對應於單詞(有效)、相近單詞和相互覆蓋的單詞(無效)的文字 proposal。文字框 proposal 的評分由旋轉的位置敏感 ROI 平均池化層(演算法1)計算。

訓練與推理

對於輸入訓練樣本,本文首先把 groundtruth 中的每個文字框(任意四邊形)轉化為一個能覆蓋這個文字框且面積最小的矩形,並確定 4 個角點的相對位置。轉化後的矩形相對位置應遵循以下原則:1)左上、左下角點的 x 軸必須分別小於右上、右下角點的 x 軸;2)左上、右上角點的 y 軸必須分別小於左下、右下角點的 y 軸。基於角點的相對位置,本文可以生成角點和位置敏感的分割的 groundtruth,如圖 5。

圖 5:為角點檢測和位置敏感分割生成標籤。 (a) 重新定義角點並用正方形表示(白色,紅色,綠色,藍色框),邊長設定為文字邊界框 R(黃框)的短邊。 (b) (a) 中對應於位置敏感分割的 R 的 groundtruth。

在推理階段,會產生很多包含預測位置、短邊長度和置信度資訊的角點。高分值角點(預設值大於0.5)被保留。NMS 之後,根據相對位置資訊組成 4 個角點集。取樣和分組角點之後會產生大量的候選邊界框。本文使用位置敏感的區域分割對候選文字框打分。處理過程如圖 6 所示。

圖 6:評分過程概覽。 (a) 中的黃框是候選框。(b) 是已預測分割圖。本文通過集合分割圖生成候選框的例項分段(c)。分值通過平均例項分段區域來計算。

為處理旋轉的文字邊界框,本文提出旋轉的位置敏感 ROI 平均池化層。具體地,對於一個旋轉的邊界框,本文首先把框分成 g x g 個 bin,對於每一個 bin,計算其對應預圖 bin區域內所有畫素的均值,最後對所有 bin 的均值求平均。具體過程如演算法 1 所示。

演算法 1:旋轉的位置敏感 ROI 平均池化層。

低評分的候選框將被過濾掉。本文預設閾值為 0.6。

實驗結果

為驗證本文方法的有效性,作者在 5 個數據集上開展實驗:ICDAR2015,ICDAR2013,MSRA-TD500,MLT,COCO-Text,分別檢測了多方向文字,水平文字,多方向長文字,多語種文字以及泛化能力。

多方向文字

本文在 ICDAR2015 資料上測試了該模型在任意方向文字檢測上的效能,並與其他當前最優方法進行對比,所有結果如表 2 所示。該方法大幅超越先前方法。當在單尺度上測試時,該方法的 F-measure 為 80.7%,優於其他所有方法;當在多尺度上測試時,該方法的 F-measure 為 84.3%,優於當前最佳方法 3.3%。

表 2:ICDAR2015 結果。∗ 表示多尺度,† 表示模型的基礎網路不是 VGG16。

水平文字

本文在 ICDAR2013 資料上測試了該模型在水平文字檢測上的效能,結果如表 3 所示。當在單尺度上測試時,該方法的 F-measure 為 85.8%,略低於最高值。另外,該方法每秒可處理 10.4 張影象,快於絕大多數方法。當在多尺度上測試時,該方法的 F-measure 為 88.0%,同樣很有競爭優勢。

表 3:ICDAR2013 結果。∗ 表示多尺度,† 表示模型的基礎網路不是 VGG16。注意,前三行的方法是在 “ICDAR2013” 評估協議下進行的。

多方向長文字

本文在 MSRA-TD500 資料上測試了該模型在多方向長文字檢測上的效能,結果如表 4 所示,其效能大幅優於先前所有方法。該方法在召回率、精確度和 F-measure 上同時取得當前最佳效能(87.6%,76.2% 和 81.5% ),並顯著優於先前最佳結果(81.5% vs. 77.0% )。這說明該方法較於其他方法更擅長檢測任意方向的長文字。

表 4:MSRA-TD500 結果。† 表示模型的基礎網路不是 VGG16。

多語種文字

本文在 MLT 資料上測試了該模型在多語種文字檢測上的效能。如表 5 所示,該方法超越其他方法至少 3.1%。

表 5:MLT 結果。∗ 表示多尺度。

泛化能力

為評估該模型的泛化能力,本文使用在 ICDAR2015 資料集上訓練得到的模型在 COCO-Text 資料集上進行測試,結果如表 6 所示。無需訓練,該方法在COCO-Text 資料集上的 F-measure 為 42.5%,優於其他方法。

表 6:COCO-Text 結果。∗ 表示多尺度。

結論

本文提出一種場景文字檢測器,它可以通過角點檢測和位置敏感分割定位文字。作者在若干個專門的多方向文字,水平文字,多方向長文字,多語種文字公共基準上評估了該檢測器,其優越的效能證實了該方法的有效性和魯棒性。

該方法的貢獻有如下 4 個方面:1)提出一種結合物體檢測和分割思想的新型場景文字檢測器,可以實現端到端的訓練與評估;2)基於位置敏感的 ROI 池化,提出一種位置敏感的旋轉 ROI 平均池化層,可以處理任意方向的 proposals;3)該方法可同時應對多種困擾先前多方向文字檢測方法的難點,比如旋轉、長寬比變化、非常接近的文字例項等;4)該方法在精度和效率方面同樣取得了更優或更具競爭力的結果。未來,作者將會基於該方法構建一個端到端的 OCR 系統。

參考文獻

[1] Zhou et al. EAST: An Efficient and Accurate Scene Text Detector. CVPR2017

[2] Fu et al .DSSD : Deconvolutional single shot detector. Arxiv

[3] Tychsen-Smith et al. Denet: Scalable realtime object detection with directed sparse sampling. ICCV2017

[4] Wang et al. Point linking network for object detection. Arxiv

[5] Dai et al. Instance-sensitive fully convolutional networks. ECCV2016

[6] Li et al. Fully convolutional instance-aware semantic segmentation. CVPR2017