1. 程式人生 > >EAST: An Efficient and Accurate Scene Text Detector

EAST: An Efficient and Accurate Scene Text Detector

EAST: An Efficient and Accurate Scene Text Detector

EAST:高效準確的場景文字檢測器

Abstract

先前的場景文字檢測方法已經在各種基準測試中取得了很好的成果。然而,在處理具有挑戰性的情況時,即使配備了深度神經網路模型,它們通常也會達不到,因為整體效能取決於管道中多個階段和元件的相互作用。在這項工作中,我們提出了一個簡單而強大的管道,可以在自然場景中快速準確地進行文字檢測。管道直接預測完整影象中任意方向和四邊形形狀的單詞或文字行,消除了使用單個神經網路的不必要的中間步驟(例如,候選聚合和字分割槽)。我們的管道簡單,可以集中精力設計損耗函式和神經網路架構。對標準資料集(包括ICDAR 2015,COCO-Text和MSRA-TD500)的實驗表明,所提出的演算法在準確性和效率方面明顯優於最先進的方法。在ICDAR 2015資料集上,所提出的演算法在720p解析度下以13.2fps達到0.7820的F分數

Introduction

最近,提取和理解自然場景中包含的文字資訊變得越來越重要和受歡迎,ICDAR系列競賽的前所未有的大量參與者[30,16,15]以及NIST對TRAIT 2016評估的啟動證明了這一點。[1]。

文字檢測作為後續過程的先決條件,在文字資訊提取和理解的整個過程中起著至關重要的作用。 先前的文字檢測方法[2,33,12,7,48]已經在該領域的各種基準上獲得了有希望的表現。 文字檢測的核心是區分文字和背景的功能設計。 傳統上,功能是手動設計[5,25,40,10,26,45]來捕捉場景文字的屬性,而基於深度學習的方法[3,13,11,12,7,48]有效的功能直接 從培訓資料中學習。

圖1. ICDAR 2015 [15]文字本地化挑戰的效能與速度。 可以看出,我們的演算法在準確性方面明顯優於競爭對手,同時執行速度非常快。 使用的硬體規格列於表格6。

然而,現有的方法,無論是傳統的還是基於深度神經網路的,主要由幾個階段和元件組成,這些階段和元件可能是次優的和耗時的。 因此,這些方法的準確性和效率仍遠遠不能令人滿意。

在本文中,我們提出了一個快速準確的場景文字檢測管道,它只有兩個階段。 該管道使用完全卷積網路(FCN)模型,該模型直接生成單詞或文字行級別預測,不包括冗餘和慢速中間步驟。 生成的文字預測(可以是旋轉的矩形或四邊形)被髮送到非最大抑制以產生最終結果。 根據標準基準的定性和定量實驗,與現有方法相比,該演算法實現了顯著提高的效能,同時執行速度更快。

具體而言,所提出的演算法在ICDAR 2015 [15](在多尺度下測試時為0.8072),在MSRA-TD500 [40]上為0.7608,在COCO-Text [36]上為0.3945時達到了0.7820的F分數,優於以前的狀態 - 效能最先進的演算法,平均花費的時間少得多(在Titan-X GPU上,我們最佳效能模型的解析度為720p,解析度為13.2fps,最快模型為16.8fps)。

這項工作的貢獻是三倍:

(1)我們提出了一種場景文字檢測方法,包括兩個階段:完全卷積網路和NMS合併階段。 FCN直接生成文字區域,不包括冗餘和耗時的中間步驟。

(2)管道可以靈活地生成字級或線級預測,其幾何形狀可以是旋轉框或四邊形,具體取決於具體應用。

(3)所提出的演算法在精度和速度方面明顯優於最先進的方法。

Related Work

場景文字的檢測和識別已經成為計算機視覺領域長期積極的研究課題。眾多鼓舞人心的思想和有效的方法[5,25,26,24,27,37,11,12,7,41,42,31] 已經進行過調查。綜合評論和詳細分析可以在調查論文中找到[50,35,43]。 本節將重點介紹與所提演算法最相關的工作。

傳統方法依賴於手動設計的特徵。 基於中風寬度變換(SWT)[5]和最大穩定極值區域(MSER)[25,26]的方法通常通過邊緣檢測或極值區域提取來尋找候選字元。 張等人。 [47]利用文字的區域性對稱性,併為文字區域檢測設計了各種特徵。 FASText [2]是一個快速文字檢測系統,適應和修改了眾所周知的用於中風提取的快速關鍵點檢測器。 然而,就精度和適應性而言,這些方法落後於基於深度神經網路的方法,尤其是在處理具有挑戰性的場景時,例如低解析度和幾何失真。

最近,場景文字檢測領域進入了一個新的時代,基於深度神經網路的演算法[11,1348,7]逐漸成為主流。黃等人。 [11]首先找到使用MSER的候選人,然後使用深度卷積網路作為強分類器來修剪誤報。 Jaderberg等人的方法。 [13]以滑動視窗的方式掃描影象,並使用卷積神經網路模型為每個尺度生成密集的熱圖。後來,Jaderberg等人。 [12]同時使用CNN和ACF來搜尋候選詞,並使用迴歸進一步細化它們。田等人。 [34]開發了垂直錨,並構建了CNN-RNN聯合模型來檢測水平文字行。與這些方法不同,張等人。 [48]建議利用FCN [23]進行熱圖生成,並使用分量投影進行方位估計。這些方法在標準基準測試中獲得了優異的效能然而,如圖2(a-d)所示,它們主要由多個階段和元件組成,例如通過後置濾波的假陽性去除,候選聚合,線形成和字分割槽。多個階段和元件可能需要進行詳盡的調整,從而導致次優效能,並增加整個流水線的處理時間。

圖2.最近幾個關於場景文字檢測的作品的管道比較:(a)Jaderberg等人提出的水平字檢測和識別管道。[12]; (b)Zhang等人提出的多方位文字檢測流程。[48]; (c)Yao等人提出的多方位文字檢測流程。[41]; (d)使用CTPN進行水平文字檢測,由Tian等人提出。[34]; (e)我們的管道消除了大多數中間步驟,只包含兩個階段,比以前的解決方案簡單得多。

在本文中,我們設計了一個基於FCN的深層管道,直接針對文字檢測的最終目標:單詞或文字行級別檢測。 如圖2(e)所示,該模型放棄了不必要的中間元件和步驟,並允許端到端的培訓和優化。 由此產生的系統配備了單個輕量級神經網路,在效能和速度方面都明顯優於所有以前的方法。

Methodology

所提出的演算法的關鍵組成部分是神經網路模型,其被訓練以從完整影象直接預測文字例項及其幾何形狀的存在。 該模型是一個完全卷積的神經網路,適用於文字檢測,輸出密集的每畫素單詞或文字行預測。 這消除了候選提案,文字區域形成和文字分割槽等中間步驟。 後處理步驟僅包括預測幾何形狀的閾值和NMS。 探測器被命名為EAST,因為它是一個高效精確的場景文字檢測管道。

Pipeline

我們的管道的高階概述如圖2(e)所示。 該演算法遵循DenseBox [9]的一般設計,其中影象被饋送到FCN,並且生成多個畫素級文字得分圖和幾何通道。

預測通道之一是得分圖,其畫素值在[0;1]。 其餘通道表示從每個畫素的檢視中包圍該單詞的幾何。 分數代表在相同位置預測的幾何形狀的置信度。

我們已經為文字區域,旋轉框(RBOX)和四邊形(QUAD)實驗了兩種幾何形狀,併為每個幾何設計了不同的損失函式。然後將閾值應用於每個預測區域,其中分數超過預定義閾值的幾何 被認為是有效的並儲存用於以後的非最大抑制。 NMS之後的結果被認為是管道的最終輸出。

Network Design

在設計用於文字檢測的神經網路時必須考慮幾個因素。由於字區域的大小(如圖5所示)變化很大,因此確定大字的存在需要來自神經網路後期的特徵,而預測包含小字區域的精確幾何需要早期階段的低階資訊。 。因此,網路必須使用不同級別的功能來滿足這些要求。 HyperNet [19]在特徵對映上滿足這些條件,但在大特徵對映上合併大量通道會顯著增加後續階段的計算開銷。

為了解決這個問題,我們採用U形[29]的思想逐步合併特徵圖,同時保持上取樣分支小。我們一起最終得到的網路既可以利用不同級別的功能,又可以保持較低的計算成本。

我們模型的示意圖如圖3所示。該模型可以分解為三個部分:特徵提取器幹,特徵合併分支和輸出層。幹可以是在ImageNet [4]資料集上預先訓練的卷積網路,具有交錯卷積和池化層。從莖中提取四個級別的特徵圖,表示為fi,其大小分別為輸入影象的32 1,16,18和14。在圖3中,描繪了PVANet [17]。在我們的實驗中,我們還採用了眾所周知的VGG16 [32]模型,其中提取了pooling-2到pooling-5之後的特徵對映。在特徵合併分支中,我們逐漸合併它們:

其中gi是合併基礎,hi是合併的特徵對映,運算子[·; ·]表示沿通道軸的連線。 在每個合併階段,來自最後一個階段的特徵對映首先被饋送到解開層以使其大小加倍,然後與當前特徵對映連線。 接下來,conv1×1瓶頸[8]減少了通道的數量並減少了計算,接著是融合資訊的conv3×3,最終產生該合併階段的輸出。 在最後一個合併階段之後,conv3×3層產生合併分支的最終特徵圖並將其饋送到輸出層。

每個卷積的輸出通道數量如圖3所示。我們將分支中的卷積通道數保持較小,這樣只增加了一小部分計算開銷,使網路計算效率更高。 最終輸出層包含幾個conv1×1操作,以將32個通道的特徵對映投影到1通道的得分圖Fs和多通道幾何圖Fg中。 幾何輸出可以是RBOX或QUAD之一,在Tab1。

圖3.文字檢測FCN的結構

對於RBOX,幾何形狀由4個通道的軸對齊邊界框(AABB)R和1個通道旋轉角θ表示。 R的公式與[9]中的公式相同,其中4個通道分別表示從畫素位置到矩形的頂部,右側,底部,左邊界的4個距離。

對於QUAD Q,我們使用8個數字來表示從四個角頂點fpi j i2f1的座標偏移;2;3; 4gg的四邊形到畫素位置。 由於每個距離偏移包含兩個數字(Δxi;Δyi),因此幾何輸出包含8個通道。

表1.輸出幾何設計

Label Generation

Score Map Generation for Quadrangle

不失一般性,我們只考慮幾何是四邊形的情況。 分數圖上的四邊形的正面積被設計為大致縮小的原始面積,如圖4(a)所示。

對於四邊形Q = fpiji 2 f1;2;3; 4gg,其中pi = fxi; yig是四邊形上的頂點,順時針順序。為了縮小Q,我們首先計算每個頂點pi的參考長度ri為:

其中D(pi; pj)是pi和pj之間的L2距離。

我們首先縮小四邊形的兩個較長邊,然後縮小兩個較短邊。 對於每對兩個相對的邊,我們通過比較它們的長度的平均值來確定“更長”的對。 對於每個邊緣hpi; p(i mod 4)+ 1i,我們通過將兩個端點沿邊緣向內移動0:3ri和0:3r(i mod 4)+1來縮小它。

圖4.標籤生成過程:(a)文字四邊形(黃色虛線)和收縮四邊形(綠色實心); (b)文字分數圖; (c)RBOX幾何圖生成; (d)每個畫素到矩形邊界的4個通道距離; (e)旋轉角度。

Geometry Map Generation

如第二節所述。 3.2,幾何圖可以是RBOX或QUAD之一。 RBOX的生成過程如圖4(c-e)所示。

對於那些文字區域以QUAD樣式註釋的資料集(例如,ICDAR 2015),我們首先生成一個旋轉的矩形,覆蓋區域最小的區域。 然後對於每個具有正分數的畫素,我們計算它到文字框的4個邊界的距離,並將它們放到RBOX地面實況的4個通道中。 對於QUAD基礎事實,8通道幾何圖中具有正分數的每個畫素的值是其從四邊形的4個頂點的座標偏移。

Loss Functions

損失可以表述為:

其中Ls和Lg分別代表得分圖和幾何的損失,λg衡量兩次損失之間的重要性。 在我們的實驗中,我們將λg設定為1。

Loss for Score Map

在大多數最先進的檢測管道中,通過平衡取樣和硬負採礦精心處理訓練影象,以解決目標物體的不平衡分佈[9,28]。 這樣做可能會提高網路效能。 然而,使用這些技術不可避免地引入了不可微分的階段和更多的引數來調諧和更復雜的管道,這與我們的設計原理相矛盾。

為了便於更簡單的訓練過程,我們使用[38]中引入的classbalanced交叉熵,由下式給出:

其中Y ^ = Fs是得分圖的預測,Y *是基本事實。 引數β是正樣本和負樣本之間的平衡因子,由下式給出

這種平衡的交叉熵損失首先在Yao等人的文字檢測中被採用。 [41]作為得分圖預測的目標函式。 我們發現它在實踐中運作良好。

Loss for Geometries

文字檢測的一個挑戰是自然場景影象中文字的大小差別很大。 直接使用L1或L2損失進行迴歸將指導較大和較長文字區域的損失偏差。 由於我們需要為大文字區域和小文字區域生成準確的文字幾何預測,因此迴歸損失應該是規模不變的。因此,我們採用RBOX迴歸的AABB部分中的IoU損失,以及規模歸一化的平滑L1損失 用於QUAD迴歸。

RBOX對於AABB部分,我們採用[46]中的IoU損失,因為它對不同尺度的物體是不變的。

其中R ^表示預測的AABB幾何,R *是其對應的基礎事實。 很容易看出相交矩形的寬度和高度為jR ^ \ R * j

其中d1,d2,d3和d4分別表示從畫素到其對應矩形的頂部,右側,底部和左側邊界的距離。 工會區域由。給出

因此,可以容易地計算交叉/聯合區域。 接下來,計算旋轉角度的損失:

其中θ^是對旋轉角度的預測,θ*表示基本事實。 最後,整體幾何損失是AABB損失和角度損失的加權和,由下式給出

在我們的實驗中λθ設定為10。

請注意,無論旋轉角度如何,我們都會計算LAABB。 當角度被完美預測時,這可以看作是四邊形IoU的近似值。 雖然在訓練期間不是這種情況,但它仍然可以為網路施加正確的梯度以學習預測R ^。

QUAD我們通過新增為單詞四邊形設計的額外歸一化項來擴充套件[6]中提出的平滑L1損失,這通常在一個方向上更長。 設Q的所有座標值都是有序集

其中歸一化項NQ *是四邊形的短邊長度,由下式給出

和PQ是Q *的所有等效四邊形的集合,具有不同的頂點排序。 由於公共訓練資料集中的四邊形註釋不一致,因此需要這種排序排列。

Training

使用ADAM [18]優化器對網路進行端到端的培訓。 為了加快學習速度,我們從影象中均勻地採集512x512作物,形成24小時的小批量.ADAM的學習率從1e-3開始,每27300個小批量衰減到十分之一,停在1e-5。 訓練網路直到效能停止改善。

Locality-Aware NMS

為了形成最終結果,在閾值處理之後存在的幾何結構應該由NMS合併。一個簡單的NMS演算法在O(n2)中執行,其中n是候選幾何的數量,這是不可接受的,因為我們正面臨來自密集預測的數萬個幾何。

假設來自附近畫素的幾何圖形往往高度相關,我們建議逐行合併幾何圖形,同時在同一行中合併幾何圖形時,我們將迭代地合併當前遇到的幾何圖形和最後合併的幾何圖形。這種改進的技術在最佳場景下以O(n)執行1。即使最壞的情況與天真的情況相同,只要地點假設成立,演算法在實踐中執行得足夠快。該過程總結在演算法1中

值得一提的是,在WEIGHTEDMERGE(g; p)中,合併四邊形的座標通過兩個給定四邊形的分數進行加權平均。具體而言,如果a = WEIGHTEDMERGE(g; p),則ai = V(g)gi + V(p)pi和V(a)= V(g)+ V(p),其中ai是其中之一i的下標座標,V(a)是幾何a的得分。

實際上,我們正在“平均”而不是“選擇”幾何形狀存在一個微妙的差異,就像在標準的NMS程式中那樣,作為一種投票機制,這反過來又會在播放視訊時引入穩定效果。但是,我們仍然仍然採用“NMS”這個詞進行功能描述。

Experiments

為了將提出的演算法與現有方法進行比較,我們對三個公共基準進行了定性和定量實驗:ICDAR2015,COCO-Text和MSRA-TD500。

Benchmark Datasets

ICDAR 2015用於ICDAR 2015強力閱讀比賽的挑戰4 [15]。它包括總共1500張圖片,其中1000張用於培訓,其餘用於測試。文字區域由四邊形的4個頂點註釋,對應於本文中的QUAD幾何。我們還通過擬合具有最小面積的旋轉矩形來生成RBOX輸出。這些影象由Google Glass以偶然的方式拍攝。因此,場景中的文字可以處於任意方向,或者遭受運動模糊和低解析度。我們還使用了ICDAR 2013的229張訓練影象。

COCO-Text [36]是迄今為止最大的文字檢測資料集。它重用了MS-COCO資料集[22]中的影象。共註釋了63,686張影象,其中選擇了43,486作為訓練集,其餘20,000作為測試。字區域以軸對齊邊界框(AABB)的形式註釋,這是RBOX的特例。對於此資料集,我們將角度θ設定為零。我們使用與ICDAR 2015中相同的資料處理和測試方法。

MSRA-TD500 [40]是一個包含300個訓練影象和200個測試影象的資料集。文字區域具有任意方向,並在句子級別註釋。與其他資料集不同,它包含英文和中文文字。文字區域以RBOX格式註釋。由於訓練影象的數量太少而無法學習深層模型,因此我們還利用來自HUSTTR400資料集[39]的400幅影象作為訓練資料。

Base Networks

除了COCO-Text之外,與一般物體檢測的資料集相比,所有文字檢測資料集相對較小[21,22],因此如果所有基準採用單一網路,則可能會出現過度擬合或不合適的情況。 。我們在所有資料集上嘗試了三種不同的基本網路,具有不同的輸出幾何,以評估所提出的框架。 Tab中總結了這些網路。 2。

VGG16 [32]在許多工[28,38]中被廣泛用作基礎網路,以支援隨後的任務特定的微調,包括文字檢測[34,48,49,7]。這個網路有兩個缺點:(1)。該網路的接收領域很小。 conv5 3的輸出中的每個畫素僅具有196的感受域。(2)。這是一個相當大的網路。

PVANET是[17]中引入的輕量級網路,旨在替代Faster-RCNN [28]框架中的特徵提取器。由於GPU太小而無法充分利用計算並行性,我們還採用PVANET2x,使原始PVANET的通道加倍,利用更多的計算並行性,同時執行速度比PVANET稍慢。這在第二部分詳述。 4.5。最後一個卷積層輸出的感受域是809,比VGG16大得多。模型在ImageNet資料集[21]上進行了預訓練。

Qualitative Results

圖5描繪了所提出的演算法的幾個檢測示例。 它能夠處理各種具有挑戰性的場景,例如非均勻照明,低解析度,變化的方向和透視失真。 此外,由於NMS程式中的投票機制,所提出的方法對具有各種形式的文字例項的視訊表現出高度的穩定性2。

所提出的方法的中間結果在圖6中示出。可以看出,訓練的模型產生高度精確的幾何圖和分數圖,其中容易形成不同方向的文字例項的檢測。

Quantitative Results

如表格所示。 3和Tab。 4,我們的方法在ICDAR 2015和COCO-Text上大大優於以前最先進的方法。

在ICDAR 2015 Challenge 4中,當影象以其原始比例進給時,所提出的方法實現了0.7820的Fscore。 當使用相同網路在多個等級3進行測試時,我們的方法在F分數中達到0.8072,在絕對值(0.8072對0.6477)方面比最佳方法[41]高近0.16。

使用VGG16網路[34,48,41]比較結果,當使用QUAD輸出時,所提出的方法也優於之前的最佳工作[41] 0.0924,使用RBOX輸出時優於0.116。 同時,這些網路非常有效,如第4.5節所示。

在COCO-Text中,所提出的演算法的所有三個設定都比先前的最佳表現者具有更高的準確度[41]。 具體而言,Fscore中[41]的改進為0.0614,而召回時的改進為0.053,這證實了所提演算法的優勢,因為COCO-Text是迄今為止最大和最具挑戰性的基準。 請注意,我們還將[36]的結果作為參考包含在內,但這些結果實際上不是有效的基線,因為方法(A,B和C)用於資料註釋。

與先前方法相比,所提演算法的改進證明,直接針對最終目標並消除冗餘過程的簡單文字檢測管道可以擊敗精心設計的管道,甚至是那些與大型神經網路模型整合的管道。

如表格所示。 5,在MSRA-TD500上我們所有的三種設定方法都取得了優異的效果。表現最佳的Fscore(Ours + PVANET2x)略高於[41]。與Zhang等人的方法相比。 [48],先前釋出的最先進的系統,表現最佳的(Ours + PVANET2x)F分數提高了0.0208,精度提高了0.0428。

請注意,在MSRA-TD500上,配備VGG16的演算法比使用PVANET和PVANET2x(0.7023與0.7445和0.7608)相比差得多,主要原因是VGG16的有效感受野小於PVANET和PVANET2x,而MSRA-TD500的評估協議要求文字檢測演算法輸出行級而不是字級預測。

此外,我們還根據ICDAR 2013基準評估了Ours + PVANET2x。它在召回率,精度和F值方面達到0.8267,0.9264和0.8737,與之前的最新方法[34]相當,後者在召回率,精度和F值方面獲得0.8298,0.9298和0.8769,分別。

Speed Comparison

Tab中展示了整體速度比較。 6。

我們報告的數字是使用我們表現最佳的網路,通過ICDAR 2015資料集以原始解析度(1280x720)執行500個測試影象的平均值。這些實驗是在伺服器上使用具有Maxwell架構和Intel E5-2670 v3 @ 2.30GHz CPU的單個NVIDIA Titan X圖形卡進行的。對於所提出的方法,後處理包括閾值處理和NMS,而其他人應該參考他們的原始論文。

雖然所提出的方法明顯優於最先進的方法,但計算成本保持很低,歸因於簡單而有效的流水線。從Tab可以看出。 6,我們方法的最快設定以16.8 FPS的速度執行,而最慢設定以6.52 FPS執行。即使是效能最佳的型號Ours + PVANET2x也能以13.2 FPS的速度執行。這證實了我們的方法是最有效的文字檢測器之一,可以在基準測試中實現最先進的效能。

Limitations

檢測器可以處理的文字例項的最大大小與網路的接收場成比例。 這限制了網路預測更長文字區域的能力,例如跨越影象的文字行。

此外,該演算法可能會錯過或給出垂直文字例項的不精確預測,因為它們僅佔ICDAR 2015訓練集中的一小部分文字區域。

Conclusion and Future Work

我們已經提出了一個場景文字檢測器,它使用單個神經網路直接從完整影象生成單詞或行級預測。 通過結合適當的損耗函式,檢測器可以根據具體應用預測文字區域的旋轉矩形或四邊形。 在標準基準測試上的實驗證實,所提出的演算法在準確性和效率方面基本上優於先前的方法。

未來研究的可能方向包括:(1)調整幾何公式以允許直接檢測彎曲文字; (2)將檢測器與文字識別器整合; (3)將思想擴充套件到一般物體檢測。