1. 程式人生 > >自然場景文字處理論文整理 (5)Detecting Curve Text in the Wild: New Dataset and New Solution

自然場景文字處理論文整理 (5)Detecting Curve Text in the Wild: New Dataset and New Solution

這篇文章是在自然場景文字處理中針對彎曲問題做的非常好的一篇文章。後面打算先用這篇論文來做實驗。
paper:https://arxiv.org/abs/1712.02170
github:https://github.com/Yuliang-Liu/Curve-Text-Detector

一、摘要

場景文字檢測近年來取得了很大進展。 檢測方式從軸對齊矩形演變為旋轉矩形,進一步演變為四邊形。 但是,當前資料集包含非常少的曲線文字,這種現象可以在場景影象(如招牌,產品名稱等)中廣泛觀察到。 為了提出在廣泛的閱讀曲線文字的問題,在本文中,我們構建了一個名為CTW1500的曲線文字資料集,其中包括1,500個影象中的超過10k文字註釋(1000個用於訓練,500個用於測試)。 基於該資料集,我們開創性地提出了一種基於多邊形的曲線文字檢測器(CTD),它可以直接檢測曲線文字而無需經驗組合。此外,通過無縫地整合迴圈橫向和縱向偏移連線(TLOC),所提出的方法可以是端對端

可訓練的,以學習位置偏移之間的固有連線。這允許CTD探索上下文資訊而不是獨立地預測點,從而導致更平滑和準確的檢測。我們還提出了兩種簡單但有效的後處理方法,即非多邊抑制(NPS)和多邊形非最大抑制(PNMS),以進一步提高檢測精度。此外,本文提出的方法是以通用的方式設計的,也可以用矩形或四邊形邊界框進行訓練而無需額外的努力。 CTW-1500的實驗結果表明,我們只使用輕骨架的方法可以大大優於最先進的方法。 通過僅在曲線或非曲線子集中進行評估,CTD + TLOC仍然可以獲得最佳結果。 程式碼可在https://github.com/Yuliang-Liu/Curve-Text-Detector獲得。

二、介紹

據觀察,來自新興資料集的文字邊界框的標籤也從矩形到柔性四邊形發展。場景文字檢測方法的進步也從基於軸對齊的矩形到基於旋轉的矩形和基於四邊形而變化。 一旦邊界框變得更緊湊和靈活,它可以提高檢測置信度,降低被後處理抑制的風險,並有利於後續的文字識別。
為了識別場景文字,強烈要求文字可以提前緊密且穩健地進行本地化。然而,當前資料集具有非常少的曲線文字,並且用四邊形單獨的矩形標記這樣的文字是有缺陷的。 例如,如圖1所示,使用曲線邊界框有三個顯著的優點:
•避免不必要的重疊
•減少背景噪音。
•避免多個文字行
根據我們的觀察,對於所有型別的曲線文字區域,14點多邊形足以定位它們,如圖1和圖2所示。通過使用引用的等分線,它不需要太多的人力來標記。

與傳統的檢測方法不同,CTD將分支的寬度/高度偏移預測分開,可以在速度為13 FPS的情況下以低於4GB的視訊記憶體執行。 此外,網路架構可以與我們提出的巧妙方法無縫整合,即橫向和縱向偏移連線(TLOC),它使用RNN來學習定位點之間的固有連線,使檢測更加準確和平滑。 CTD也被設計為通用方法,可以使用矩形和四邊形邊界框進行訓練,無需額外的手動標籤。 提出了兩種簡單但有效的後處理方法,即非多邊形抑制(NPS)和多邊形非最大抑制(PNMS),以進一步加強CTD的泛化能力。

本文提供標籤工具手動標記文字,以及標註曲線文字的方法。

3、CTW1500 Dataset and Annotation

資料描述。 CTW1500資料集包含1500個影象,10,751個邊界框(3,530個是曲線邊界框),每個影象至少有一個曲線文字。 這些影象是從網際網路手動收集的,影象庫如谷歌Open-Image [18]和我們自己的手機攝像頭收集的資料,其中還包含大量水平和多向文字。 影象的分佈是多種多樣的,包括室內,室外,天生數字,模糊,透視畸變文字等。 此外,我們的資料集是多語言的,主要是中文和英文文字。

我們使用我們的標籤工具手動標記文字。對於標記水平或四邊形的文字,只需要兩次或四次點選。為了包圍曲線文字,我們建立十條等距參考線以幫助標記額外的10個點(我們實際上發現額外的10個點足以標記所有型別的 曲線文字如圖2所示。 我們使用等距線的原因是為了簡化標記工作,減少主觀干擾。 為了評估定位效能,我們只需遵循PASCAL VOC協議[7],該協議使用0.5 IoU閾值來確定真或假陽性。 唯一的區別是我們計算多邊形之間的精確交叉(IoU)而不是軸對齊的矩形。
這裡寫圖片描述
標記過程如圖3所示。首先,我們單擊標記為1,2,3,4的四個頂點,並自動建立引用的虛線(藍色)。 將滑鼠的一條參考線(水平和垂直黑色虛線)移動到適當的位置(兩條參考線的交點),然後單擊以確定下一個點,依此類推剩餘點。 我們粗略計算表1中三種形狀文字的標記時間,其中顯示標記一條曲線文字比使用四邊形標記消耗大約三倍的時間。 可以從https://github.com/Yuliang-Liu/Curve-Text-Detector下載CTW1500資料集。

4、網路框架:

我們CTD的整體架構如圖4所示,它可以分為三個部分:骨骼,RPN和迴歸模組。 Backbone通常採用流行的ImageNet [5]預訓練模型,然後使用相應的模型進行微調,如VGG-16,ResNet 等。 區域提議網路(RPN)和迴歸模組分別連線到骨幹網; 前者產生粗略回憶文字的提議,而後者則精心調整提案以使其更加嚴格。

在本文中,我們使用簡化的ResNet-50(簡單地刪除最後一個殘餘塊)作為我們的主幹,這需要更少的記憶體並且可以更快。 在RPN階段,我們使用預設的矩形錨來粗略呼叫文字,但我們設定了一個非常寬鬆的RPN-NMS閾值以避免過早抑制。 為了檢測具有多邊形的曲線文字,CTD只需要通過新增曲線定位點來修改迴歸模組,這受到DMPNet [21]和East [38]的啟發,採用四邊形迴歸分支與外接矩形迴歸分離。 矩形分支可以很容易地通過網路學習並讓它快速轉換,這也可以粗略地檢測高階文字區域並減輕後續行為迴歸。 相反,四邊形分支提供更強的監督,以指導網路更準確。

與[25,21]類似,我們也迴歸每個點的相對位置。 與[21]不同,我們使用外接矩形的最小x和最小y作為基準點。 因此,每個點的相對長度w i和h i(i∈1,2,…,14)大於零,這在實踐中更容易訓練。 此外,我們分別預測偏移w和h,這不僅可以減少引數,而且可以更加合理地進行順序學習,如以下小節所述。 迴歸專案總數為32; 28是14點的偏移量,4是外接矩形的x,y最小值和最大值。 下面列出了14個偏移(d w i和d h i)的引數化:
這裡寫圖片描述
其中,p *和p分別是基礎事實和預測偏移。 此外,w chr和h chr是外接矩形的寬度和高度。 對於邊界迴歸,我們遵循與更快的R-CNN相同[25]。 值得注意的是,28個值足以確定14個點的位置,但在相對迴歸模式中,32個值可以更容易地檢索剩餘的14個點並提供更強的監督。
這裡寫圖片描述

由於篇幅原因,剩下推理部分這裡就不闡述了。

4、實驗結果

這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述