1. 程式人生 > >【論文速讀】XiangBai_CVPR2018_Rotation-Sensitive Regression for Oriented Scene Text Detection

【論文速讀】XiangBai_CVPR2018_Rotation-Sensitive Regression for Oriented Scene Text Detection

XiangBai_CVPR2018_Rotation-Sensitive Regression for Oriented Scene Text Detection

作者和程式碼

caffe程式碼

關鍵詞

文字檢測、多方向、SSD、$$xywh\theta$$、one-stage,開源

方法亮點

  • 核心思想認為,分類問題對於旋轉不敏感,但迴歸問題對於旋轉是敏感的,因此兩個任務不應該用同樣的特徵。所以作者提出來基於旋轉CNN的思路,先對特徵做不同角度的旋轉,該特徵用於做框的迴歸,而對分類問題,採用沿oriented response pooling,所以對旋轉不敏感。

    Text coordinates are sensitive to text orientation. Therefore, the regression of coordinate offsets should be performed on rotation-sensitive features.

    In contrast to regression, the classification of text presence should be rotation-invariant, i.e., text regions of arbitrary orientations should be classified as positive.

Figure 1: Visualization of feature maps and results of baseline and RRD. Red numbers are the classification scores. (b): the shared feature map for both regression and classification; (c): the result of shared feature; (d) and (e): the regression feature map and classification feature map of RRD; (f): the result of RRD.

  • 首次使用Oriented Response Convolution來做文字檢測

方法概述

本文方法是SSD進行修改,除了修改輸出預測4個點座標偏移量來檢測傾斜文字外,還利用了ORN來提取旋轉敏感的文字特徵,然後在分類分支增加最大池化來提取針對分類不敏感的特徵。

方法細節

網路結構

該網路結構由SSD改造,不同的是原來的多層融合側邊連線是普通的卷積,但這裡換成了RSR。每一個RSR分為兩個部分,第一部分是把卷積改成多種不同方向的oriented convolution。第二部分是用來做predicition,包括regression和classification兩個分支。classification分支的不同地方在於多了一個oriented response pooling。

Figure 2: Architecture of RRD. (a) The rotation-sensitive backbone follows the main architecture of SSD while changing its convolution into oriented response convolution. (b) The outputs of rotation-sensitive backbone are rotation-sensitive feature maps, followed by two branches: one for regression and another for classification based on oriented response pooling. Note that the inception block is optional.

ORN(Oriented response net-works)

目的:通過使用旋轉濾波器(active rotating filters,ARF)來提起對旋轉敏感(rotation-sensitive)的卷積特徵

方法來源:Y. Zhou, Q. Ye, Q. Qiu, and J. Jiao. Oriented response networks. In CVPR, 2017.

github連結:https://github.com/ZhouYanzhao/ORN

主要思想:

Rotation-Invariant Classification

簡單說,就是把所有方向的結果逐畫素取個最大值。如果文字是某個方向的,那麼對應的方向的response應該比較大,這樣就能把該方向的特徵抽取出來(因為原來的feature有多個方向的,但只給定feature是不知道具體是哪個方向的,不能把它單獨拿出來,用Max就可以不管是哪個方向都能提取出來)。

The rotationsensitive feature maps are pooled along their depth axis.

Default Boxes

使用四個頂點的四邊形來表示。最後prediction的是四個點座標的offset。

訓練
  • 作者argue第一個點的選擇很重要,文中採用了textbox++提供的方法來確定第一個點

  • 計算IOU的時候為了簡化直接用了最外接矩形bb的IOU

  • 損失函式 = 分類-2類softmax損失 + 迴歸-smooth_L1損失

實驗結果

  • Ablation 實驗

Baseline: architecture without inception block, using shared conventional feature maps for both regression and classification;

Baseline+inc: baseline architecture using inception blocks;

Baseline+inc+rs: architecture with inception block, using rotation-sensitive features for both regression and classification;

Baseline+inc+rs+rotInvar: the proposed RRD. Note that for word-based datasets, inception block is not applied and we also name it RRD.

  • 在RCTW-17、ICDAR2015、MSRA-TD500上的實驗結果

  • 不同IOU實驗結果

  • ICDAR2013實驗結果

  • 在其他資料集(ship,HRSC2016)檢測上結果

  • 當前文字檢測結果中常見的歧義性

總結與收穫

這篇文章的key idea和R-FCN有點像。檢測對於平移、旋轉具有敏感性,但分類不具有。所以這篇文章的方法是通過一個最大池化來去掉分類特徵對旋轉的敏感性。另外,這是第一篇把oriented response net-works引入ocr檢測的文章。