1. 程式人生 > >Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation 論文詳解

Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation 論文詳解

Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation發表於2018年的cvpr,該文章通過結合角點檢測和影象分割來對影象文字進行定位

Introduction

目前文字定位方法分為兩個分支,一是基於物體檢測的方法(SSD,YOLO,DenseBox),如TextBoxes,FCRN,EAST等。還一種是基於影象分割的方法。本文是將上述兩種方法結合,提出的一種新的檢測方法。

通過文章的結果可以看出F-measure會比EAST高一點,但是速度比EAST慢。

Network

文章中的網路結構採用FPN/DSSD的網路結構,如下圖所示
在這裡插入圖片描述

1. Feature Extraction
如上圖紅色框所示,文中採用VGG16,將fc6和fc7層換成卷積層conv6和conv7,並在後面添加了一些卷積層(conv8, conv9, conv10, conv11),用於增加感受野的範圍。之後採用DSSD的top-down pathway結構,解卷積採用了從conv11到conv3的feature map(其中conv10到conv3的featrue map被重用),輸出的feature命名為 F

3 , F 4 , F 7 , F
8
, F 9 , F 10 , F 11 F_{3},F_{4},F_{7},F_{8},F_{9},F_{10},F_{11} 。最後得到的conv11,和所有解卷積的feature maps用於角點和位置敏感圖(position-sensitive)的預測

2. Corner Detection
對於一個旋轉矩陣來講,可以通過順時針分佈的四個角點 { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) , ( x 4 , y 4 ) } \{(x_{1},y_{1}),(x_{2},y_{2}),(x_{3},y_{3}),(x_{4},y_{4})\} 來得到,這四個點位置分別為左上,右上,左下,右下。為了更方便的檢測角點,文中對角點進行的新的定義, C = ( x c , y c , s s , s s ) C=(x_{c},y_{c},ss,ss) ,其中 x c , y c x_{c},y_{c} 代表一個角點如( x 1 , y 1 x_{1},y_{1} 這個左上角點),同時它也是一個水平矩形的中心點,ss代表的是待檢測旋轉矩形的短邊。這裡意思就是將待檢測角點用一個水平矩形表示,角點的位置就是這個水平矩形的中心,檢測出水平矩形就相當於檢測出角點的位置。

通過上面角點的重新定義,檢測角點的方法就可以類似於SSD和DSSD,利用定義的default boxes(類似於Faster RCNN中的anchor boxes)來進行矩形的檢測。與物體檢測有所不同的是,同一個位置可能存在多個角點(例如同一個位置可能同時為左下角點和右上角點)。所以對於大小為 m × n m\times n 的feature map同時有k個default boxes的情況,score branch輸出的類別分數(是否存在角點)通道數為 k × q × 2 k\times q \times 2 ,offset branch輸出的通道數為 k × q × 4 k\times q \times 4 ,其中q代表角點的型別,預設為4。這部分如上圖中的黃色框所示。

default boxes的scales設定如下表所示,其中default boxes的長寬高比為1。
在這裡插入圖片描述

3. Position-Sensitive Segmentation
這部分如上圖中的藍色框所示
對於一個文字框,可以將框等分為 g × g g\times g 部分,本文中分為 2 × 2 2\times 2 也就是四個區域,這部分的預測用於對上面檢測出的框打分使用。下面會說明。
這部分的輸出是重用了 F 3 , F 4 , F 7 , F 8 , F 9 F_{3},F_{4},F_{7},F_{8},F_{9} ,上採用至 F 3 F_{3} 大小然後相加,最後連續使用兩個Conv1x1- BN-ReLU-Deconv2x2 塊,得到 g × g g\times g 通道大小與輸入影象一樣的feature map。

Training and Inference

1.Training-Label Generation
對於每個輸入訓練樣本,首先將標註轉換成包圍字元區域最小的矩形,然後確定4個角點的位置。

對於一個旋轉矩形,4個角點的確定遵循下面兩個規則:

  1. 左上與左下兩個點的x座標小於右上和右下兩個點的x座標
  2. 左上與右上兩個點的y座標小於右上和右下兩個點的y座標

通過確定好的4個角點就可以確定旋轉矩陣的位置了,計算旋轉矩陣的短邊就可以使用一個水平正方形重新定義角點了,通過一件確定的旋轉矩陣可以很方便的求的position-sensitive segmentation掩碼,所得的label結果如下圖所示

在這裡插入圖片描述

2.Training-Optimization
損失函式如下:
L = 1 N L c o n f + λ 1 N c L l o c + λ 2 N s L s e g L= \frac{1}{N}L_{conf}+\frac{\lambda_{1}}{N_{c}}L_{loc}+\frac{\lambda_{2}}{N_{s}}L_{seg}

其中, L c o n f L_{conf} L l o c L_{loc} 表示角點檢測中score branch和offset branch輸出的loss, L s e g L_{seg} 表示position-sensitive segmentation的損失函式。 N c N_{c} 表示正例default boxes的個數, N s N_{s} 表示分割maps中的畫素個數(分割)。 λ 1 \lambda_{1} λ 2 \lambda_{2} 為loss函式的平衡因子,文中分別取值為1和10。

L c o n f L_{conf} 採用的是交叉熵計算
L c o n f = C r o s s E n t r o p y ( y c , p c ) L_{conf}=CrossEntropy(y_{c},p_{c})

相關推薦

Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation 論文

Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation發表於2018年的cvpr,該文章通過結合角點檢測和影象分割來對影象文字進行定位 Introduction 目前文字定

Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation

摘要 先前基於深度學習的最先進的場景文字檢測方法可大致分為兩類。第一類將場景文字視為一般物件的型別,並遵循一般物件檢測範例,通過迴歸文字框位置來定位場景文字,但是受到場景文字的任意方向和大縱橫比的困擾。第二個直接分割文字區域,但大多數需要複雜的後期處理。在本文中,我們提出了一種方法,它結合了兩種

論文速讀】Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation[2018-CPVR]

方法概述 該方法用一個端到端網路完成文字檢測整個過程——除了基礎卷積網路(backbone)外,包括兩個並行分支和一個後處理。第一個分支是通過一個DSSD網路進行角點檢測來提取候選文字區域,第二個分支是利用類似於RFCN進行網格劃分的方式來做position-sensitive的segmentation。後

論文速讀】XiangBai_CVPR2018_Rotation-Sensitive Regression for Oriented Scene Text Detection

XiangBai_CVPR2018_Rotation-Sensitive Regression for Oriented Scene Text Detection 作者和程式碼 caffe程式碼 關鍵詞 文字檢測、多方向、SSD、$$xywh\theta$$、one-stage,開源 方法亮點

OCR EAST: An Efficient and Accurate Scene Text Detector 自然場景下的文字識別演算法

最近研究OCR,有篇比較好的演算法文章,《EAST: An Efficient and Accurate Scene Text Detector》,該文發表在2017年CVPR上。程式碼地址:https://github.com/argman/EAST ,這是原作者參與的一份tensorfl

Chuhui Xue_ECCV2018_Accurate Scene Text Detection through Border Semantics Awareness and Bootstrapping

Chuhui Xue_ECCV2018_Accurate Scene Text Detection through Border Semantics Awareness and Bootstrapping 作者和程式碼 關鍵詞 文字檢測、多方向、FCN、$$xywh\theta$$、multi-st

Fangfang Wang_CVPR2018_Geometry-Aware Scene Text Detection With Instance Transformation Network

Han Hu——【ICCV2017】WordSup_Exploiting Word Annotations for Character based Text Detection 作者和程式碼 caffe檢測torch7識別程式碼 關鍵詞 文字檢測、多方向、直接回歸、$$xywh\theta$$ 、

ICDAR Focused Scene Text Detection任務的資料集

主要內容: ICDAR自然場景文字識別有兩個難度不同的挑戰:難度較小的Focused Scene Text Detection 與難度較大的 Incidental Scene Text Detection。本文介紹前者。主要介紹其tasks與Localizat

顯著性檢測:'Saliency Detection via Graph-Based Manifold Ranking'論文總結

重要 效果 顏色空間 span 底部 圖1 mea gray log 對顯著性檢測的一些了解: 一般認為,良好的顯著性檢測模型應至少滿足以下三個標準: 1)良好的檢測:丟失實際顯著區域的可能性以及將背景錯誤地標記為顯著區域應該是低的; 2)高分辨率:顯著圖應該具有高分辨率或

23.Deep Networks for Saliency Detection via Local Estimation and Global Search

Deep networks for saliency detection via Local Estimation and Global Search 摘要 本文提出了一種將區域性估計和全域性搜尋相結合的顯著性檢測演算法。在區域性估計階段,我們通過使用深度神經網路(DNN

SegLink(Detecting Oriented Text in Natural Images by Linking Segments)演算法

《Detecting Oriented Text in Natural Images by Linking Segments》是和EAST同年的一篇發表在CVPR2017的OCR論文。程式碼地址:https://github.com/bgshih/seglink,這是該文章其中一個作者提供的

使用jQuery的外掛jquery.corner.js來實現圓角效果-

jquery.corner.js可以實現各種塊級元素的角效果,以下為演示,詳見jquery_corner.html中的註釋部分,並附百度盤下載 jquery_corner.html程式碼如下: 1 <!DOCTYPE html> 2 <html> 3 <head>

Multi-Oriented Text Detection with Fully Convolutional Networks

2.相關工作 自然影象中的文字檢測已經受到計算機視覺和文件分析社群的廣泛關注。然而,大多數文字檢測方法主要以兩種方式集中於檢測水平或近水平文字:1)定位單詞的邊界框[4,3,17,15,18,33,5,6],2)組合檢測和識別程式成為端到端的文字識別方法[8,28]。場景文字檢測和識別的綜

[非常簡要閱讀]PixelLink: Detecting Scene Text via Instance Segmentation

PixelLink應該是我非常喜歡的一篇。之前的部落格也說到了我一直不是很看好迴歸的方法,因為一般情況下文字識別還是需要精確的邊框定位。pixellink在傳統的畫素二分類的基礎上,沒有采用迴歸,而是加

SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network

SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network 基於多工GAN的細小物體檢測 摘要 物體檢測是計算機視覺中的一個基本而重要的問題。雖然在大規模檢測基準(例如COCO資料集)中對

(Paper)Robust Text Detection in Natural Scene Images

這篇文章是2014年PAMI上的文章,是目前文字檢測領域的state of the art. 該演算法是基於MSERs的,主要內容有: 演算法流程 1 Character candidates extraction 使用MSERs演

理解《Deblurring Text Images via L0-Regularized Intensity and Gradient Prior》

理解 正則化 突出 概論 zed artifact 邊緣 應用 prior L0-regularized prior based on intensity and gradient 基於強度(亮度?像素值大小)和梯度(強度與漸變?)的L0正則化先驗。 圖像先驗源於觀察文本圖

Learning Structured Representation for Text Classification via Reinforcement Learning 學習筆記

ctu recursive fec 註釋 css 進攻 imp column converge Representation learning : 表征學習,端到端的學習 pre-specified 預先指定的 demonstrate 論證;證明,證實;顯示

awesome scene text

運行 is-a 集成 ever targe origin xtra 窗口 words awesome scene textscene text recognition scene text spotter scene text detection Awes

【R-FCN】《R-FCN: Object Detection via Region-based Fully Convolutional Networks》

NIPS-2016 目錄 目錄 1 Motivation 2 Innovation 3 Advantages 4 Methods