ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17) 介紹

阿新 • • 發佈：2018-11-12

閱讀文章：《ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17)》

　　這篇文章是對一項中文檢測和識別比賽專案（RCTW）的介紹和總結，這是一項新的專注於中文識別的競賽。這項競賽的特點在於，包含12263張標註過的中文資料集，有兩項任務，文字檢測以及end-to-end文字識別。競賽時間從2017年1月20日至3月31日，共收到19個team的23個有效的提交結果。下面從幾個方面進行詳細說明。

-資料介紹
-任務及評價標準
-結果總結與分析

1. 資料介紹
　　資料集的名字叫做CTW-12k，由12263張包含中文的自然場景圖片組成，其中大部分是直接由攝像頭或手機拍攝，少部分為生成影象，並且每張影象至少包含一行中文。
　　資料的標註均通過標註工具手工標註完成，通過繪製四邊形來標註一個文字行，而不是以單詞為單位進行標註，每個文字行的內容以UTF-8字串進行標註。在資料集中存在字型、佈局和語言等多樣性。
　　資料集劃分為兩部分，訓練集和驗證集包含8034張圖片，這部分資料集的影象和標註均在比賽時釋出。測試集包含4229張圖片，並在截止日期前一個星期釋出。

2. 任務及評價標準
　　任務分為兩個：文字檢測，end-to-end文字識別。與之前的比賽不同的是，沒有設定cropped text recognition task，因為相比之下，進行end-to-end的識別設定效果更好。

1） Task 1 - Text Localization
　　文字定位是一項傳統的競賽任務，目標是確定影象中包含文字行的四邊形位置，同時提供每個四邊形的置信分數。
　　對於這項任務，主要採用的評價標準為mean Average Precision(mAP)。mAP是PR曲線以下的歸一化面積值，即所有類別PR曲線下面積的平均值，由於本次競賽中只有文字這一個類別，故mAP也就等同於AP。
　　原始的AP是定義在軸對齊的bounding box基礎上的，而本次競賽專案中的文字由四邊形定位，所以在四邊形上計算IoU而不是矩形，如下圖所示，計算方法採用python的shapely package。檢測結果滿足以下兩個條件認定為正確：(1)IoU大於0.5；(2)groundtruth沒有匹配其他檢測結果。當多個檢測結果都匹配至同一groundtruth時，選擇IoU最大的一個。

　　之前的競賽普遍使用F-score作為評價標準，F-score是在P和R之間做出一些調整，但AP在調整中保持不變。本任務以AP作為主要的評價標準，並以此根據提交結果進行排行。為了與之前的競賽對比，同時對每一個提交結果計算出最大F-meansure分數，兩個分數均在結果表上列出。

　　(a) PR（precision-recall）曲線：以查全率R為橫座標，以查準率P為縱座標的曲線。查準率關心的是”預測出正例的正確率”即從正反例子中挑選出正例的問題。查全率關心的是”預測出正例的保證性”即從正例中挑選出正例的問題。

　　(b) mAP：每個類別都可以繪製一條PR曲線，曲線下方與X軸之間的面積為AP值，對每個類的AP再求mean，就是mAP。
　　(c) ROC曲線：曲線的座標分別為真正例率（TPR）和假正例率（FPR）

　　(d) F-score：綜合考慮PR曲線中P和R兩個指標
當β=1β=1時稱為F1-score，即P和R的權重相同。
2）Task 2 - End-to-End Recognition
　　該任務的目標是同時進行文字定位和識別，參與隊伍要求提交檢測結果的同時提交識別結果，檢測分數替換為識別的文字內容。
　　評價標準為計算識別結果與groundtruth之間的編輯距離，評價過程包括兩步：首先，每一個檢測結果匹配為一個groundtruth（對應最大的IoU）或”None”（沒有與groundtruth的IoU大於0.5的檢測結果），如果多個檢測結果與同一groundtruth匹配，則選擇IoU最大的一個作為檢測結果，其他的均設為”None”；然後，計算所有匹配對的編輯距離，如果一個檢測結果被標記為”None”，則計算檢測結果的文字內容與空字元之間的距離，求最後的平均編輯距離average edit distance(AED)。這個方法同時考慮了檢測和識別對結果的影響。
　　為了與其他比賽相比較，還計算了normalized edit distance(NED)。

3. 結果總結與分析
1）結果提交
Table 1 總結了Task 1的top10，並在結果列表中列出了AP和最大F-measure分數。

其中排在前3名的隊伍：
（i）”Foo&Bar”：採用的是faster-rcnn演算法，網路為resnet101及基於imagenet預訓練的模型。
（ii）”NLPR_PAL”：採用Deep Direct Regression Network方法(我的上一篇論文筆記中提到的論文)。
（iii）”gmh“：CNN演算法。

Table 2列舉了Task 2的結果：

2）結果分析
Task 1：普遍的錯誤有兩種，(1)由於text line過長導致的錯誤；(2)檢測結果有冗餘。
Task 2：主要錯誤有3種，(1)錯誤的檢測結果導致識別錯誤；(2)視角問題導致的文字形變；(3)相似的文字結構導致的錯誤識別（如“園”和“國”）
---------------------

轉自：https://blog.csdn.net/rabbithui/article/details/79107208?utm_source=copy

ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17) 介紹

ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17) 介紹

Chinese Text in the Wild 學習筆記

自然場景文字處理論文整理（5）Detecting Curve Text in the Wild: New Dataset and New Solution

論文速讀（Jiaming Liu——【2019】Detecting Text in the Wild with Deep Character Embedding Network ）

Paper Reading: Pose-Aware Face Recognition in the wild

A survey on techical threat intelligence in the age of sophisticated cyber attacks

Labeled Faces in the Wild 人臉識別數據集

DensePose: Dense Human Pose Estimation In The Wild（理解）

DensePose:Dense Human Pose Estimation In The Wild 論文閱讀筆記

深度補全（Single-Image Depth Perception in the Wild）

《Recursive Recurrent Nets with Attention Modeling for OCR in the Wild》筆記

AFLW:Annotated Facial Landmarks in the Wild: A large-scale, real-world database for facial landmark

Summary——DensePose: Dense Human Pose Estimation In The Wild

Linear Regression in the Wild

Faulty Reward Functions in the Wild

Finding Tiny Faces in the Wild With Generative Adversarial Network 感想

Finding Tiny Faces in the Wild with Generative Adversarial Network 論文學習

High-Fidelity Pose and Expression Normalization for Face Recognition in the Wild

定向運動員識圖過程中視覺搜索特征研究 Study on Visual Search Characteristics of Orienteers in the Process of Map Reading

關於svn: E155032: The pristine text with checksum was found in the DB but not on disk問題

ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17) 介紹

相關推薦