1. 程式人生 > >ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17) 介紹

ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17) 介紹

閱讀文章:《ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17)》

  這篇文章是對一項中文檢測和識別比賽專案(RCTW)的介紹和總結,這是一項新的專注於中文識別的競賽。這項競賽的特點在於,包含12263張標註過的中文資料集,有兩項任務,文字檢測以及end-to-end文字識別。競賽時間從2017年1月20日至3月31日,共收到19個team的23個有效的提交結果。下面從幾個方面進行詳細說明 。

-資料介紹
-任務及評價標準
-結果總結與分析

 

1. 資料介紹
  資料集的名字叫做CTW-12k,由12263張包含中文的自然場景圖片組成,其中大部分是直接由攝像頭或手機拍攝,少部分為生成影象,並且每張影象至少包含一行中文。
  資料的標註均通過標註工具手工標註完成,通過繪製四邊形來標註一個文字行,而不是以單詞為單位進行標註,每個文字行的內容以UTF-8字串進行標註。在資料集中存在字型、佈局和語言等多樣性。
  資料集劃分為兩部分,訓練集和驗證集包含8034張圖片,這部分資料集的影象和標註均在比賽時釋出。測試集包含4229張圖片,並在截止日期前一個星期釋出。

 

2. 任務及評價標準
  任務分為兩個:文字檢測,end-to-end文字識別。與之前的比賽不同的是,沒有設定cropped text recognition task,因為相比之下,進行end-to-end的識別設定效果更好。

1) Task 1 - Text Localization
  文字定位是一項傳統的競賽任務,目標是確定影象中包含文字行的四邊形位置,同時提供每個四邊形的置信分數。
  對於這項任務,主要採用的評價標準為mean Average Precision(mAP)。mAP是PR曲線以下的歸一化面積值,即所有類別PR曲線下面積的平均值,由於本次競賽中只有文字這一個類別,故mAP也就等同於AP。
  原始的AP是定義在軸對齊的bounding box基礎上的,而本次競賽專案中的文字由四邊形定位,所以在四邊形上計算IoU而不是矩形,如下圖所示,計算方法採用python的shapely package。檢測結果滿足以下兩個條件認定為正確:(1)IoU大於0.5;(2)groundtruth沒有匹配其他檢測結果。當多個檢測結果都匹配至同一groundtruth時,選擇IoU最大的一個。


  之前的競賽普遍使用F-score作為評價標準,F-score是在P和R之間做出一些調整,但AP在調整中保持不變。本任務以AP作為主要的評價標準,並以此根據提交結果進行排行。為了與之前的競賽對比,同時對每一個提交結果計算出最大F-meansure分數,兩個分數均在結果表上列出。

  (a) PR(precision-recall)曲線:以查全率R為橫座標,以查準率P為縱座標的曲線。查準率關心的是”預測出正例的正確率”即從正反例子中挑選出正例的問題。查全率關心的是”預測出正例的保證性”即從正例中挑選出正例的問題。

  (b) mAP:每個類別都可以繪製一條PR曲線,曲線下方與X軸之間的面積為AP值,對每個類的AP再求mean,就是mAP。
  (c) ROC曲線:曲線的座標分別為真正例率(TPR)和假正例率(FPR)

  (d) F-score:綜合考慮PR曲線中P和R兩個指標
當β=1β=1時稱為F1-score,即P和R的權重相同。
2)Task 2 - End-to-End Recognition
  該任務的目標是同時進行文字定位和識別,參與隊伍要求提交檢測結果的同時提交識別結果,檢測分數替換為識別的文字內容。
  評價標準為計算識別結果與groundtruth之間的編輯距離,評價過程包括兩步:首先,每一個檢測結果匹配為一個groundtruth(對應最大的IoU)或”None”(沒有與groundtruth的IoU大於0.5的檢測結果),如果多個檢測結果與同一groundtruth匹配,則選擇IoU最大的一個作為檢測結果,其他的均設為”None”;然後,計算所有匹配對的編輯距離,如果一個檢測結果被標記為”None”,則計算檢測結果的文字內容與空字元之間的距離,求最後的平均編輯距離average edit distance(AED)。這個方法同時考慮了檢測和識別對結果的影響。
  為了與其他比賽相比較,還計算了normalized edit distance(NED)。

 

3. 結果總結與分析
1)結果提交
Table 1 總結了Task 1的top10,並在結果列表中列出了AP和最大F-measure分數。

其中排在前3名的隊伍:
(i)”Foo&Bar”:採用的是faster-rcnn演算法,網路為resnet101及基於imagenet預訓練的模型。
(ii)”NLPR_PAL”:採用Deep Direct Regression Network方法(我的上一篇論文筆記中提到的論文)。
(iii)”gmh“:CNN演算法。


Table 2列舉了Task 2的結果:

2)結果分析
Task 1:普遍的錯誤有兩種,(1)由於text line過長導致的錯誤;(2)檢測結果有冗餘。
Task 2:主要錯誤有3種,(1)錯誤的檢測結果導致識別錯誤;(2)視角問題導致的文字形變;(3)相似的文字結構導致的錯誤識別(如“園”和“國”)
---------------------


轉自:https://blog.csdn.net/rabbithui/article/details/79107208?utm_source=copy