1. 程式人生 > >Chinese Text in the Wild 學習筆記

Chinese Text in the Wild 學習筆記

CTW資料集下載地址:

CTW dataset

Download from one of the following links.

騰訊微雲
https://share.weiyun.com/50hF1Cc

OneDrive
https://1drv.ms/f/s!Al-inEPeCzeQgZdCYHvL_Z7-l3bROQ

介紹

在本文中,我們用自然影象中包含的文字建立了一個大型資料集,名為Chinese Text in the Wild(CTW)。該資料集包含32,285張帶有1,018,402箇中文字元的影象,遠遠超出了之前的資料集,這些圖片來自騰訊街景,從中國數十個不同的城市獲取,沒有任何特殊目的。由於其多樣性和複雜性,該資料庫存在極大的挑戰性。它包含平面文字,凸起文字,城市文字,農村文字,低亮度文字,遠處文字,部分遮擋文字等。對於每個影象,我們註釋其所有中文。對每一箇中文字元,我們註釋它的底層字元,邊界框和6個屬性,以指示它是否被遮擋,複雜背景,扭曲,3D文字,藝術字和手寫體。

資料集

影象選擇

影象大小2048*2048;去掉一些重複的影象,最終選擇32285張影象。

Annotation

對於一幅影象,首先用一個框選中一行文字,然後再框出每一個漢字,接著縮小這個框,顯示其對應的漢字並判斷之前的6個屬性。如下圖:
1
之前我們設定了六種屬性,分別為是否被遮擋,背景是否清晰,是否扭曲,是否為3D文字,是藝術字還是標準的字型,是手寫體還是印刷體,判斷每個漢字是否具有這6種屬性,結果見下圖:
                                  2


最後以資料集中的兩幅影象為例,顯示其文字識別情況,如下圖:
                                  3

資料集的劃分

以8:1:1的比例將資料集分為訓練集(25887張影象,812872個漢字),識別測試集(3269張影象,103519個漢字),檢測測試集(3129張影象,102001個漢字)。

統計

32285張影象中一共包含3850種漢字。頻率最高的50個漢字如下:
4
在訓練集和測試集中包含特定數量漢字的影象和包含特定類別漢字的影象統計如下:
                                 5


在訓練集和測試集中,不同字型大小的漢字數量如下:
                                 6
在所有字型大小、大、中、小(大是字型大小>=32、中是字型大小在[16,32)之間、小是字型大小<16)這四類中分析6中屬性所佔的比例如下:
                                 7
從中我們發現,字型比較大的漢字屬性複雜的可能性越大。
資料集的多樣性如下表,a-j分別為平面文字,凸起文字,城市文字,農村文字,水平文字、豎直文字,遠處文字,近處文字,低亮度文字,部分遮擋文字。
                                          8   

基本演算法和實驗結果

漢字識別

最終將漢字分為1001類,1000類出現頻率最高的漢字和其他,隨機從測試集中選擇20種漢字,選用幾種已有的網路進行實驗,實驗結果如下:
                                               9
並給出這幾種網路對出現頻率前十的漢字的top-1精確率,如下:
                    10
從上述結果中可以看到Google Inception取得的正確率最高,使用該網路對不同字型大小和不同屬性的漢字進行實驗,得到的結果如下:
                       11

漢字檢測

我們使用YOLOv2演算法來檢測影象中的漢字,每個邊框中包含一個漢字。對於訓練集我們用YOLOv2設定輸入解析度為672*672,這樣20482028的影象就被分為196個子圖,每個解析度為168\168,其中有23-24個畫素是重疊的,然後這個672*672的子圖作為下一次YOLOv2的輸入。對於測試集,由於字元的大小不同,使用多尺度方案。首先,設定輸入解析度為1216*1216,然後分成16個子圖,每個大小為608*608,重疊畫素為128;同時將輸入影象分為64個小的子圖,每個大小為304*304,重疊畫素為54-55;之後這80個子圖再重新調整大小作為解析度1216*1216的下一次YOLOv2演算法的下一次輸入。最後用非極大抑制來避免重複檢測。
出現頻率前10的漢字的AP百分比如下:
                    12
給出不同字型大小的查準率和查全率曲線,如下:
                                                 13
給出不同屬性和不同字型大小的漢字使用YOLOv2演算法後的查全率曲線如下:
                14
使用YOLOv2演算法檢測的部分結果如下:
          15

總結

本文主要介紹了戶外文字識別方法及其資料庫。採用了幾種已有的方法來完成兩個任務:識別選定區域的文字和從影象中檢測出文字所在的位置,我們相信這個資料庫可以為今後的文字識別和檢測功能提供激勵作用。

原文連結:https://arxiv.org/pdf/1803.00085.pdf
資料集和源程式下載連結:https://ctwdataset.github.io/

本文原文連結:

http://jiaqianlee.com/2018/05/17/CTW/