訓練文字識別器,你可能需要這些資料集
我們知道,監督式深度學習非常依賴於帶標籤的資料集,通常資料集越大,訓練出的模型效果越好,對於文字檢測和識別也是如此,為了訓練出好的模型,我們需要大型資料集。然而,為了收集真實世界的帶標籤的圖片資料集非常難,為圖片做標註非常耗時,代價昂貴,個人和小型企業無法承擔。得益於網際網路的開放性,我們可以得到許多大的公司和研究機構標註好的資料集,下面就簡單彙總一下在文字檢測和識別領域有哪些開放資料集。
ICDAR 2003
ICDAR 2003包含251個水平文字的完整場景影象和860張有單詞被裁剪的影象。
2011年刪除了包含非字母和數字字元以及少於三個字元的圖片,併為每個圖片定義了50個字的詞典,此外還有一個50k的詞彙表,它由Hunspell拼寫檢查詞典中的所有詞彙組成。
下載地址:http://www.imglab.org/db/files/ICDAR2003-SceneTrialTrain-GT4.tar.gz
ICDAR 2015 FST或ICDAR 2013
ICDAR 2015 FST或ICDAR 2013包含聚焦場景文字的229個訓練影象和233個測試影象。它繼承了ICDAR 2003資料集的大部分樣本。他們都是真實世界的影象,顯示標誌牌、書籍、海報或其他物品上的文字(圖A.1)。文字都是英文的且水平對齊。標註是軸對齊的邊界框,共劃分出1015個裁剪的單詞影象。該資料集被廣泛用於測試文字探測器的效能,通常被稱為ICDAR 2013。
圖A.1:來自ICDAR 2013 / ICDAR 2015聚焦場景文字的示例影象資料集。所有影象都具有軸對齊的邊界框標註。
下載地址:http://rrc.cvc.uab.es/?ch=2&com=downloads
ICDAR 2015 IST
ICDAR 2015 IST包含1,000個訓練影象和500個測試影象。這些影象是使用谷歌眼鏡獲得的,沒有考慮視角、位置或影象質量。文字實顯示方向隨意、也可能尺寸很小或低解析度(圖A.2),使其比ICDAR 2013更加難以識別。完整的資料集有7,548個帶有四邊形形式標註的文字例項。它通常用於基準測試,現在稱作ICDAR 2015。
圖A.2:來自ICDAR 2015附帶場景文字資料集的示例影象。邊界框註釋以四邊形的形式提供,大部分文字例項處於透視扭曲、模糊或不利照明條件。
下載地址:http://rrc.cvc.uab.es/?ch=4&com=downloads
ICDAR 2017 MLT
ICDAR 2017 MLT5旨在對多語言場景下的文字檢測和識別任務進行基準測試。它包含7,200個訓練自然場景影象、1,800個驗證自然場景影象和9,000個測試自然場景影象,包含6種不同語言的文字(拉丁語、阿拉伯語、孟加拉語、韓語、平假名、片假名和符號)。標註以四邊形、語言類別和轉錄(UTF-8文字)的形式提供。
下載地址:http://rrc.cvc.uab.es/?ch=8&com=downloads
COCO-Text
COCO-Text是通過註釋來自MS的COCO資料集中的影象而建立的。它包含63,686個影象(圖A.3),帶有173,589個標註過的文字區域,因此比其他場景文字資料集大兩個數量級。每個文字例項都使用軸對齊的邊界框和三個屬性進行標記:機器列印或手寫文字、清晰或難以辨認的文字以及英語或非英文字母。對於清晰的文字,給出了轉錄。作者選擇了20,000個樣本作為驗證/測試集,其餘樣本用於訓練。
COCO-Text是比ICDAR 2015 IST更具挑戰性的資料集。
圖A.3:來自COCO-Text資料集的示例影象。影象並不是特意為文字而選擇,軸對齊的邊界框也不是彎曲或方向文字的最佳選擇。
下載地址:https://vision.cornell.edu/se3/coco-text
Synthetic Word
Synthetic Word是一個涵蓋9萬個英文單詞的包含9百萬個合成單詞影象的資料集。每個單詞的字型是從1,400種不同的字型型別中隨機選擇的,邊框/陰影寬度隨機選取。基本顏色選自在自然影象上通過K均值聚類獲得的顏色樣本,從ICDAR 2003訓練資料集中隨機取樣的影象塊作為背景。透視變換用於模擬投影失真。噪音和模糊效果以及添加了JPEG壓縮損傷使得影象更逼真。所有影象具有32畫素的固定高度,寬度不定。
下載地址:http://www.robots.ox.ac.uk/~vgg/data/text
SynthText
SynthText包含使用合成文字引擎生成的800k個訓練影象。它們是通過將自然影象與人工渲染的文字混合而合成的。隨機字型型別、大小和顏色的文字放置在具有均勻顏色和紋理的區域,且考慮到了3D場景。每個影象都有大約十個單詞例項,標註有方向字元、單詞邊界框以及轉錄。示例影象見圖A.4。
圖A.4:來自SynthText資料集的示例影象。文字例項和定向邊界框形式的標註,由合成文字引擎生成
。
下載地址:http://www.robots.ox.ac.uk/~vgg/data/scenetext
MSRA-TD500
MSRA-TD500是第一個聚焦於方向文字的熱門資料集。它包含500個高解析度自然影象,300個用於訓練,200個用於測試。它們是用袖珍相機取自室內(辦公室和商場)和室外(街頭)場景。文字例項有中文,也有英文,並標註為行對齊的旋轉邊界框。 和ICDAR 2003、MSRA-TD500相比,更具挑戰性,因為文字的變化更大,背景更復雜。
下載地址:http://www.iapr-tc11.org/mediawiki/index.php/MSRA_Text_Detection_500_Database_(MSRA-TD500)
谷歌FSNS
谷歌FSNS由超過一百萬張從谷歌街景影象中裁剪出法國街道名稱標識的影象組成。每個影象包含同一街道名稱標誌的四個檢視,並用會出現在地圖上的真實文字進行標註。每個名稱標識的文字例項可以跨越最多三行,可能會出現模糊、遮擋或低解析度。
下載地址:http://rrc.cvc.uab.es/?ch=6&com=downloads
SVT
SVT表示街景文字(Street View Text)。該資料集有從谷歌街景收集的包含647個單詞例項的249個影象。影象可能會解析度較低以及光照不足。每個影象都相關聯著由Wang等人定義的50字詞彙。
下載地址:http://www.iapr-tc11.org/mediawiki/index.php/The_Street_View_Text_Dataset
CUTE80
CUTE80旨在評估彎曲文字識別的效能。它包含80個帶有彎曲文字的自然影象,共有288個單詞。
下載地址:http://cs-chan.com/downloads_CUTE80_dataset.html
IIIT 5k-word
IIIT 5k-word由谷歌圖片搜尋獲得的5千個包含單詞的影象組成。它們是通過查詢廣告牌、招牌、門牌號碼,房子銘牌或電影海報等字樣獲得的。資料集被拆分為2千個訓練影象和3千個測試影象。每個樣本都帶有真實文字、字元級的邊界框、簡單或難兩種分類,以及一個50字、一個1k字的兩個詞彙表。此外,還提供500k個總體詞彙表。
下載地址:http://cvit.iiit.ac.in/projects/SceneTextUnderstanding/IIIT5K.html