概念字幕:影象字幕製作的新資料集和挑戰
文 / Google AI 軟體工程師 Piyush Sharma 和研究員 Radu Soricut
來源| 谷歌開發者 公眾號
網路上有數十億張影象,這有助於大眾娛樂,以及向世界展示無數種主題。然而,對於有視覺障礙或由於網速太慢而無法載入圖片的人士來說,其中很多視覺資訊都無法獲取。網站作者通過 Alt-text HTML 手動新增影象字幕,使更多人可以獲取這些內容,然後我們可以使用文字轉語音系統來展示對影象的自然語言描述。但是,只有很少一部分的網路影象添加了現有人工選編的 Alt-text HTML 欄位。此外,雖然自動影象字幕製作有助於解決這一問題,但精準的影象字幕製作仍是一項頗具挑戰性的工作,這需要提升計算機視覺和自然語言處理的現有技術水平。
注:Alt-text HTML 連結
www.w3schools.com/tags/att_im…
文字轉語音系統連結
ai.googleblog.com/2017/12/tac…
自動影象字幕製作連結
ai.googleblog.com/2014/11/a-p…
通過將影象字幕轉換為文字,影象字幕製作可以幫助數百萬有視覺障礙的人士。影象來自 Francis Vallance (Heritage Warrior),在 CC BY 2.0 許可下使用
今天我們將介紹概念字幕,這是由大約 330 萬影象/字幕對組成的新資料集;我們通過從數以十億計的網頁中自動提取和過濾影象字幕註解來加以建立。在 ACL 2018 發表的一篇論文中引入了 “概念字幕”,這代表在人工選編的 MS-COCO 資料集中,字幕影象增加了一個數量級。根據人類評分者的測量,機器選編的概念字幕準確率大約為 90%。此外,由於概念字幕中的影象是從網路中提取,所以與之前的資料集相比,其影象字幕風格更加多樣,這便於我們更好地訓練影象字幕製作模型。為了追蹤影象字幕製作的進度,我們還將向機器學習社群釋出概念字幕挑戰,以便他們在概念字幕測試臺上訓練和評估自己的影象字幕製作模型。
注:論文連結
MS-COCO 資料集連結
cocodataset.org/#home
概念字幕資料集中的影象和字幕示例
從左上角按順時針方向開始,圖片分別來自 Jonny Hunter、SigNote Cloud、Tony Hisgett 和 ResoluteSupportMedia。所有圖片均在 CC BY 2.0 許可下使用
生成資料集
要生成概念字幕資料集,我們首先要從網路中獲取帶有 Alt-text HTML 屬性的影象。我們自動篩選出帶有特定屬性的影象,以確保影象質量,同時避免不良內容,例如成人主題影象。然後,我們使用基於文字的過濾方式,移除帶有非描述性文字(例如 #標籤、欠佳的語法或新增的語言與影象無關)的字幕;我們還捨棄帶有高情感極性或成人內容的文字(如需更詳細瞭解過濾標準,請參閱我們的論文)。我們使用現有的影象分類模型,以確保任何指定影象,在其 Alt-text(考慮詞形變化)和影象分類器為該影象輸出的標籤之間有所重疊。
注:我們的論文連結
影象分類模型連結
詞形變化連結
www.aclweb.org/anthology/N…從特定名稱到一般概念
雖然通過上述過濾的候選字幕往往是良好的 Alt-text 影象描述,但其中大多數都使用了專有名詞(例如人物、地點、位置、組織等)。這會帶來一些問題,因為影象字幕製作模型很難從輸入影象畫素中學會如此精細的專有名詞推理,也很難同步生成自然語言描述 1。
為解決上述問題,我們編寫了一個軟體。該軟體可以自動將專有名詞替換為表達相同一般概念的單詞,也就是使用它們的概念。在某些情況下,我們會移除專有名詞以簡化文字。例如,我們會替換人名(如將 “前世界小姐 Priyanka Chopra 在紅毯上” 替換為 “演員在紅毯上”)、移除位置名稱(將 “洛杉磯演唱會上的人群” 改為 “演唱會上的人群”)和移除修飾語(如將 “義大利美食” 改為僅保留 “美食”),並在有需要時,更正新組成的名詞短語(如將 “藝術家和藝術家” 改為 “藝術家”,請檢視下方圖示)。

文字修改圖示
影象來自 Rockoleando,在 CC BY 2.0 許可下使用
最後,我們彙總所有已解析的實體(例如,“藝術家”、“狗”、“附近” 等),並且只保留提及 100 次以上的候選型別,這一數量足以支援針對這些實體的表示學習。如此一來,我們保留了大約 1.6 萬個實體概念,例如:“人”、“演員”、“藝術家”、“選手” 和 “圖示”。我們保留的提及次數較少的概念包括 “法棍麵包”、“韁繩”、“截止日期”、“部門” 和 “漏斗”。
最終,我們需要大約 10 億個(英文)網頁,其中包含超過 50 億張候選影象,才能獲取可供學習的簡潔影象字幕資料集,其擁有超過 300 萬個樣本(淘汰率為 99.94%)。雖然我們可以調整控制引數,以較低的精確度在一個數量級中生成更多示例,但我們的引數還是偏向於高精確度。
資料集影響 為了測試資料集的實用性,我們在 Tensor2Tensor (T2T) 中使用 MS-COCO 資料集(使用 12 萬張影象,每張影象上有 5 個人工註釋的字幕)和新的概念字幕資料集(使用超過 330 萬張影象,每張影象上有 1 個字幕),分別訓練了基於 RNN 和基於 Transformer 的影象字幕製作模型。如需更詳細瞭解模型架構,請參閱我們的論文。
注:RNN 連結https://en.wikipedia.org/wiki/Recurrent_neural_network
Transformer 連結
ai.googleblog.com/2017/08/tra…我們使用來自 Flickr30K 資料集的影象測試了這些模型(這些影象不在 MS-COCO 和概念字幕資料集的範圍中),併為每個測試用例分配 3 位人類評分者來評估所產生的字幕。評估結果如下表所示。 注:Flickr30K 連結http://web.engr.illinois.edu/~bplumme2/Flickr30kEntities/

根據這些結果,我們得出結論,在不考慮架構(即 RNN 或 Transformer)的情況下,與使用競爭方法訓練的模型相比,使用概念字幕訓練的模型能更好地形成一般概念。此外,我們還發現,無論使用其中哪個資料集進行訓練,Transformer 模型的表現都比 RNN 模型要好。根據這些發現,我們得出的結論是,概念字幕讓我們能夠訓練影象字幕製作模型,而且其在各種影象中的表現更佳。
積極參與
我們希望此資料集能夠幫助機器學習社群提高影象字幕製作模型現有的技術水平。重要的是,由於在其建立過程中沒有人類參與提供註解,所以這個資料集的可擴充套件性很高。我們或許可以將此資料集擴充套件至為更多樣的影象自動建立類似 Alt-text-HTML 的描述。我們鼓勵所有感興趣的人士參與概念字幕挑戰,並期待看到社群能夠取得何種成果!如需瞭解更多詳情和最新成果,請訪問挑戰網站。
注:概念字幕挑戰連結
ai.google.com/research/Co…致謝
感謝 Nan Ding、Sebastian Goodman 和 Bo Pang 使用概念字幕資料集訓練模型,以及 Amol Wankhede 為推動公開發布此資料集所作的努力。
在論文中,我們假設,如果需要根據影象自動確定名稱、位置和品牌等專有名詞,則需要將其作為一項單獨的工作來完成,這樣或許可以利用影象元資訊(如 GPS 資訊)或補充技術,例如 OCR。 注:OCR 連結
en.wikipedia.org/wiki/Optica…