騰訊 AI Lab 計算機視覺中心人臉 & OCR團隊近期成果介紹（3）

阿新 • • 發佈：2017-12-08

之前 val 檢測 activit 服務器 get 取消算法創新

歡迎大家前往騰訊雲社區，獲取更多騰訊海量技術實踐幹貨哦~

作者：周景超

在上一期中介紹了我們團隊部分已公開的國際領先的研究成果，近期我們有些新的成果和大家進一步分享。

1 人臉進展

人臉是最重要的視覺信息之一。以貌識人、以貌取人是人的本性，也是最自然、最常用的身份確認和交互方式之一。互聯網和移動互聯網上每天上傳和傳播的天文數字級別的照片中有很大一部分都是和人臉相關的（比如國際知名互聯網公司Facebook每天都有億級以上的海量人臉照片和視頻上傳），因此人臉檢測與識別技術在學術界和工業界都備受關註，是各種國際前沿視覺技術的重要檢驗場之一。

在上一期中已介紹了我們團隊在人臉檢測與人臉識別上所取得的世界領先的原創性成果，迄今為止，我們團隊在人臉檢測的國際最權威評測平臺WIDER FACE的所有三個測試子集、人臉識別的國際最權威評測平臺Megaface Challenge 2（不同於Megaface Challenge 1，Megaface Challenge 2嚴格限定參賽者使用官方提供的固定的訓練數據以公平地對比不同人臉算法的性能）的所有測試任務中都取得世界第一的性能。眾所周知，原創性技術和落地應用這二者是密切相關、相輔相成的，一方面，原創性技術需要在落地應用場景中檢驗其有效性並幫助解決工業界的實際需求。另一方面，工業界的很多實際需求是之前長期存在但是在技術層面長期解決不了的，對這些技術難題如果沒有真正創新性的技術突破也就難以真正解決。

就應用進展而言，我們團隊自主研發的人臉技術已經接入公司的若幹重要場景下的應用業務。其中一個是TEG信安業務場景，目的是精準識別海量上傳圖像中的敏感人物，針對帶有敏感人物的圖片或視頻進行攔截。該項目的難點在於待識別的敏感人物會以各種形式出現在圖片當中，比如漫畫和處理過的照片都是比較難的情況。我們采用自主研發的人臉識別模型對該問題進行了建模，同時利用TEG信安提供的業務數據對業務場景進行了優化。

我們的人臉技術接入的另一個重要業務是MIG互聯網+合作事業部政企項目組的騰訊慧眼項目。騰訊慧眼項目主要針對政務和生活場景，通過人臉驗證完成自動化的身份鑒別，方便百姓遠程辦事，讓數據多跑路，百姓少跑腿，為百姓帶來更多“刷臉”辦政務的創新場景。在政務場景下的人證比對中，我們的人臉技術在內測的業務數據上已達到甚至超過了知名人臉公司依圖科技（與商湯科技、曠世科技齊名的人臉巨頭公司）的精度。目前該項目正在進展中，並將在近期開放至騰訊慧眼項目的開放平臺上。

此外，我們的人臉技術還廣泛應用在了內部團隊其他視覺相關項目中。例如在我們的圖像數據分類項目中，人臉檢測技術用於輔助半自動的標註任務。在AI Lab自研的AI有嘻哈項目中，人臉技術也將被用於識別圖片中的名人臉，以便進一步的提高圖片配文的質量。

2 OCR進展

2.1 ICDAR競賽

在上一期中介紹了我們團隊在OCR的ICDAR Robust Reading競賽中所取得的佳績。該競賽有兩個很重要的競爭很激烈的場景：互聯網圖片場景圖像（Born-Digital Images）和對焦自然場景文本圖像（Focused Scene Text Images）。我們在這兩個場景的文本定位任務（Task 1: Text Localization）和單詞識別任務（Task 3: Word Recognition），一共四個任務上都取得第一名的佳績。一般對每個場景的Robust Reading競賽，傳統上分成四個任務：文本定位、文本分割（Text Segmentation）、單詞識別、和端到端識別（End to End）。在傳統OCR時代，識別圖片中的文本必然經過檢測、分割和識別三個階段。在深度學習時代，近年來由於RNN的出現，對於檢測到的單詞可以直接訓練網絡做識別，分割這個任務已沒有太大意義，成為雞肋，也沒有團隊參加這項任務，ICDAR 2017年公布的新的競賽數據集，如：COCO-Text，直接取消了這項任務。

近期我們向OCR的ICDAR Robust Reading競賽的最終目標（端到端識別，即采用端到端的方法識別圖片中的文本）發起沖擊，並取得突破，在上述兩大重要場景的端到端識別上也都獲得第一名。值得一提的是，迄今為止我們在這OCR的兩大重要場景上都實現了大滿貫，超過了該領域的眾多強勁對手（百度、阿裏、商湯、曠世科技、和各大高校），囊括了所有的6項冠軍（忽略已經被淘汰的分割任務）。

就技術手段而言，我們基於在該領域的深厚技術底蘊（人臉與OCR的很多底層技術是相通的）以及在參加文本定位和單詞識別任務中所積累的國際領先技術，進一步采用了級聯訓練（Cascade Training）的方法，把文本定位網絡和單詞識別網絡集成起來，使得結果可以正向流動、反饋可以逆向傳播。憑借著這種方法，我們在互聯網圖片和對焦自然場景文本圖片這兩個重要場景的端到端任務上都獲得第一名的佳績，截圖如下所示。

相關鏈接：http://rrc.cvc.uab.es/?ch=1&com=evaluation&task=4

技術分享圖片

圖2. 互聯網圖片端到端任務上的排名

互聯網圖片端到端任務部分結果如下圖所示，詳細結果可在網站上查詢：http://rrc.cvc.uab.es/?ch=1&com=evaluation&view=method_samples&task=4&m=31774>v=1

技術分享圖片

圖3. 互聯網圖片端到端任務的部分結果

相關鏈接：http://rrc.cvc.uab.es/?ch=2&com=evaluation&task=4

技術分享圖片

圖4. 對焦自然場景文本圖片端到端任務上的排名

對焦自然場景文本圖像端到端任務部分結果如下圖所示，詳細結果可在網站上查詢：http://rrc.cvc.uab.es/?ch=2&com=evaluation&view=method_samples&task=4&m=31791>v=1

技術分享圖片

圖5. 對焦自然場景文本圖片端到端任務的部分結果

3 小結

人臉&OCR團隊一直以來按照“夯實基礎，做既有創新性又能落地應用的國際前沿工作”這個研究思路開展和推進工作，迄今為止我們不僅在人臉與OCR的多項國際權威榜單名列榜首，而且我們的技術在公司的多個重要的場景中得到了很好的應用。近期，我們團隊參與的“AI在騰訊信息安全中的應用”項目獲得了2017年下半年技術突破獎銀獎，截圖如下。

技術分享圖片

在2017騰訊全球合作夥伴大會上，AI Lab計算機視覺中心負責人劉威博士也向公司的合作夥伴和行業精英介紹了我們團隊在人臉與OCR上的若幹研究成果，如下圖所示：

技術分享圖片

人臉&OCR團隊將繼續以踏實、進取的態度做好研究工作和項目落地，不忘初心，繼續為人臉與OCR的技術發展貢獻自己的力量。

騰訊 AI Lab 計算機視覺中心人臉 & OCR團隊近期成果介紹（3）

1 人臉進展

2 OCR進展

2.1 ICDAR競賽

3 小結

相關閱讀

騰訊 AI Lab 計算機視覺中心人臉 & OCR團隊近期成果介紹（3）

騰訊技術工程 |騰訊AI Lab刷新人臉識別與檢測兩大測評國際記錄，技術日調用超六億

CVPR2018-騰訊AI Lab提出新型損失函式LMCL：可顯著增強人臉識別模型的判別能力

騰訊技術工程 | 騰訊AI Lab 現場陳述論文：使眾包配對排名聚合信息最大化的 HodgeRan

騰訊AI Lab AAAI18現場陳述論文：用隨機象限性消極下降算法訓練L1範數約束模型

騰訊技術工程 | 騰訊 AI Lab 11篇論文精選：圖像描述、NMT 模型、圖卷積神經網絡等

騰訊副總裁姚星：騰訊AI Lab將致力打造通往AGI之路

CVPR 2018 | 騰訊AI Lab入選21篇論文詳解

從研究到應用：騰訊AI Lab的自然語言理解和生成

中科大教授吳鋒：多智能體的分布式在線決策 | 騰訊AI Lab學術論壇演講

AI+遊戲：高效利用樣本的強化學習 | 騰訊AI Lab學術論壇演講

騰訊AI Lab開源業內最大規模多標籤影象資料集（附下載地址）

NIPS2018 | 騰訊AI Lab入選20篇論文，含2篇Spotlight

基於騰訊AI Lab詞向量進行未知詞、短語向量補齊與域內相似詞搜尋

騰訊 AI Lab 正式開源PocketFlow，讓深度學習放入手機！

EMNLP2018 | 騰訊AI Lab深度解讀文字生成技術相關論文

騰訊 AI Lab 招收多名 CV/ML 實習生

CVPR 2018 | 騰訊AI Lab關注的三大方向與55篇論文

把照片唱給你聽 | 騰訊AI Lab國際領先技術邀你「趣」體驗

騰訊AI Lab負責人張潼離職，張正友或接替其位

騰訊 AI Lab 計算機視覺中心人臉 & OCR團隊近期成果介紹（3）

1 人臉進展

2 OCR進展

2.1 ICDAR競賽

3 小結

相關閱讀

相關推薦