雲知聲 AI 全棧能力再獲突破,人臉識別能力高分通過 LFW 和 MegaFace 評測
日前,人工智慧企業雲知聲宣佈,其 AI 「全棧」能力再次取得重大突破,在國際權威的人臉識別標準評測資料庫 LFW 和 MegaFace 上,雲知聲團隊研發的人臉識別 UFaceID 算法系統效能分別達到 99.80%和 98.47%。
LFW 和 MegaFace 均為人臉識別領域重要的評測資料集。前者是人臉識別研究領域最重要的人臉影象測評集合之一,後者為目前最具權威的、熱門的評價人臉識別效能的資料集之一。LFW 是針對早期人臉驗證任務提出評測方法與指標,結果有借鑑意義,但已不代表目前的最難問題。MegaFace 提出的關於百萬級別的 1:N 人臉辨識任務的評測指標,難度更大,是目前學術界測評的新主流。儘管兩個資料集都存在高分數與實際應用需求間的矛盾,但由評測過程中催生出來的新方法,無疑極大的推動了人臉識別技術的長足進步。

雲知聲很早就開始佈局建設 GPU/CPU 異構計算平臺和分散式檔案儲存系統,該計算叢集能夠為智慧計算提供高效能運算和海量資料的儲存訪問能力。在該計算叢集的基礎上,雲知聲建設了 Atlas 機器學習計算平臺。
該平臺以 GPU 和 CPU 為計算叢集的基礎硬體資源,針對智慧計算的需求和任務特點,使用雲知聲內部改進的 Kubernetes 作為資源管理和排程系統,通過計算任務容器化和圖形化的任務互動,最大化的簡化演算法研究人員提交計算任務的複雜度,實現計算任務的全流程管理和一鍵式分散式執行。同時,針對智慧計算對海量真實應用場景資料的訪問特點, Atlas 智慧計算平臺構建具備 PB 量級的高 IO 和高可靠的分散式儲存系統。
雲知聲表示,到 2019 年,Atlas 計算平臺將具備 1000+ 的 GPU 計算資源和超過一億億次每秒的浮點計算能力,為在人工智慧新領域的拓展奠定了強大的計算能力基礎。

此外,在 Atlas 智慧計算平臺基礎上,雲知聲還研發了 UniFlow 計算框架,以支援更加高效地實現演算法模組共享和高效執行。UniFlow 計算框架支援 DNN、CNN、RNN/LSTM、seq2seq 等豐富的機器學習和深度學習演算法模組,支援 TensorFlow 、 PyTorch 、Caffe 等主流計算框架以及使用者自定義演算法,同時,優化分散式任務的計算和通訊邏輯,計算效率提升 50% 以上。同時,雲知聲表示,在下一代的 UniFlow 中,還將整合自動調參和模型壓縮模組,實現全流程託管式自動調參,能夠為不同場景下的 AI 資料處理、演算法演進提供高效的計算支撐。

基於 Atlas 計算平臺和 UniFlow 計算框架,雲知聲實現在統一計算框架體系下的計算高效率和演算法高產出,通過協同利用 AI 底層研發的技術成果,進而實現在人工智慧的多個應用領域的快速拓展,從語音識別(ASR)、語義理解(NLU) 到機器翻譯(NMT)、計算機視覺(CV)等新的人工智慧技術領域。
值得一提的是,在今年 5 月份的 WMT 2018 國際機器翻譯大賽中英翻譯比賽中,雲知聲 NMT 機器翻譯團隊首戰即斬獲英中第二、中英第四,綜合第三(BLEU 關鍵評分僅次於第二名 0.1)的成績。結合此次在計算機視覺領域的佳績,又一次證明了 Atlas 計算平臺在雲知聲探索多模態 AI 技術能力過程中的價值。

雲知聲 CEO 黃偉指出,「在 LFW 和 MegaFace 評測資料集上的初露鋒芒,檢驗了雲知聲在計算機視覺研究方面的新進展,也更加堅定了我們發展多模態 AI 能力的信心。但是,從另一方面來看,技術的最終目的是落地,由單純演算法所驅動的技術差距實際上正在變得越來越小,如何將技術落地到場景才是所有的 AI 公司應該關心和考慮的。」
目前,雲知聲領先的語音技術已在包括家居、車載、醫療、教育、金融、零售等多個領域實現落地。與此同時,在汽車行業,雲知聲已與吉利汽車達成合作,共同研發融合語音、計算機視覺等技術的車規級前裝 AI 晶片。可以想象的是,伴隨著計算機視覺技術的成熟,智慧語音與計算機視覺技術的深入結合,將進一步豐富雲知聲 AI 產品與服務的形態,也將有效提升使用者的使用體驗。