阿里安全圖靈實驗室推AI新演算法獲國際頂會肯定 提視訊識別精度
摘要: 據悉,阿里安全圖靈實驗室今年年初已先後重新整理世界頂級演算法比賽等挑戰賽的最好成績,並將AI能力在內容治理、智慧財產權、身份認證驗證和新零售安防等領域進行運用。
阿里安全圖靈實驗室高階演算法專家析策在ECCV上介紹AI視訊識別新演算法
手機裡存了大量的視訊,想剪輯其中的精彩片段卻猶如大海撈針?視訊網站擁有海量視訊,如何嚴格稽核避免問題發生?近日,在德國慕尼黑舉辦的計算機視覺國際頂會ECCV(European Conference on Computer Vision)上,阿里安全圖靈實驗室高階演算法專家析策展示了最新的AI視訊識別演算法,其識別精度超越目前主流方法,有效提升了視訊自動標籤的行業精度,這一新演算法已被ECCV收錄。
ECCV與CVRP、ICCV並稱為計算機視覺領域的三大頂會,因聚集全球技術能力的重要突破和新的方法論,被學術界和工業界高度關注。阿里安全圖靈實驗室高階演算法專家析策表示,為提升AI技術在實際場景中針對視訊識別的精度,提出一種新的基於圖(Graph)的視訊建模方法,能表達含有複雜事件內容的長視訊,超越LSTM等序列建模方法。
析策表示,這一方法的主要思路是通過“深度卷積圖神經網路”(下稱“DCGN”)對視訊的幀、鏡頭、事件進行多級的建模,逐漸地從幀級、鏡頭級,一直到視訊級進行抽象,從而獲得視訊全域性的表達,進而進行分類。
“比如一段美食節目視訊中,包含廚師長、主持人聊天、食物、觀眾等內容,AI在學習視訊內容時會先根據內容對視訊進行逐幀的語義表達,形成特徵序列,用不用的標籤進行打標,隨後在通過多層次的網路對這些不同打標的內容進行關係表達,深度理解這些內容之間的關聯度,將相似的節點銜接起來,最終組合出對整個視訊的理解。”析策舉例稱。
烹飪節目中包含廚師烹飪、主持人聊天、食物、觀眾等內容,不同內容用不同演示邊框表示,最終組合出對整個視訊的理解
析策表示,一個視訊包含幀、鏡頭、場景、事件等,幀與幀、鏡頭與鏡頭間的關係十分複雜,不僅僅是前後幀的順序關係,而目前公開的建模方法一般都無法表達如此複雜的關係,DCGN因對複雜內容的深度學習和理解進而提升識別精度,“作為序列建模的通用方法,這種方法的使用不僅侷限於視訊場景,在語音識別、自然語言處理等場景都有潛在應用價值,這一方法已在阿里體系內進行了應用。”
實際上,越來越多的企業和個人使用各種智慧裝置來記錄日常生活和工作的海量資料,對這些儲存的海量資料的挖掘和利用一直是學術界和工業界研究的熱點。近期,優酷招聘資料標註師登上熱搜,其背後正是通過AI進行動作和場景識別,對視訊內容分析後打標,根據使用者需求進行個性化推薦。
“新零售的多個場景也在逐步落地AI視訊識別技術,也證明這一技術能力的應用領域未來將會持續拓展。”阿里安全圖靈實驗室資深專家奧創表示,剛剛獲悉實驗室也在ECCV舉辦的首屆“時尚影象生成國際競賽”中獲得冠軍,已受邀在9月14日的研討會上進行演講,“也是組委會對我們演算法能力的重要肯定。”
據悉,阿里安全圖靈實驗室今年年初已先後重新整理世界頂級演算法比賽ICDAR、PASCAL VOC等挑戰賽的最好成績,並將AI能力在內容治理、智慧財產權、身份認證驗證和新零售安防等領域進行運用,覆蓋阿里生態的淘寶、支付寶、優酷、UC等核心業務線。
近期刷爆社交網路的網紅“AI鑑黃師”,每天可稽核數億張圖片,識別準確率高於99.5%,技術能力便來自阿里安全圖靈實驗室。“我們希望真正用AI能力賦能商業安全,”奧創表示。