1. 程式人生 > >阿里雲視訊AI全能力解讀

阿里雲視訊AI全能力解讀

摘要: 結合人工智慧視訊理解流程和使用者的需求場景,我們將視訊AI的功能分成四個大部分,視訊智慧稽核、視訊內容理解、視訊智慧編輯、視訊版權保護。其中視訊稽核功能包括視訊鑑黃、暴恐涉政識別、廣告二維碼識別、無意義直播識別等,利用識別能力將網路上沒營養和不健康的視訊內容進行排查和處理;視訊理解功能包括視訊分類、標籤,人物識別、語音識別,同時也包括對視訊中的文字進行識別(OCR);視訊編輯層面可以實現視訊首圖、視訊摘要、視訊highlight的生成,同時支援新聞拆條;關於視訊版權,支援視訊相似性、同源視訊檢索和音視訊指紋等功能。

寫在前面
近期,阿里視訊雲推出了智慧視訊解決方案,依託阿里雲強大的計算能力和多媒體人工智慧技術,可以提高視訊稽核、處理的效率,助力視訊產業加速。

行業背景
根據行業報告顯示,2017上半年中國線上視訊行業使用者規模已經接近6億,而2017年線上視訊市場規模已經達到了503.3億元,視訊行業進入了使用者規模穩中有升、市場規模快速擴大的階段。其中直播、短視訊等視訊形態的崛起和大範圍的行業交叉分佈也帶動了PGC、UGC的內容發展,海量的視訊等多媒體資料隨之產生。

市場的繁榮也促進了技術進步,視訊雲市場風起雲湧,大量廠商加入角逐大軍,提供從一站式音視訊雲服務到垂直細分技術服務等各類解決方案。平臺方也希望通過推陳出新的技術來重塑視訊的觀看體驗,從而沉澱更多使用者。這其中VR、AR、AI技術也走進視訊,開始為整個行業帶來創新。尤其是行業關注度非常高的人工智慧技術,它是可以基於雲端計算和人工智慧模組來對海量視訊資料進行分析、研究和處理。那麼人工智慧技術可以在視訊領域應用於哪些場景呢?

需求場景

視訊智慧稽核需求
網路發展也帶來了內容的肆意氾濫,淫穢色情、暴恐、恐怖等不良視訊影響了和諧的網路氛圍,也給平臺方帶來了很多隱患。從2014年快播被關停至今,多家線上視訊、直播、短視訊平臺都受到了處罰、整改、關停等監管措施。稍有不慎,平臺方就會置身於違規違法的邊緣。隨著UGC短視訊的爆發,傳統的人工稽核方式效率低下,很難滿足快速、準確的稽核海量的視訊內容的需求,利用AI技術來提升視訊資料的稽核效率與精準度是一個新的方向。

視訊內容理解需求
海量的視訊源源不斷的產生,如何將視訊推給最合適的人群是一個巨大的挑戰。在大多數情況下,為了方便使用者的選擇和觀看,線上視訊網站的視訊是需要分類管理的,有的短視訊APP還可以按照使用者的喜好標籤來推送指定的小視訊,以提高視訊點選率,優化使用者體驗,這一切都需要對視訊資料進行最初的理解和判斷。除此之外,在視訊監控場景中,安防管控、人流監控等動作都是以視訊理解技術為支撐的。

視訊智慧編輯需求
在我們瀏覽直播APP的時候,經常會被漂亮的封面圖所吸引,從而進入直播間。有研究稱最受使用者喜歡的視訊長度在2.1分鐘左右,那麼如何從2分鐘的視訊內選取最精華的縮影作為首圖,是非常重要的提升使用者點選率的手段。通常,平臺方會通過編輯操作或提示使用者選擇一張效果最好的截圖作為封面,但是這個辦法效果並不理想。而且在廣電新聞行業,也經常會出現需要將大段新聞拆成單條短新聞的業務場景,人工操作效率和準確率並不理想。利用AI技術,對視訊進行編輯,就可以解決這個問題。

視訊版權保護需求
網路盜版一直都是線上視訊行業的一顆毒瘤,不僅影響了版權方的利益,也不利於行業健康的發展。線上教育、金融財經分析、版權劇等平臺方都知道,如何對視訊排重、相似度判斷、盜版鑑定和防止侵權是非常重要的。目前PGC短視訊盛行,那平臺方對這些視訊進行內容保護,可以鼓勵原創性,推動視訊內容的蓬勃發展。視訊AI技術可以抓取視訊資料進行鑑別,防止自有版權內容被侵權。

視訊AI大圖
圖片描述

根據使用者的需求場景,阿里雲推出了視訊AI解決方案。上圖是通過基礎層、技術層、應用層、業務層四個層面來解讀了視訊AI解決方案的能力。在最底層,也就是基礎層,主要是做演算法的準備,保障演算法的效率和效果,包括資料、離線訓練、線上服務、移動端、高效能運算等等;第二層是技術層,這一層是演算法的技術實現,分為四類:第一是視訊檢索,可以實現視訊指紋、時序表徵、視訊索引。第二是視訊理解,可以對視訊進行識別、分類、語義分割和目標跟蹤。第三是視訊編輯,實現結構化分析、內容編解碼和內容生成。第四是多模態分析,實現OCR/ASR/Face/Motion和跨媒體理解;第三層是應用層,是在搜尋、識別、互動、編輯、監控這五類典型場景中,進行功能的封裝;最上層是業務層,在這一層中,我們結合客戶的實際業務,進行功能的提供,比如視訊內容稽核和視訊版權保護的功能可以幫助安全業務更準確、高效的開展。

結合人工智慧視訊理解流程和使用者的需求場景,我們將視訊AI的功能分成四個大部分,視訊智慧稽核、視訊內容理解、視訊智慧編輯、視訊版權保護。其中視訊稽核功能包括視訊鑑黃、暴恐涉政識別、廣告二維碼識別、無意義直播識別等,利用識別能力將網路上沒營養和不健康的視訊內容進行排查和處理;視訊理解功能包括視訊分類、標籤,人物識別、語音識別,同時也包括對視訊中的文字進行識別(OCR);視訊編輯層面可以實現視訊首圖、視訊摘要、視訊highlight的生成,同時支援新聞拆條;關於視訊版權,支援視訊相似性、同源視訊檢索和音視訊指紋等功能。

圖片描述

功能與應用

視訊智慧稽核

視訊智慧稽核依託阿里集團海量場景資料,具備高效資料流轉體系,歷經雙11保障考驗,可以對色情、暴恐、涉政、廣告內容、二維碼、無意義的視訊進行識別,同時能夠識別性暗示等未明顯露點的色情行為和gif鑑黃,保證稽核的高準確度。

功能實現了從產品接入、測試、策略管理、運營監控、到稽核打標及模型/規則動態優化的閉環能力支撐。在通用能力滿足常用場景的基礎上,支援對高階能力的定製,可根據使用者管控尺度進行靈活調整和快速迭代。為不同場景(視訊/直播/社交/電商)提供視訊內容安全稽核的整套完整解決方案。

相對於傳統的10萬張/人/天的人工效率,智慧稽核可以達到10億張/天的超高處理效率,同時大大節省了人力,成本得以壓縮。

視訊內容理解
在視訊內容理解這個階段,阿里雲提供視覺、語音、文字、運動多模態資訊分析技術,全方位理解視訊,可以把非結構化的內容進行結構化處理。主要功能體現在以下五個方面。

1. 視訊分類
通過視訊多模態特徵分析,自動對視訊進行類目分類,提高視訊分發、管理的效率。

圖片描述

2. 語音識別
將語音轉成文字的服務,能支援中文、普通話、英文的語音識別。可應用於實時會議記錄、視訊直播實時字幕等場景。

其中一個典型的應用場景是會議內容的實時轉寫,法庭庭審識別。智慧語音識別技術將參會人所說的每一句話實時轉寫成文字並進行儲存,依靠人工智慧技術替代了人工記錄會議內容,法庭庭審中取代書記員。另一個典型應用場景是視訊直播實時字幕,現場演講、直播場景下,將視訊中的音訊實時轉寫成字幕展示。相應速度極快,幾乎與直播同步,提升了視聽體驗。

3. 視訊標籤
分析視訊中影象、文字、語音、人臉、物體、行為等多模態資訊,自動為視訊打多維度標籤。
圖片描述

這個功能的應用場景包括:視訊的個性化推薦和視訊檢索,基於視訊內容,可以實現快速給視訊打多維度標籤,並在新增熱門標籤時快速補充,解決新視訊標籤缺失和新熱門標籤缺失的問題。

4. 人臉識別
人臉識別(Facial Recognition)是提供視訊幀和影象中人臉分析的服務,包括人臉檢測、人臉特徵提取、人臉關鍵點定位、人臉檢索等服務。可應用於人臉美化、人臉識別和認證、大規模人臉檢索、照片管理等場景。
圖片描述

人臉識別的功能應用場景非常廣泛,包括會場、大廈等安防管控中的大規模人臉檢索,零售行業通過人流監控分析貨品擺放合理性,出勤率統計,照片管理與智慧分類,娛樂美顏等等方面。

5. 目標檢測
目標檢測(Object Detection)是基於深度學習的目標檢測技術,準確找出給定視訊的視訊幀中多目標及位置,並給出每個目標的具體類別。應用場景包括:第一,可以檢測並識別特定類目的目標,對特定目標做有趣的互動;第二,可以識別視訊中的目標位置及目標分類,為視訊提供豐富的分類標籤,可用於個性化推薦和視訊搜尋;第三,在目標檢測後,可以對目標進行實時跟蹤定位,精確地分割出目標的時域片段,用於智慧監控系統、流量控制系統等。舉個最實際的例子,在淘寶商家上傳視訊過程中,可以自動檢測商品並跟蹤,在前端展示的時候,感興趣的使用者點選錨點可以直接進入商品頁。

圖片描述

視訊智慧編輯
視訊編輯是為了更好的輸出內容,提升使用者點選率,優化使用者體驗。在這個環節,人工智慧可以讓視訊千人千面,結合使用者行為和封面圖屬性,同一個視訊向不同使用者展示不同的畫面。並且支援類目定製,結合行業運營經驗,定製不同的封面圖生成模型。同時,視訊編輯功能具有高精準度,利用多項AI技術,對視訊進行全方位理解後,甄別出最優、最高精準度的畫面或片段。

1. 視訊首圖
通過對視訊內容的理解結合畫面美學,選出最優的關鍵幀或關鍵片段作為視訊封面圖。

圖片描述
這個功能非常適用於UGC視訊封面,使用者上傳的視訊,使用智慧生成封面圖服務,為海量視訊自動生成具有代表性的高質量封面圖,提升使用者視覺體驗,展示在 feed 流、視訊搜尋結果頁等場景。同時,在長視訊場景中,通過智慧生成封面圖服務,擷取精彩片段作為視訊看點,利用動態展示方式吸引使用者並快速展示精彩內容。

2. 視訊摘要
視訊摘要服務(Video Summary Service)根據視訊內容智慧提取最能代表視訊的截圖組成GIF,作為視訊的摘要概括。應用場景同視訊首圖。

3. 視訊Highlight
視訊摘要服務(Video Summary Service)根據視訊內容智慧提取最能代表視訊的5s視訊,作為視訊的highlight。應用場景同視訊首圖。

4. 新聞拆條
將新聞節目以單條新聞為單元自動化分割的服務,有助於後期對單條新聞的播放推送和加工處理,為新聞推送生產素材,並且可以靈活對某個或某類新聞做後期加工處理。

圖片描述

視訊版權保護
阿里雲人工智慧通過長時間調研選型驗證,如今已能夠識別多種視訊抄襲手段,保證視訊查重結果的精準性。同時支援多解析度多視訊格式,億級視訊查重及相似度實時結果返回、視訊入庫、刪除等操作。可用於如廣告分成等多種業務場景。

1. 視訊指紋
視訊指紋是一種軟體識別、提取、壓縮視訊技術,可以產生唯一“指紋”代表視訊檔案進行視訊查詢。在視訊查重場景中,視訊通過視訊指紋在樣本庫中比對,召回相同/相似視訊,進行入庫、排序控制。

同時,視訊指紋可對自有版權的視訊資源,從公網抓取視訊資料鑑別,防止自有版權內容被侵權,保護版權視訊安全,並對原創視訊、剪輯視訊、自媒體再造視訊進行識別,檢索成分庫召回認領視訊,支撐廣告分成業務生態。

2. 相似性計算
相似性技術可以生成給定視訊的定長特徵,計算視訊之間相似度。可應用於基於視訊內容推薦相關視訊,個性化視訊等場景,提高視訊點選轉化,也可以用於視訊去重業務場景。

3. 跨媒體檢索
支援對文字、語音、影象、視訊等不同多媒體種類進行內容統一特徵檢索。

效果展示及使用
我們在線上的視訊AI產品專題頁和【視網膜】頁面中,可以看到阿里雲視訊AI的能力體現。

以線上已經有的示例視訊為例,使用者可以對人物識別、視訊分類、標籤識別、語音識別、文字識別(OCR)、視訊稽核、智慧封面等功能進行體驗。

下圖是智慧封面功能,人工智慧為視訊選擇了最能代表視訊內容的一幀圖片。
圖片描述

下圖是語音識別功能將功守道電影中的精彩片段裡的音訊別出來。
圖片描述

在視網膜系統中,我們看到一段熱播劇獵場的視訊片段,示例視訊中的明星人物被完整無誤的識別出來,同時,該人物在視訊中出現的位置也被標記出來,點選標記點,即可直接跳轉到人物的片段,這就是人物識別功能。
圖片描述
整個視訊被分解出無數標籤,點選某個標籤,直接跳轉到對應的畫面,這是視訊標籤。
圖片描述

雲棲大會的視訊中,除了嘉賓演講的語音被實時識別和顯示,視訊中的字幕、現場PPT等文字資訊都也被識別出來,也就是OCR。
圖片描述

相關推薦

阿里視訊AI能力解讀

摘要: 結合人工智慧視訊理解流程和使用者的需求場景,我們將視訊AI的功能分成四個大部分,視訊智慧稽核、視訊內容理解、視訊智慧編輯、視訊版權保護。其中視訊稽核功能包括視訊鑑黃、暴恐涉政識別、廣告二維碼識別、無意義直播識別等,利用識別能力將網路上沒營養和不健康的視訊

[媒體轉碼]視訊內容誰來保護?阿里視訊加密架構及原理詳解

視訊行業的從業者——尤其是線上教育、財經分析等重視內容版權的播放平臺都知道,視訊安全是一個非常重要的基礎需求。使用者通過一次付費行為,就可以拿到付費視訊的播放URL,將播放URL進行二次分發,這種行為叫做盜鏈;使用者直接將視訊下載到本地,然後再進行二次上傳分發,這種行為叫做盜播,這兩種行為都會給內容

阿里視訊直播API簽名機制原始碼

阿里雲視訊直播API簽名機制原始碼 本文展示:通過程式碼實現下阿里視訊直播簽名處理規則   阿里雲視訊直播簽名機制,官方文件連結:https://help.aliyun.com/document_detail/50286.html?spm=a2c4g.11186623.2.11.2a05365

EduSoho 二次開發接入阿里視訊點播服務mp4格式視訊會被直接下載問題解決方案

EduSoho 阿里雲視訊點播服務mp4視訊會被直接下載的問題解決方案 開發遇到一個問題就是視訊點播服務接入後暴露直接地址設定很多地方都無法解決尤其是面對一些流氓軟體 解決辦法,設定URL鑑權和Ref

奧運轉播加速上,北京冬奧組委測試阿里視訊傳輸技術

10月11日晚,北京冬奧組委與國際奧林匹克轉播機構進行了雲視訊傳輸技術測試,工作人員通過阿里雲傳輸技術,對布宜諾斯艾利斯青奧會多個專案進行多路電視轉播測試,監測了實時傳播的畫面清晰度、延時等指標,並模擬了整套體育賽事遠端視訊製作流程。 在接受北京電視臺採訪時,北

2018年終盤點:阿里資料庫RDS核心能力演進

摘要: 2018年雲資料庫RDS發展上,不但針對MySQL、SQL Server、PostgreSQL提供了適合個人入門使用者的基礎版產品,以實惠的價格普惠廣大中小使用者。更加入最新的MariaDB TX企業版,及大幅度提高PPAS的Oracle相容性,從企業需求出發,重點在全生命週期、全鏈路安全、

laravel中使用阿里視訊點播遇到的坑解決思路

這兩天在研究laravel使用阿里雲視訊點播播放sdk,遇到各種坑,此處的坑好久沒有解決,記錄一下  laravel5.4呼叫阿里雲視訊點播播放藉口報錯(1/1) ClientException Server unreachable: Errno: 5 Couldn'

c#對接阿里視訊轉碼服務之刪除

先講刪除,上傳和接收轉碼之後講。 首先阿里雲的視訊轉碼服務的原始檔和轉碼後的檔案以及視訊的封面會儲存在阿里雲的物件儲存OSS裡,我的做法是分兩個Bucket,一個用來存放原始檔,一個用來存放轉碼後的檔案以及視訊封面。所以我們在刪除的時候要全部刪除。 C#直接引用阿里雲的Al

阿里視訊直播

   自己研究了一下阿里雲的直播,直播需要的域名必須備案過得域名,只用一個域名就可以。 域名需要用二級域名,否則不能使用。就是第二個這種形式的。  設定完成後就可以在推流和拉流  就能顯示畫面了。 可以在阿里雲提供的網站測試    https://promotion.al

【新手教程】阿里視訊點播,輕輕鬆鬆給網站加上視訊的翅膀

您是不是被網站視訊問題弄的焦頭爛額、心煩意亂、夜不能寐、寢食難安?那麼,看完這裡,以上問題統統都可以解決啦。首先,我們開通阿里雲視訊點播功能,傳送門:https://www.aliyun.com/product/vod 開通需要1-5分鐘時間,請不要重複提交,請耐心等待:)開

阿里初次備案流程與注意事項!

阿里雲網站備案備案很簡單,阿里雲有專門的備案客服,整個備案過程阿里雲百科網分成三部分:備案前提+備案中資訊填寫和材料提交+備案等待,阿里雲百科網圖文講解阿里雲域名備案全過程: 備案前提 網站備案前提準備:1、備案域名,準備需要備案的域名(域名可以不在阿里雲),域名需要實名認證(個人域名就個人認證,企業域名

阿里視訊播放

if (player.getStatus() =='playing'||player.getStatus() =='loading'||player.getStatus() =='play'||player.getStatus() =='pause') {

什麼是最佳的視訊使用者體驗?阿里視訊體驗優化實踐之路

5月29日,VEA中國視訊體驗聯盟與VideoCTO聯合主辦“中國視訊體驗CTO論壇”在成都圓滿落幕。該論壇旨在邀請視訊產業生態鏈

面向視訊的全新AI架構 —— 阿里智慧視覺技術

開發十年,就只剩下這套架構體系了! >>>   

阿里釋出三大人工智慧產品,構建最AI平臺

7月18日,阿里雲正式釋出了三款人工智慧產品:影象搜尋、智慧語音自學習平臺以及機器翻譯,三款產品

阿里安全白皮書4.0》全新發布,詳解棧安全能力

“五橫兩縱”的安全架構 白皮書全新定義的下一代安全架構通過“五橫兩縱”的7個架構維度、26個架構模組、80餘個功能點,全面定義和介紹了企業雲上安全架構所應具備的能力。 “五橫兩縱”的安全架構設計從客戶安全需求出發,不侷限於阿里雲自身所具備的能力,也不侷限於具體應用場景,具有很強的普適性。企業可以

深入解讀:獲Forrester大數據能力高評價的阿裏DataWorks思路與能力

安全 架構 雲服務 摘要: Forrester發布了Now Tech: Cloud Data Warehouse Q1 2018報告,報告對雲化數據倉庫(Cloud Data Warehouse, CDW)的主要功能、區域表現、細分市場和典型客戶等進行了全面評估。 1.前言 本文基於Now Tec

阿裏攜領先SDN能力,亮相球網絡技術盛會ONS

架構摘要: 網絡通訊屆盛會Open Network Summit(ONS)於3月29日落下了帷幕。作為開源網絡屆首屈一指的世界性大會,今年在洛杉磯舉辦的ONSNA2018已經是第七年舉辦了。參會者囊括了來自電信運營商、雲服務提供商、網絡設備制造商、芯片廠商、網絡軟件開發商、研究學者等眾多網絡生態參與者,共吸引

阿里輕量級伺服器和NGINX部署Django專案 django安裝tinymce centos7安裝python3 以及tab補功能 常用服務安裝部署

部署條件:         1.一臺阿里雲伺服器(本人的是CentOS系統的伺服器)         2.已經構建好的專案       &nbs

阿里朱照遠:視訊2.0,更大規模、更智慧、更清晰

在2018杭州雲棲大會19號下午的主論壇上,阿里雲視訊雲總經理朱照遠發表了《視訊雲2.0,智享未來視界》的主題演講,從超大規模、智慧化、實時連線、超高清8K這四個方面,闡述了視訊雲2.0的定義。   朱照遠表示,在這個超大規模的媒體處理、分發平臺上,每天連線著10億臺裝置