1. 程式人生 > >人工智慧AI技術如何在視訊領域應用落地?

人工智慧AI技術如何在視訊領域應用落地?

眾所周知,全民視訊時代已經來臨,使用者的注意力已經從傳統的文字、圖片向視訊轉移,相信絕大部分使用者的手機中都會有幾個點播、直播、短視訊的APP。據網路公開資料報告顯示,網際網路流量70%以上來自視訊,未來這個資料將超過90%。

而在人工智慧時代,AI技術是如何在各行業和領域真正的發揮應用和商業價值,帶來產業變革才是關鍵。在3月28日深圳雲棲大會的人工智慧專場中,阿里雲視訊服務技術專家鄒娟將帶領大家探索熟悉的視訊場景中,AI技術如何應用落地,解決實際業務場景中的問題。

縱觀整個視訊生命週期,包括視訊採集、視訊的生產製作、視訊播出和被廣大的使用者所體驗這幾個環節。實際上在這個過程中,整個視訊行業發生了很大的變化,在每一個階段都從非常專業的參與者轉向大眾普適的參與。


 
從採集階段,最開始用專業的攝像機、錄影機進行視訊採集,轉向如今的每個人都是自媒體產生者,用手機來拍攝。在製作階段,從重量級的非線性編輯軟體,到現在短視訊APP都標配的特效、濾鏡、美顏,都能夠在手機端進行基本的視訊製作。在播出領域,最開始電視臺必須得有一個節目單,到現在使用者可以在網站上按需播放點播視訊,用手機實現個性化的搜尋和觀看。在體驗這一環,使用者從最原始的有線電視同軸電纜單項傳輸的觀看,到現在我們可以去互動、評論、點贊、彈幕等等互動。所以,我們可以看出,從整個視訊生命週期中,參與者是發生了巨大的變化,加入視訊領域的應用也越來越多。

從下圖可以看出,視訊和AI的結合已經貫穿了視訊生命週期的每一個階段。


 

那麼,AI能為視訊行業帶來什麼呢?

第一,提升生產效率
AI和採集生產環節結合,是能夠有效提高視訊生產製作的效率的。傳統的編輯是人來做的,當AI和視訊採集生產環節結合,我們可以引入智慧編輯技術,快速生產視訊。天下武功,唯快不破,應用在視訊領域也是一樣的。設想我們很快的生產視訊,第一時間釋出到網上,就有機會獲得更多的流量。
第二,規避監管風險
在視訊中引入人工智慧稽核技術,可以縮短視訊釋出週期,減少了人工稽核的干預,並且可以更高效、準確的規避監管風險。
第三,釋放人力 降低成本
因為前兩個階段中,機器和演算法做了很多替代人的操作,所以釋放人力,並且可以帶來成本的降低。

基於達摩院的AI演算法,結合視訊雲團隊多年在音視訊技術領域的積累,阿里雲構建了視訊AI能力——視網膜,並將產品功能劃分為稽核、識別、理解、搜尋四個模組。下圖中的能力,其實是視訊雲AI服務的最小單元的基礎能力,實際上可以基於這些能力進行組合,像搭積木一樣,滲透在視訊各個場景當中,形成各類匹配業務的解決方案。
 

接下來鄒娟老師介紹到,採集生產、分發播出、媒資管理是視訊生產領域的三大場景,在這三個場景中,阿里雲和客戶一起成長,深入到客戶的實際業務場景中,並結合自身產品規劃,推出了視訊AI的解決方案。



在採集生產的場景中,解決方案支援視訊拍攝、字幕、剪輯合成與視訊拆分;在視訊播出場景,除了常見的視訊稽核,還有逐漸被大眾認知的版權檢測,以及在實時播出的過程中對視訊中目標進行識別檢測;在媒資管理場景中,最經典的是智慧編目與智慧封面,解決方案中還有基於指紋的去重和視訊之間挖掘和整理的能力。
我們可以看到,通過基礎AI能力的組合,和結合客戶的實際業務場景,阿里雲已經提供了一些具體的解決方案,下面選取了其中一些典型場景來介紹具體落地。


第一,視訊採集場景——視訊萌拍

市場上非常流行的短視訊和拍照的APP中,基本都提供了基於人臉識別的技術的貼紙功能。很多客戶希望能擁有豐富的拍攝效果,阿里雲在短視訊智慧端的解決方案上就提供了視訊實時的處理功能,內建人臉識別與動態貼紙庫,未來還可以付費升級大眼、瘦臉等高階功能。

第二,視訊生產製作場景——精彩集錦

這個是很多客戶都擁有的業務場景,可以利用的AI技術特別多。下圖左側的AI技術結合雲端視訊剪輯能力,就可以做出很多有想象空間的事情。比如將人物出現的時間線連線起來,自動生成人物集錦;再比如經典的體育賽事精彩瞬間,前期的素材整理的工作可以通過AI來自動處理;還有專題製作這個領域應用也十分廣泛,比如去年江南的大雪,廣電媒體從業者希望能快速的從素材庫中找到與雪景相關的視訊來生成一個專題視訊,利用AI能力,其實就可以根據場景的識別,提取雪景在各個視訊當中的位置片段,搭配雲端剪輯能力,比較輕鬆將視訊製作出來;同時,影視劇劇集的片花也可以利用智慧摘要、智慧GIF來形成,一些視訊片段可以基於指紋和多模態技術去實現。


 

第三,視訊生產製作場景——ET字幕

還有一個需求量非常大的業務場景是ET字幕,實際上它是基於AI的自動字幕進行新視訊創造的功能。首先,傳統字幕生產是非常複雜的,首先得有一個團隊去把語音轉成文字,把時間線拍下來,在多語種情況下,可能還會有翻譯團隊介入,再把字幕匯入到本地編輯軟體進行合成。整個過程非常耗費時間和人力。如果利用AI技術,首先我們可以把語音生成文字,文字直接存在對應的有時間,我們也可以將文字翻譯成所需的語種。同時,通過雲剪輯的工具,對語音識別的結果和人工的結果進行check,人工干預量也遠遠低於傳統的翻譯量。這項技術除了可以應用於離線視訊之外,也可以運用於會議直播的實時字幕,基於導播臺切換多路流的時候,每一路流都可以自動生成字幕,產生互動的效果。ET字幕應用於視訊生產製作場景,可以方便使用者進行二次視訊創作。

第四,視訊生產製作場景——智慧拆條

智慧拆條有兩個好處,第一是加速新聞短視訊的釋出,第二是把原始的長段視訊拆成各個小片段,進入素材庫從而豐富媒資系統,更方便製作出新的視訊來。

智慧拆條是基於AI的多模態資訊進行拆條,目前是支援標準新聞形式,非標準的場景可以快速通過補充資料集快速訓練來實現。
 

第五,視訊分發播出場景——內容稽核

進入到視訊分發和播出領域,隨著國家對於網際網路視訊的監管的加強,內容稽核已經成為非常強烈的需求。最開始的只是鑑黃,到後面的黃、反、暴、恐、都要去鑑別,利用AI技術可以非常快速的鑑別出視訊當中不合規的內容。


第六,媒資管理場景——智慧編目

我們先來看下傳統編目的效率,在電視臺做深度編目,一個小時的視訊大約需要二到四個小時完成編目,這個視訊生產速度目前已經無法達到網際網路的要求了。與傳統的編目相比,AI技術可以從視訊自動分類、視訊自動打標、人物識別、語音和OCR識別等,自動生成源資料資訊,進入媒資庫,結合NLP、分詞、語義分析、詞性過濾等場景,進入到後續的搜尋和推薦的領域。整個過程靠演算法驅動,不需要人力,相對於人工處理,AI技術能更徹底地對視訊進行結構化處理,標註出每個獨立標籤的時間線。

通過智慧編目的方案組合,可以快速生成最基礎的源資料,方便媒資管理。
 

那麼使用者如何接入視訊AI服務呢?

分為三個步驟,首先,使用者需要根據自身的業務場景來選擇合適的產品進行開通,其次,根據實際需求來選擇開通視訊AI服務,支援自動處理和手動發起AI任務兩種形式,最後是獲取AI處理結果,接收AI結果回撥或主動查詢AI結果。
 
在分享的最後,鄒娟老師為現場觀眾演示了整個視網膜系統,使用者上傳了視訊,可以進行快速的AI處理。阿里雲視訊AI體驗館:https://retina.aliyun.com