快手科技李巖:多模態技術在產業界的應用與未來展望
李巖在演講中表示,多模態技術有兩大應用方向,一是會改變人機互動的方式,二是將使資訊分發更加高效;視訊本身就是一個多模態的問題,而快手則擁有海量的多模態資料,多模態的研究對於快手來說是非常重要的課題;目前快手已經在語音識別與合成、智慧視訊配樂、通過2D影象驅動3D建模特效、視訊精準理解等領域對多模態技術進行研發應用。
以下為演講的主要內容:
大家好,首先我來簡單介紹一下快手,在這個平臺,使用者能夠被廣闊的世界看到,也能夠看到廣闊的世界,我們可以看一下快手的資料: 70億條視訊總量、1500萬日新增視訊,日均的使用時長超過60分鐘等,所以快手平臺上有非常多的多媒體資料,同時也有非常多的使用者互動資料,比如我們每天有1.3億使用者觀看超過150億次視訊的播放資料。
我們知道視訊是視覺、聽覺、文字多種模態綜合的資訊形式,而使用者的行為也是另外一種模態的資料,所以視訊本身就是一個多模態的問題,再加上使用者行為就更是一種更加複雜的多模態問題。所以多模態的研究對於快手來說,是非常重要的課題。
多模態技術兩大應用方向:人機互動與資訊分發
我認為多模態技術會有兩大主要的應用。
第一,多模態技術會改變人機互動的方式,我們與機器互動的方式將會越來越貼近於更令人舒適、更自然的方式。
第二,多模態技術會使得資訊的分發更加高效。
多模態技術研究的三個難點:語義鴻溝、異構鴻溝、資料缺失
其實在目前來看,多模態研究難度還是非常高的。
其中大家談得比較多的是語義鴻溝,雖然近十年來深度學習和大算力、大資料快速發展,計算機視覺包括語音識別等技術都取得了非常大的進展,但是截至現在,很多問題還沒有得到特別好的解決,所以單模態的語義鴻溝仍然是存在的。
再者,由於引入了多種模態的資訊,所以怎樣對不同模態之間的資料進行綜合建模,會是一個異構鴻溝的問題。
另外,做語音、做影象是有很多資料集的,大家可以利用這些資料集進行刷分、交流自己演算法的研究成果。但是多模態的資料集是非常難以構建的,所以我們在做多模態研究時是存在資料缺失的問題的。
下面我會分享我們在多模態這個方面所做的事情,以及這些技術是怎麼樣幫助快手平臺獲得更好的使用者體驗和反饋的。
多模態技術如何實現更好的記錄
首先,多模態技術將實現更好的記錄。隨著智慧手機的出現,每個人都可以用手機上攝像頭去記錄周圍的世界,用麥克風去儲存周圍的音訊資訊;而在以前,生成視訊,尤其生成一些比較專業的視訊,都是導演乾的事情。但現在,我們通過手機就能夠做到,這裡面會有非常多的多模態技術研究來輔助人們更好地記錄。
我們希望整個記錄過程是更加便捷、個性化、有趣,同時也是普惠的,具體我將分別通過四個案例分享。
1 、語音轉文字打造便捷字幕生成體驗
一個視訊裡,音訊部分對於整個視訊的資訊傳遞是非常重要的。網上有很多帶有大量字幕的、以講述為主的視訊,這樣的視訊製作其實是一件很麻煩的事情,因為一個一個去輸入文字是很痛苦的,像過去在廣電系統專業工作室就需要很多用於字幕編輯的工具軟體。而如果我們通過語音識別技術,把語音直接轉成文字,就可以很輕鬆地通過手機編輯生成一個帶字幕視訊。
2 、語音合成實現個性化配音
另外一個技術叫做個性化配音,假如在一個視訊中,你不喜歡聽男性配音,而希望聽到由一位女士配音,我們就可以通過語音合成技術滿足個性化的訴求。
語音識別及合成技術都會使我們記錄的過程變得更加便捷、有趣,但這兩個技術在做視覺或者多媒體的圈子裡面關注度不是特別高,只是偶爾會在做語音的圈子裡去聊這些問題。包括在語音圈子裡面,語音識別和合成現在往往是兩波人在做。
隨著深度學習技術的出現,語音識別和合成這兩個問題其實在某種程度上是非常對稱的,因為語音識別是從語音到文字,語音合成是從文字到語音。語音識別的時候,我們提取一些聲學的特徵,經過編碼器或者Attention的機制,實現從語音到文字的轉化;語音合成的技術和演算法,其實也涉及編碼器或者Attention的機制,二者形成了比較對稱的網路。所以我們把語音識別和合成看成是一個模態轉換的特例,從神經網路建模角度來看,是一個比較一致、容易解決的問題。
具體神經網路在設計的時候,雖然二者內容機制其實還是有一些不同,但更大的趨勢是這裡面將來會有更多的趨同,因為我們知道隨著相關演算法的發展,計算一定是朝著一個更加簡化,更加統一的方向發展。就像深度學習的出現,其實就是通過計算的方式取代了手工來獲取有效的特徵。多模態的轉換領域裡面也出現了這樣的特點,這是一件非常有意思的事情。
3 、根據視訊內容自動生成音樂
音樂也是短視訊非常重要的一部分,有錄視訊經驗的同學可以感受到,為一個場景配合適的音樂是一個很難的事情。過去,有不少使用者為了與音樂節拍一致,努力配合音樂節奏拍攝,極大限制了拍攝的自由度。我們希望使用者可以隨意按照自己想要的節奏錄製,所以讓機器通過使用者拍攝的視訊內容,自動生成符合視訊節奏的音樂,這樣視訊畫面與音樂節奏就會更匹配、更一致。
音樂生成涉及很多具體的技術,我們也做了非常多的研究,其中一個問題是懂音樂的不懂電腦科學,懂電腦科學的人不懂音樂。想要把短視訊配樂這個問題研究好,需要要有做音樂和做AI的人一起整合創新,這方面我們也做了非常多的工作。
4 、2D影象驅動3D建模實現Animoji效果
通過蘋果的釋出會,大家應該都瞭解Animoji這項技術,iphoneX有一個標誌性的功能,就是通過結構光攝像頭實現Animoji,現在國內手機廠商也越來越多地採用結構光的方式去實現Animoj。而快手是國內較早實現不使用結構光,只用RGB影象資訊就實現Animoji效果的企業。
使用者不必去花上萬元去買iphoneX,只要用一個千元的安卓手機,就可在快手的產品上體驗Animoji的特效,從而能夠在不暴露臉部資訊的同時展現細微的表情變化,例如微笑、單隻眼睛睜單隻眼睛閉等,讓原來一些羞於表演自己才藝的人,也可以非常自如地表達。我們覺得做技術有一個非常快樂的事情,就是讓原來少數人才能用的技術,變得更普惠。
其實解決這樣一個問題是非常難的,因為即使是像蘋果這樣的公司,也是採用了結構光這樣配置額外硬體的方式來解決。想讓每一個使用者都能享受到最尖端的技術,快手面臨著硬體的約束,只能通過2D的RGB視覺資訊對問題進行建模、求解,這裡麵包括了像Landmark人臉關鍵點檢測、實時重建人臉三維模型等技術,把2D和3D兩種不同模態的資訊做建模、做對齊。
我們也能看到現在市場上可能有一些小型的APP在做類似的事情,但體驗很差,而我們的整體體驗還是非常好非常流暢的,這也需要歸功於深度神經網路模型的量化,通過壓縮和加速解決手機效能問題,可適配任意機型。
多模態技術如何實現精準理解視訊內容
剛才我講的是我們多模態技術怎樣去幫助使用者更好地記錄,我們同時也希望通過一個更好的分享機制,讓使用者釋出的視訊能夠被更多感興趣的人看到。這也涉及視訊推薦裡面多模態的一些問題。
對視訊內容的理解其實是非常難的,這個裡面我做了兩個比較有意思的事情。
第一,我們強調音訊和視覺的多模態綜合的建模,而不是僅僅是單獨的視覺或者音訊,視覺和聽覺兩種媒體的融合,會是未來一個非常重要的事情。
第二,在工業界做的事情和在學術界做的事情有很大不同,我們有非常多的使用者資料,這些使用者資料是不在傳統多媒體內容研究範疇裡面的,但是工業界可以很好地利用這些資料,更好地做內容理解。
給大家舉個例子,一個男子表演口技的視訊中,如果關閉聲音,僅憑畫面資訊,我們並不知道他是在做什麼,可能會覺得是在唱歌或唱戲。這說明如果僅僅是通過視覺的話,你可能無法獲得真實的資訊。我們對世界的理解一定是多模態的理解,而不僅僅是視覺的理解。
像這樣的視訊在快手資料庫中有70億,想要理解這麼多的視訊內容,必須藉助多模態技術。所以我們在這方面也做了非常多的工作,從文字、視覺、聽覺角度去做了很多單模態的建模,包括多模態的綜合建模、有序與無序,以及多模態特徵之間怎樣進行異構的建聯,在很多工內部的分類上也做了改進。
第二點需要強調的是,像ImageNET等很多的學術界研究內容理解的任務有非常好的標註資料集,但是這個資料集對於工業界來說還是太小,且多樣性不夠。我們平臺每天有1.3億多使用者以及超過150億次的視訊播放,這個資料是非常大的。如果有150億的標註資料,做演算法就會有很大的幫助,但是現實上是不具備的。
那怎樣將研究分析技術與海量資料更好地做到兩者的融合呢?我們通過融合行為資料和內容資料,進行綜合建模,同樣大小的人工標註量,利用海量的使用者行為資料,能夠獲得比純內容模型更好的效能,對視訊有了一個更好的理解,進而在多媒體內容的理解和分析方面的演算法研究有了非常大的進展,這就使我們在工業界和傳統學術界做這個事情時會更有優勢。
未來多模態研究的熱點:特徵表達與特徵對齊
總結一下,多模態內容解決的問題裡面涉及一些模態的轉化,比如怎樣通過2D影象驅動3D,怎樣通過語音生成文字或者通過文字生成語音,怎樣通過視覺驅動音樂。另外一個應用是我們怎樣通過融合更多資訊來驅動內容的理解,其實都是一個多模態的問題。在學術界有很多研究還是停留在單模態,但我個人認為未來多模態會成為更有價值的研究方向。
多模態研究會有兩個難點或者說熱點:
第一是多模態的特徵表達,也就是在多模態研究框架下怎樣設計單模態的特徵,這是一個非常重要的問題。
第二是多模態特徵之間如何對齊,也就是有沒有更好的演算法對視覺、聽覺和行為的部分進行統一的建模,這是未來的一個熱點。
幾個總結
第一,多模態未來會持續帶來更新的人機互動方式,比如我們剛才講的Animoji技術,其實它帶來的是一種可以通過人臉控制手機自動生成Avatar(虛擬動畫)的體驗。原來實現這些效果,需要在好萊塢專門設一個特效室來實現這一點,而現在普通使用者都能享受這樣的技術,所以人機互動會由原來重的、貴的、笨的方式轉變為便宜的、每個人都能參與的而且便捷的方式。
第二,我認為多模態技術會帶來新的內容形態,原來接入資訊更多是從文字、頁面中獲得,現在有視訊,未來可能還會有AR或者其它的形式。我覺得多模態AR很重要的一點就是強調沉浸感,這種沉浸感其實是通過聽覺和視覺綜合作用才能產生的。
第三,我認為多模態亟需新的演算法和大型的資料,因為這兩者可能會是一個某種意義上可以相互折算的問題。以目前的機器學習演算法來講,需要海量的資料才能解決好這個問題,因為現在深度學習、內容理解的成果,某種意義上是監督學習的成果,有足夠的樣本、算力,所以現在的演算法能力基本上還停留在對算力和資料有著非常大要求的階段。而多模態的大型資料是非常難建的,而且多模態解的空間是更大的。因為一個模態解的空間是n,另外一個是m,它最後是一個乘積、一個指數級的變化,所以資料集要多大才足夠是一個很難的這個問題,可能需要新的演算法來對這個問題進行建模。