1. 程式人生 > >AV1:為網際網路提供開放、免費的視訊編解碼工具

AV1:為網際網路提供開放、免費的視訊編解碼工具

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&retryload=1

從學術研究到進入工業界,Zoe Liu一直在演算法和音視訊領域,目前在谷歌編解碼團隊為編解碼器AV1做開發支援。Zoe暢談了評定編解碼器的標準,以及AV1的最新進度。本文是『下一代編碼器』系列採訪之一,歡迎自薦或推薦技術人加入『下一代編碼器』系列採訪,請郵件[email protected]

文 / Ant

LiveVideoStack:請簡要介紹下自己,以及目前主要的工作方向,對哪些技術或領域感興趣?10多年來一直做多媒體相關的研發,是巧合嗎,還是興趣使然?

Zoe Liu:我目前在谷歌(Google)做軟體工程師,主要從事視訊編碼與視訊通訊演算法設計與實現。曾在美國貝爾實驗室(Bell Labs), 諾基亞研究中心(Nokia Research Center), 以及惠普實驗室(HP Labs)等處從事理論演算法研究,後轉入工業屆,參與瞭如下視訊通話產品的設計與推出:蘋果(Apple)的FaceTime,談客 (TangoMe)Video Calls,以及 谷歌眼鏡(Google Glass)專屬Hangouts Video Calls。目前在谷歌從事下一代開源免版權費(Open Source, Royalty Free)的AV1視訊編碼的標準制作。從學校到現在一直從事視屏編碼跟視訊通訊方面的工作,有機緣巧合,也有興趣使然。

LiveVideoStack:什麼樣的編解碼器是一個好的編解碼器?視訊質量、位元速率、演算法複雜度、對資料丟失或錯誤的魯棒性等。

Zoe Liu:視訊編解碼發展的根本還是在於視訊壓縮效率的不斷提高,也就是在一定視訊質量下追求最低可能的位元速率,亦或在一定視訊位元速率下追求最佳視訊質量。視訊質量的評測,傳統上還是使用峰值信噪比,儘管這一指標在很多情形下與人眼主觀的評測結果不能夠一致的吻合。視訊質量評測本身就是一個非常活躍的研究領域。

視訊產品不同的應用場景,決定了視訊編解碼器的評估策略也不盡相同。在視訊廣播,視訊直播等領域,解碼器的解碼效率和效能是關鍵環節之一。在視訊通話,視訊會議等應用場景,編碼器的效率跟效能同樣關鍵。目前視訊碼流都有關鍵幀的週期性嵌入。關鍵幀均採用幀內預測,其編解碼是與其他幀獨立,因此可以用於同步幀,有效的恢復糾錯,但通常也會消耗大量的位元速率。除關鍵幀的採用之外,另一比較有效的容錯策略是利用資料鏈路層的ACK/NACK結合視訊編碼的長距離參考幀,一旦網路出現錯誤(由於網路擁塞造成的包丟失),可利用確認成功傳送的參考幀做幀間預測產生同步幀,編碼效率會顯著提升。但ACK/NACK的傳送與接收取決於網路的往返延遲時間等狀態引數。其他容錯傳輸,比如向前糾錯編碼(FEC),在網路丟包概率小於一定限度的情形下十分有效,丟包嚴重時糾錯效能則大大下降。編解碼器的編碼效率與其容錯能力通常是相互矛盾的。編碼效率的演算法大多得益於多種預測與基於上下文(context-based)的編碼工具的採用,而這些工具對於網路錯誤非常敏感。所以任何一款編解碼器的研製,都會以犧牲一定的編碼效率來增強其容錯能力。

LiveVideoStack:你在LiveVideoStackCon上的分享AOM聯盟以及AV1編解碼器,能否在這裡review一下?

Zoe Liu:首先介紹了我們在谷歌的視訊編碼團隊。我們團隊隸屬於Chrome Media部門。Chrome Media的工作使命在於為網際網路上的多媒體應用提供開放和免費的多媒體壓縮技術。視訊方面,我們的產品主要有VP8,VP9,以及AV1,其中AV1是目前和開放媒體聯盟(AOM)的合作伙伴共同開發的。除視訊之外,我們的產品還包括靜態影象壓縮標準WebP,音訊編碼器Opus,以及專門為3D圖形資料研發的Draco編碼軟體。

多樣化的視訊應用在近幾年呈現井噴的趨勢,目前視訊應用提供者的背景也是千差萬別,在考慮壓縮軟體時,對成本和需求的考量也變得多樣化了,這就是為什麼壓縮行業在單一的國際標準之外也需要產品的多元化,讓使用者來作出適合自己的選擇。

谷歌一直以來都在堅持一個理念:所有奠基網際網路應用的技術,應該是開放的、免費的,比如Chrome瀏覽器,Android系統就是這一理念下的例項。先進的開源、免費視訊編解碼技術,可以帶來視訊相關領域最大可能的發展,尤其為小型內容所有者以及相應企業在網際網路激烈的競爭年代,提供更多平等的機會,與運營的大型公司平等抗衡,從而促進更加豐富、多樣化的網際網路絡市場的發展。

2013年,VP9的誕生,在壓縮效率上達到與H264相比節約50%的位元速率效能,除了基本的8位元、420格式外,同時支援更高畫素精度和多種顏色空間取樣格式。到現在為止,數十億的終端裝置支援VP9;Chrome,火狐,Edge,以及Opera等瀏覽器均支援VP9;在手機上,4.4或更高版本的安卓系統也支援VP9。在電視、遊戲機、數字電視棒等家庭娛樂裝置上VP9也有非常廣泛的支援。

VP9最初的客戶是谷歌的視訊分享網站YouTube。從2013年到現在,除了大幅降低頻寬成本外,VP9給YouTube的業務創造了更多的機會。在投入使用的第一年,基於VP9壓縮的視訊在YouTube上播放時長即達到25億小時。目前YouTube上VP9視訊使用者,日均觀看達到20多億次。採用VP9壓縮,使得播放起始延遲時間(首屏耗時)大大降低(平均降低15%),與此同時,緩衝效率大大提高。在成熟的線上視訊消費市場,VP9使得YouTube市場佔有率提高了25%,在尚未成熟的市場則提高了100%。特別是在受制於頻寬限制、尚未成熟的市場中,YouTube高清視訊在VP9成為主導編解碼後,播放數量提升高達25%。

2015年,谷歌推進了開放媒體聯盟(AOM)的創立,致力於開發開源、免費版權的新一代媒體格式,以及相應的編解碼技術。目前,AOM董事會成員已經涵蓋了Adobe,Amazon,AMD,Broadcom,Cisco,Facebook,Google,Hulu,IBM,Intel,Microsoft,Mozilla,nVIDIA,Netflix,nVidia等33家以上的技術巨頭。

LiveVideoStack:對於應屆生或從其他研發領域轉行學習編解碼、多媒體開發的技術人,有哪些建議?能否推薦一些系統學習編解碼、多媒體開發的圖書、資料?

Zoe Liu:目前流行編解碼技術的基本框架是幀間運動向量預測+二維變換+熵編碼。當然人工智慧的發展會不可避免的更新或者顛覆這一框架。瞭解編解碼技術,國內在微博、微信以及知乎平臺上都有很好的總結性文章,深入淺出,比閱讀書籍會上手快許多。如果需要進一步瞭解編解碼的各個模組與技術細節,最好具備影象處理、訊號處理、資訊理論的一些基本知識。建議可以閱讀IEEE期刊上的一些關於H264/HEVC/VP9的總結性論文。目前視訊編碼開原始碼很多,可以下載試執行,從而對編解碼有更加直觀的概念。

關於受訪者

谷歌(Google)軟體工程師,主要致力於視訊編碼與視訊通訊的演算法設計與實現。曾在美國貝爾實驗室(Bell Labs), 諾基亞研究中心(Nokia Research Center), 以及惠普實驗室(HP Labs)等處從事理論演算法研究,後轉入工業屆,尤其參與瞭如下視訊通話產品的設計與推出:蘋果(Apple)的FaceTime,談客 (TangoMe)Video Calls,以及 谷歌眼鏡(Google Glass)專屬Hangouts Video Calls。目前在谷歌從事下一代開源無版權費(Open Source, Royalty Free)的AV1視訊編碼的標準制作。

0?wx_fmt=jpeg

Zoe Liu 谷歌(Google)軟體工程師

本文是『下一代編碼器』系列採訪的第五篇,該系列採訪將圍繞視訊編解碼器領域的工業界與學術界的工程師,探討編解碼器的演進與應用。歡迎自薦或推薦技術人加入『下一代編碼器』系列採訪,請郵[email protected]

LiveVideoStack招募社群編輯

LiveVideoStack是專注在音視訊、多媒體開發的技術社群,通過傳播最新技術探索與應用實踐,幫助技術人員成長,解決企業應用場景中的技術難題。如果你有意為音視訊、多媒體開發領域發展做出貢獻,歡迎成為LiveVideoStack社群編輯的一員。你可以翻譯、投稿、採訪、提供內容線索等。

通過[email protected]聯絡,或在LiveVideoStack公眾號回覆『社群編輯』瞭解詳情。