1. 程式人生 > >阿裏雲黃海宇:窄帶高清2.0——讓直播更驚艷的魔術

阿裏雲黃海宇:窄帶高清2.0——讓直播更驚艷的魔術

視頻 直播

摘要: 2018年4月11-12日,2018亞太CDN峰會在北京隆重召開,大會由亞太CDN領袖論壇、電視雲論壇、短視頻論壇、視頻雲論壇、新技術論壇、運營商論壇、國際雲論壇等7大部分組成。在視頻雲論壇上,阿裏雲視頻雲高級算法專家黃海宇作了題為《窄帶高清2.0——讓直播更驚艷的魔術》的主題致辭。

2018年4月11-12日,2018亞太CDN峰會在北京隆重召開,大會由亞太CDN領袖論壇、電視雲論壇、短視頻論壇、視頻雲論壇、新技術論壇、運營商論壇、國際雲論壇等7大部分組成。在視頻雲論壇上,阿裏雲視頻雲高級算法專家黃海宇作了題為《窄帶高清2.0——讓直播更驚艷的魔術》的主題致辭。下面為演講內容:

我是來自阿裏雲視頻雲的黃海宇,我目前從事的工作主要是阿裏雲視頻直播相關技術。隨著直播的發展,CDN的帶寬、CDN的成本以及視頻的清晰度已經成為一個非常重要的問題,我的演講題目是“窄帶高清2.0——讓直播更驚艷的魔術”。

技術分享圖片

其實,阿裏雲早在2015年就已經提出了窄帶高清的概念。這個概念提出來以後,很多友商開始引用這個概念,並且也推出了類似服務。

那麽,我們當初提出窄帶高清的原因是什麽?在近兩年來,在此基礎上又做了哪些發展呢?今天我將給大家分享一下。

大家觀看視頻時,都希望畫質清晰,但實際上,在看互聯網直播是,我們更多看到的是比較模糊的視頻。那麽,我們是否現在沒有辦法制作高清視頻呢?答案是否定的。

上個月,阿裏雲在深圳雲棲大會現場第一次進行了8k直播,舞臺的屏幕上顯示了從1300公裏以外的阿裏巴巴杭州園區傳輸回來的直播圖像視頻,現場觀眾清晰地看到了景泰藍淘公仔的精致畫面。但實際的直播業務場景中,用戶在做互聯網直播的時候,由於網絡傳輸原因,並不能讓每位觀眾都能看到非常清晰的視頻,高清晰度的直播的限制主要在網絡的帶寬上。

技術分享圖片

構建在阿裏雲上的一個直播平臺調研數據顯示,只有16%的用戶能夠看到超清的視頻,54%的用戶能夠看到高清的視頻,30%的用戶看不到高清視頻。

如果,能把超清碼率往高清靠一下的話,是不是更多人就能夠看到超清的視頻了呢?

實際上,我們也正在向這個方向努力,但這樣會帶來一個問題,把超清碼率往高清靠的時候,對清晰度會有多大影響呢?做視頻編解碼朋友都會熟悉PSNR的公式,被廣泛應用在衡量各種不同編碼器的編碼質量上,實際上這個公式確實非常客觀地描述了一個視頻經過視頻編碼以後信息量的損耗,站在信息論的角度來進行分析的。但實際視頻是人眼來看的,人眼對視頻的敏感度和視頻在編碼過程中損失的信息量並不是直接對應的。

窄帶高清——人眼主觀感受最優為基準的視頻編碼技術

基於以上討論,可以引出窄帶高清的概念。窄帶高清實際上是一套以人眼的主觀感受最優為基準的視頻編碼技術,研究的是在帶寬受限情況下,如何追求最佳的視覺感受。

把範圍縮小到人眼主觀感受,以及帶寬受限兩個條件時,會發現很多有意思的事情。

首先和現在的編碼標準發展趨勢是相同的,效果能夠疊加。編碼器發展時間,差不多每十年,編碼器都會發展一代,編碼質量會大約節約30%-50%的碼率,這個碼率的節約是按照PSNR評價標準來做的。但利用窄帶高清的技術,把焦點集中在人眼的感受,可以把業界普遍浪費的帶寬節省下來,讓我們的帶寬更多放在人眼感興趣的地方,可以輕松達到30%的帶寬節約,幾乎可以平等地媲美一代編碼器的進步。因為技術關註點在人眼上,我們可以把業界普遍處理不好的復雜場景做得漂亮,非專業觀眾一眼就可以看出優勢。

窄帶高清1.0——兩套人眼視覺模型

窄帶高清1.0是阿裏巴巴在2016年推出的一個版本。在窄帶高清1.0的背後隱藏著兩個人眼視覺模型:

技術分享圖片

第一個模型稱之為保真度與主觀評分值之間的世界模型,橫坐標是視頻保真度,代表編碼出來的制品與原始視頻之間信息量差別,縱坐標是人眼對視頻的評分,總共是5分。隨著編碼後視頻越來越接近原始視頻,人眼對視頻的要求是越來越高的,但並不是一條線性的形狀,是分成三段曲線,這使得阿裏雲知道中間這段非常陡峭的區域正是設置比較好碼率的地方,在兩端比較平坦的地方,加大視頻碼率,提高視頻客觀清晰度,實際上並不能帶給人眼很好的清晰度。中間稍微把碼率提高一點,視頻對人眼的感受就完全不一樣,每一比特碼率都會非常有所值。所以阿裏雲在設置視頻碼率時會盡可能選擇視頻檔位在中間的區域。

第二個模型是分辨率與碼率的模型。在這個模型中,關註的是同樣的碼率到底應該設置多少清晰度,或對一個給定的清晰度,應該設定一個怎樣的碼率。傳統視頻網站中,通常設置方法,比如480p會設600k,720p設1.2m,超清1080p設2.5m,類似這樣一個比較固定的碼率設置。實際上每個視頻所需要的碼率不一樣,表達的清晰度也不一樣。例如,對於一個運動場景不復雜的教育視頻來說, 1080p在的碼率也會有非常好的效果。在實踐中,我們會根據視頻的類型和清晰度,預期選擇碼率和分辨率,同時根據視頻內容做合理的碼率分配。

通過傳統方法,通常會設一個720p分辨率,碼率大概是1m。實際上這個視頻表現非常糟糕,鳥叔襯衫上全是馬賽克,而且雪花點全部變得模糊。原因是這個視頻運動非常復雜,只有1m碼率,這種情況下,需要用1m碼率去表達1280×720象素,對每一個象素的表現都會非常差,會損失很多象素細節,導致整體效果。

技術分享圖片

我們做過以後的效果,只用了887k碼率,比之前碼率節省15%-20%,用的是432p的分辨率,在窄帶高清時經常會設置這樣的分辨率,追求達到最好的人眼主觀感受的效果。

窄帶高清2.0——深入微觀世界 分析視頻細節

窄帶高清2.0是阿裏雲在2017年杭州雲棲大會發布的。窄帶高清2.0深入到微觀層面,分析視頻每一個細節,發現這些視頻細節對人眼敏感度是怎麽樣的。引入人眼敏感度模型概念,關註人眼到底會關註哪些細節、忽視哪些細節。對人眼關註的地方會給予更高的碼率,甚至會對原始視頻進行一些修復,使其更適合人眼觀看的體驗。對於忽視的地方可以降低一些碼率。

從我們主觀評測可以發現,基於H.264的窄帶高清2.0已經完全超越了x264 veryslow的效果,與x265的veryslow效果相當,通過窄帶高清2.0,使得我們可以超越當前編碼器,提前進入到下一代編碼器。

技術分享圖片

下面我們看下窄帶高清2.0的實戰。下圖的直播畫面中,在聚焦區域,主播的臉、頭發,窄帶高清2.0的效果會顯得更加柔順。在一些脫焦的區域,窄帶高清2.0分配了比較少的碼率,完全不會影響人眼對它的主觀感覺。

技術分享圖片

另一個實戰場景是遊戲直播。槍戰類型的遊戲直播非常消耗碼率,1080p設置2.9m的遊戲直播,整體來看會有非常多的馬賽克,因為這個視頻在2.9m,完全無法表達1080p的象素,窄帶高清2.0使用了720p的分辨率,同樣2.9m,效果會好得多,另外,窄帶高清2.0將人眼比較敏感的文字,紋理做了增強,整個視頻看起來更加舒服。

技術分享圖片

窄帶高清2.0可以節約大量的帶寬成本,同時也能夠提高視頻觀看流暢度,在高碼率時能節省差不多1倍的碼率,在低碼率時能節省20%-30%,綜合可以得到30%以上成本的節約。另外,窄帶高清2.0還可以提高清晰度,如果追求的是視頻清晰度,可以設置相同的碼率。

在通常情況下,視頻畫質越好帶寬費用肯定越高,帶寬又是視頻服務中占比很高的一項成本,很多開發者都在尋求效果與成本的平衡點。阿裏雲的窄帶高清技術,就可以完美的解決這一難題,這就是雲計算技術帶來的實際價值體現。

原文鏈接

閱讀更多幹貨好文,請關註掃描以下二維碼:

技術分享圖片


阿裏雲黃海宇:窄帶高清2.0——讓直播更驚艷的魔術