1. 程式人生 > >音視訊技術開發週刊 75期

音視訊技術開發週刊 75期

640?wx_fmt=jpeg


音視訊技術開發週刊』由LiveVideoStack團隊出品,專注在音視訊技術領域,縱覽相關技術領域的乾貨和新聞投稿,每週一期。點選『閱讀原文』,瀏覽第75期內容,祝您閱讀愉快。


架構


Netflix媒體資料庫:媒體時間線資料模型

如何設計高效的視訊資料庫,Netflix的NMDB給出了答案。本文是系列文章的第二篇,感謝Hulu的小夥伴們的技術審校。


教育場景下的實時音訊解決方案

本文來自網易雲信 資深音訊演算法工程師 李備在LiveVideoStackCon 2018講師熱身分享,並由LiveVideoStack整理而成。在分享中李備詳細分析了線上教育的音訊需求,以及一般軟體音訊框架,和行業的挑戰。


WebRTC中音訊相關的netEQ(五):DSP處理

MCU發給DSP的主要的控制命令有正常播放(normal)、加速播放(accelerate)、減速播放(preemptive expand)、丟包補償(PLC,程式碼中叫expand)、融合(merge)等。


精緻前處理,精準碼控 — 極致視覺效果

編碼時採用精準碼控,在位元速率受限的情況下,將有限的資源合理分配,提高整體畫質;編碼前,對影象進行精緻的前處理,營造更加極致的視覺效果,提升畫質。本文來自騰訊視訊 視訊編碼團隊負責人汪亮在LiveVideoStackCon 2018大會上的分享,並由LiveVideoStack整理而成。


WebRTC 點對點會話建立過程分析

關於 WebRTC 建立點對點連線的文章很多,其中都提到了如何利用 STUN 伺服器獲取本機的公網地址,本文側重區域網(兩臺裝置之間可以直接ping通)下WebRTC點對點連線建立問題分析。


WebRTC 的 CreateOffer 過程分析

通過 WebRTC 點對點會話建立過程分析可以知道 CreateOffer 的具體實現位置在 src\third_party\webrtc\pc\mediasession.cc ,但是 CreateOffer 執行過程中具體經歷了什麼,還沒有進行介紹,接下來將介紹 CreateOffer 究竟建立了什麼內容。


《週四橄欖球之夜》流媒體視訊拆解:Twitch VS Amazon Prime

最近,亞馬遜開始在Prime Video和Twitch上直播大型體育賽事。流媒體專家Phil Cluff從編解碼器、包裝格式、DRM策略及CDN等方面對兩種平臺的流媒體架構進行了分析、推測。LiveVideoStack對原文進行了翻譯。


音訊/視訊技術


基於HLS格式的低延時互動直播技術

在不犧牲服務質量(卡頓率、畫面清晰度)的前提下,越低的延時能帶來越好的互動性使用者體驗。為達成可擴充套件性、服務質量、互動性的三贏,Twitch團隊研發了基於HLS格式的低延時互動直播技術。本文來自Twitch Principal Research Engineer沈悅時在LiveVideoStackCon 2018大會上的分享,並由LiveVideoStack整理而成。


SRT : 開源的視訊傳輸協議

SRT(Secure Reliable Transport)是新一代低延遲視訊傳輸協議,是一種開源、免費和應用靈活的規範,它的效能與專用的協議一樣優秀,同時能夠在不同製造商生產的產品之間工作。本文主要參考Haivision的SRT白皮書,概述了SRT的一些關鍵特性,並將SRT與常見傳輸格式及新一代傳輸協議QUIC進行比較,最後簡述SRT的發展現狀。


WebRTC:音訊QoS中的前向糾錯 (FEC) 技術解析

WebRTC語音傳輸中保證傳輸質量的主要措施分為丟包重傳 (NACK) 和前向糾錯 (FEC),其中NACK主要是接收端在檢測到資料包RTP序列號不連續的時候,傳送重傳請求,傳送端接收到重傳請求後重新向接收端傳送丟失的資料。


直播首屏耗時400ms以下的優化實踐

直播行業的競爭越來越激烈,進過18年這波洗牌後,已經度過了蠻荒暴力期,剩下的都是在不斷追求體驗。最近在幫做直播優化首開,通過多種方案並行,把首開降到500ms以下,希望能對大家有借鑑。


阿里雲邊緣節點ENS助力淘寶構建音視訊通訊網路

淘寶的音視訊通訊基礎團隊與阿里雲邊緣計算技術團隊合作,通過邊緣節點收流、合流、構建低延時音視訊通訊鏈路,完美地解決由於地域分佈廣泛、網路質量不穩定帶來的體驗問題和延時問題。


編解碼


語音編解碼技術演進和應用選型

本文來自現網易雲音樂音視訊實驗室負責人劉華平在LiveVideoStackCon 2017大會上的分享,並由LiveVideoStack整理而成。分享中劉華平以時間為主線,講述了語音編解碼技術的演進路線及實際應用中的技術選型。


基於機器學習技術的非迭代內容自適應分散式編碼

分散式編碼是縮短內容準備雲工作流程的週轉時間的一種有效方法。本文提出了一種非迭代的程式碼同義方法,它採用機器學習技術來實現平均位元率的節省,同時保證目標質量。


幀間預測相關資訊獲取

獲取幀間編碼模式 呼叫getPartitionSize(UInt uiIdx),uiIdx=0表示當前深度CU eg.如果編碼塊是Inter2Nx2N模式,即遍歷xCheckRDCostInter( rpcBestCU, rpcTempCU, SIZE_2Nx2N DEBUG_STRING_...


AV1解碼器dav1d效能提升100%

11月21日,VideoLAN的主席Jean-Baptiste Kempf在其部落格上透露了AV1解碼器dav1d的最新進展,和libaom相比,dav1d效能普遍提升100%,最高提升400%。


AI智慧


中國團隊“霸屏”全球權威人臉識別競賽,依圖奪冠!

美國國家標準與技術研究院(NIST)剛剛公佈了有工業界“黃金標準”之稱的全球人臉識別演算法測試(FRVT)結果,依圖科技以千萬分之一誤報下的識別準確率超過99%,繼續保持全球人臉識別競賽冠軍,中國公司商湯科技摘得第三名和第四名。


NR V2X最新總結,快來一起看看吧~

3GPP工作組在2018年6月RAN#80全會上啟動了NR V2X技術研究,在之後的RAN1 94/94b/95次會議中工作組成員針對V2X課題進行了大量的討論。


利用卷積神經網路對座頭鯨進行聲學探測

在過去幾年中,Google AI Perception 團隊開發出音訊事件分析技術,並將其應用於 YouTube 上的非語言字幕、視訊分類和檢索。此外,為了進一步推動社群中的研究,我們還發布了 AudioSet 評估集,並開源了部分模型程式碼。


人臉識別|人證比對《DocFace+: ID Document to Selfie Matching》論文解讀(附程式碼)

本文中,我們提出了DocFace++來解決這問題。我們首先展示了基於梯度的優化方法在每個類別只有很少樣本的時候,收斂的很慢。為了克服這個缺點,我們提出了一種方法,叫做動態權值imprint(不知道怎麼該翻譯這個imprint),來更新分類的權值,這樣可以收斂的更快,特徵表達更加的泛化。


影象


Android開發之影象處理那點事——濾鏡

在 Android 開發中,一般對影象的處理就是 Bitmap(點陣圖),它包含了影象的全部資料,即點陣和顏色值,點陣就是包含畫素點的矩陣,而顏色值就是ARGB,分別代表透明、紅色、綠色、藍色通道,它們共同決定了畫素點的顏色,今天我們來講講關於改變影象顏色的相關知識點。