1. 程式人生 > >即時通訊音視訊開發(八):常見的實時語音通訊編碼標準

即時通訊音視訊開發(八):常見的實時語音通訊編碼標準

前言


即時通訊應用中的實時音視訊技術,幾乎是IM開發中的最後一道高牆。原因在於:實時音視訊技術 = 音視訊處理技術 + 網路傳輸技術 的橫向技術應用集合體,而公共網際網路不是為了實時通訊設計的。

系列文章

內容概述


視訊通訊過程是視訊和音訊的實時雙向完整通訊過程。在這個過程中我們為了獲得高清晰視訊影象,有時卻忽略了另外一個重要的過程——音訊通訊過程。如果我們在觀看高清晰視訊影象的時候,不能得到一個更清晰、連續的音訊效果。那麼這個過程實際上就沒有任何意義,所以其重要性甚至超過視訊。

在傳統的視訊會議系統、即時通訊聊天系統中音訊技術發展極其緩慢,原因在於目前應用於視訊通訊的音訊編解碼壓縮標準都是為了保持傳輸時的低頻寬佔用和較高的編解碼效率,從而將音訊訊號的取樣頻率、取樣精度和取樣範圍指標做了極大的降低,使得所能提供的音訊清晰度和還原性都有很大程度上的衰減。與用於儲存和回放非實時壓縮協議的標準(如OGG、MP3等)相比,音訊的保真度非常低。這樣就在某種程度上對現場聲音的還原達不到要求。

目前傳統視訊通訊過程中主要採用的是G.711、G.722、G.721、G.728等音訊標準,音訊寬度僅有50Hz-7KHz單聲道,而人耳所能感知的自然界的頻響能力可以達到20Hz-20KHz,因此,在對現場環境音的還原過程中過多的音訊資訊的丟失造成了無法真實表現現場情況。所以在高清晰視訊通訊過程中我們勢必要有一種相輔助的音訊處理方式解決此問題。使整個高清晰通訊過程更去近於完美。

目前國際上對音訊處理技術上標準較多,在對下一代實時互動音訊處理上可以採用MPEG-1 Layer 2或AAC系列音訊,對選用標準的原則是,音訊頻響範圍要達到22KHz,這樣就幾乎可以覆蓋了人耳聽覺的全部範圍,甚至在高頻方面還有所超越,能夠使現場音訊得到真實自然的還原,並且在還原時可以採用雙聲道立體聲回放,使整個視訊通訊的聲音有更強的臨近感,達到CD級音質。同時在對鏈路頻寬的適應和編解碼效率上達到最佳。

以下是各種音訊編碼標準的說明。

實時音訊通訊編碼標準:G.711


型別:Audio
制定者:ITU-T
所需頻寬:64Kbps
特性:演算法複雜度小,音質一般
優點:演算法複雜度低,壓縮比小(CD音質>400kbps),編解碼延時最短(相對其它技術)
缺點:佔用的頻寬較高 
備註:70年代CCITT公佈的G.711 64kb/s脈衝編碼調製PCM。

實時音訊通訊編碼標準:G.721


制定者:ITU-T
所需頻寬:32Kbps
音訊頻寬:3.4KHZ
特性:相對於PCMA和PCMU,其壓縮比較高,可以提供2:1的壓縮比。
優點:壓縮比大
缺點:聲音質量一般 
備註:子帶ADPCM(SB-ADPCM)技術。G.721標準是一個程式碼轉換系統。它使用ADPCM轉換技術,實現64 kb/s A律或μ律PCM速率和32 kb/s速率之間的相互轉換。

實時音訊通訊編碼標準:G.722


制定者:ITU-T
所需頻寬:64Kbps
音訊寬度:7KHZ
特性:G722能提供高保真的語音質量
優點:音質好
缺點:頻寬要求高 
備註:子帶ADPCM(SB-ADPCM)技術

實時音訊通訊編碼標準:G.722.1


制定者:ITU-T
所需頻寬:32Kbps/24Kbps
音訊寬度:7KHZ
特性:可實現比G.722 編解碼器更低的位元率以及更大的壓縮。目標是以大約一半的位元率實現  G.722 大致相當的質量。
優點:音質好
缺點:頻寬要求高
備註:目前大多用於電視會議系統。

實時音訊通訊編碼標準:G.721附錄C


制定者:ITU-T
所需頻寬:48Kbps/32Kbps/4Kbps
音訊寬度:14KHZ
特性:採用自Polycom 的Siren™14 專利演算法,與早先的寬頻帶音訊技術相比具有突破性的優勢,提供了低時延的14 kHz 超寬頻帶音訊,而位元速率不到MPEG4 AAC-LD 替代編解碼器的一半,同時要求的運算能力僅為十分之一到二十分之一,這樣就留出了更多的處理器週期來提高視訊質量或者執行因特網應用程式,並且移動裝置上的電池續航時間也可延長。
優點:音質更為清晰,幾乎可與CD 音質媲美,在視訊會議等應用中可以降低聽者的疲勞程度。
缺點:是Polycom的專利技術。
備註:目前大多用於電視會議系統

實時音訊通訊編碼標準:G.723(低位元速率語音編碼演算法)


制定者:ITU-T
所需頻寬:5.3Kbps/6.3Kbps
音訊寬度:3.4KHZ
特性:語音質量接近良,頻寬要求低,高效實現,便於多路擴充套件,可利用C5402片內16kRAM實現53coder。達到ITU-TG723要求的語音質量,效能穩定。可用於IP電話語音信源編碼或高效語音壓縮儲存。
優點:位元速率低,頻寬要求較小。並達到ITU-TG723要求的語音質量,效能穩定。
缺點:聲音質量一般
備註:G.723語音編碼器是一種用於多媒體通訊,編碼速率為5.3kbits/s和6.3kbit/s的雙位元速率編碼方案。G.723標準是國際電信聯盟(ITU)制定的多媒體通訊標準中的一個組成部分,可以應用於IP電話等系統中。其中,5.3kbits/s位元速率編碼器採用多脈衝最大似然量化技術(MP-MLQ),6.3kbits/s位元速率編碼器採用代數碼激勵線性預測技術。

實時音訊通訊編碼標準:G.723.1(雙速率語音編碼演算法)


制定者:ITU-T
所需頻寬:5.3Kbps(29)
音訊寬度:3.4KHZ
特性:能夠對音樂和其他音訊訊號進行壓縮和解壓縮,但它對語音訊號來說是最優的。G.723.1採用了執行不連續傳輸的靜音壓縮,這就意味著在靜音期間的位元流中加入了人為的噪聲。除了預留頻寬之外,這種技術使發信機的調變解調器保持連續工作,並且避免了載波訊號的時通時斷。
優點:位元速率低,頻寬要求較小。並達到ITU-TG723要求的語音質量,效能穩定,避免了載波訊號的時通時斷。
缺點:語音質量一般 
備註:G.723.1演算法是ITU-T建議的應用於低速率多媒體服務中語音或其它音訊訊號的壓縮演算法,其目標應用系統包括H.323、H.324等多媒體通訊系統 。目前該演算法已成為IP電話系統中的必選演算法之一。

實時音訊通訊編碼標準:G.728


制定者:ITU-T
所需頻寬:16Kbps/8Kbps
音訊寬度:3.4KHZ
特性:用於IP電話、衛星通訊、語音儲存等多個領域。G.728是一種低時延編碼器,但它比其它的編碼器都複雜,這是因為在編碼器中必須重複做50階LPC分析。G.728還採用了自適應後置濾波器來提高其效能。
優點:後向自適應,採用自適應後置濾波器來提高其效能
缺點:比其它的編碼器都複雜
備註:G.728 16kb/s短延時碼本激勵線性預測編碼(LD-CELP)。1996年ITU公佈了G.728 8kb/s的CS-ACELP演算法,可以用於IP電話、衛星通訊、語音儲存等多個領域。16 kbps G.728低時延碼激勵線性預測。

G.728是低位元線性預測合成分析編碼器(G.729和G.723.1)和後向ADPCM編碼器的混合體。G.728是LD-CELP編碼器,它一次只處理5個樣點。對於低速率(56~128 kbps)的綜合業務數字網(ISDN)可視電話,G.728是一種建議採用的語音編碼器。由於其後向自適應特性,因此G.728是一種低時延編碼器,但它比其它的編碼器都複雜,這是因為在編碼器中必須重複做50階LPC分析。G.728還採用了自適應後置濾波器來提高其效能。

實時音訊通訊編碼標準:G.729


制定者:ITU-T
所需頻寬:8Kbps
音訊寬度:3.4KHZ
特性:在良好的通道條件下要達到長話質量,在有隨機位元誤碼、發生幀丟失和多次轉接等情況下要有很好的穩健性等。這種語音壓縮演算法可以應用在很廣泛的領域中,包括IP電話、無線通訊、數字衛星系統和數字專用線路。

G.729演算法採用“共軛結構代數碼本激勵線性預測編碼方案”(CS-ACELP)演算法。這種演算法綜合了波形編碼和引數編碼的優點,以自適應預測編碼技術為基礎,採用了向量量化、合成分析和感覺加權等技術。

G.729編碼器是為低時延應用設計的,它的幀長只有10ms,處理時延也是10ms,再加上5ms的前視,這就使得G.729產生的點到點的時延為25ms,位元率為8 kbps。
優點:語音質量良,應用領域很廣泛,採用了向量量化、合成分析和感覺加權,提供了對幀丟失和分組丟失的隱藏處理機制。
缺點:在處理隨機位元錯誤方面效能不好。 
備註:國際電信聯盟(ITU-T)於1995年11月正式通過了G.729。ITU-T建議G.729也被稱作“共軛結構代數碼本激勵線性預測編碼方案”(CS-ACELP),它是當前較新的一種語音壓縮標準。G.729是由美國、法國、日本和加拿大的幾家著名國際電信實體聯合開發的。

實時音訊通訊編碼標準:G.729A


制定者:ITU-T
所需頻寬:8Kbps(34.4)
音訊寬度:3.4KHZ
特性:複雜性較G.729低,效能較G.729差。
優點:語音質量良,降低了計算的複雜度以便於實時實現,提供了對幀丟失和分組丟失的隱藏處理機制
缺點:效能較G.729差 
備註:96年ITU-T又制定了G.729的簡化方案G.729A,主要降低了計算的複雜度以便於實時實現,因此目前使用的都是G.729A。

實時音訊通訊編碼標準:MPEG-1 audio layer 1


制定者:MPEG
所需頻寬:384kbps(壓縮4倍)
音訊寬度:
特性:編碼簡單,用於數字盒式錄音磁帶,2聲道,VCD中使用的音訊壓縮方案就是MPEG-1層Ⅰ。
優點:壓縮方式相對時域壓縮技術而言要複雜得多,同時編碼效率、聲音質量也大幅提高,編碼延時相應增加。可以達到“完全透明”的聲音質量(EBU音質標準)
缺點:頻寬要求較高
備註:MPEG-1聲音壓縮編碼是國際上第一個高保真聲音資料壓縮的國際標準,它分為三個層次:
--層1(Layer 1):編碼簡單,用於數字盒式錄音磁帶
--層2(Layer 2):演算法複雜度中等,用於數字音訊廣播(DAB)和VCD等
--層3(Layer 3):編碼複雜,用於網際網路上的高質量聲音的傳輸,如MP3音樂壓縮10倍

實時音訊通訊編碼標準:MPEG-1 audio layer 2,即MP2


制定者:MPEG
所需頻寬:256~192kbps(壓縮6~8倍)
音訊寬度:
特性:演算法複雜度中等,用於數字音訊廣播(DAB)和VCD等,2聲道,而MUSICAM由於其適當的複雜程度和優秀的聲音質量,在數字演播室、DAB、DVB等數字節目的製作、交換、儲存、傳送中得到廣泛應用。
優點:壓縮方式相對時域壓縮技術而言要複雜得多,同時編碼效率、聲音質量也大幅提高,編碼延時相應增加。可以達到“完全透明”的聲音質量(EBU音質標準)
缺點:無記錄
備註:同MPEG-1 audio layer 1

實時音訊通訊編碼標準:MPEG-1 audio layer 3(MP3)


制定者:MPEG
所需頻寬:128~112kbps(壓縮10~12倍)
音訊寬度:無記錄
特性:編碼複雜,用於網際網路上的高質量聲音的傳輸,如MP3音樂壓縮10倍,2聲道。MP3是在綜合MUSICAM和ASPEC的優點的基礎上提出的混合壓縮技術,在當時的技術條件下,MP3的複雜度顯得相對較高,編碼不利於實時,但由於MP3在低位元速率條件下高水準的聲音質量,使得它成為軟解壓及網路廣播的寵兒。
優點:壓縮比高,適合用於網際網路上的傳播
缺點:MP3在128KBitrate及以下時,會出現明顯的高頻丟失 
備註:同MPEG-1 audio layer 1

實時音訊通訊編碼標準:MPEG-2 audio layer


制定者:MPEG
所需頻寬:與MPEG-1層1,層2,層3相同
音訊寬度:無記錄
特性:MPEG-2的聲音壓縮編碼採用與MPEG-1聲音相同的編譯碼器,層1, 層2和層3的結構也相同,但它能支援5.1聲道和7.1聲道的環繞立體聲。
優點:支援5.1聲道和7.1聲道的環繞立體聲
缺點: 無記錄
備註:MPEG-2的聲音壓縮編碼採用與MPEG-1聲音相同的編譯碼器,層1, 層2和層3的結構也相同,但它能支援5.1聲道和7.1聲道的環繞立體聲。

實時音訊通訊編碼標準:AAC-LD (dvanced Audio Coding,先進音訊編碼)


制定者:MPEG
所需頻寬:48-64 kbps
音訊寬度:22KHZ
特性:提供高質量的低延時的音訊編碼標準,以其20ms的演算法延時提供更高的位元率和各種聲音訊號的高質量音訊。
缺點:無記錄
備註:超寬頻編解碼器技術支援高達48KHz取樣率的語音傳輸,與傳統的窄帶與寬頻語音編解碼器相比大幅提高了音質。該技術可提供接近CD音質的音訊,資料速率高達48–64kbps,不僅提高了IP語音與視訊應用的清晰度,而且支援電話音樂傳輸功能。高清語音通道支援更高的取樣率,配合音訊編解碼器的高保真音效,顯著豐富並擴充套件了頻譜兩端的音質範圍,有效改善了語音迴響效能,提高了清晰度。

網易雲信,你身邊的即時通訊和音視訊技術專家,瞭解我們,請戳網易雲信官網

想要閱讀更多行業洞察和技術乾貨,請關注網易雲信部落格

本文轉載自52im,作者:JackJiang