1. 程式人生 > >android直播中的一些流媒體技術淺析

android直播中的一些流媒體技術淺析

最近在做一個直播的android手機app,難點在於流媒體的處理,主要是對流媒體進行編碼與傳輸,在此用H264編碼,傳輸協議採用RTMP,流媒體伺服器用nginx並進行配置。本文先寫編碼相關的知識。

  所謂視訊編碼方式就是指通過特定的壓縮技術,將某個視訊格式的檔案轉換成另一種視訊格式檔案的方式。

壓縮技術:
有失真壓縮:將視訊數字訊號合併整理,訊號本身沒有損失
無失真壓縮:進一步根據人眼的特性(諸如時滯性等),減少訊號兩,訊號本身有一定的損失,也就是圖象質量有損失。

編碼方案
音訊視訊編碼方法有很多,主要有2類:

  • MPEG系列:

    (由ISO[國際標準組織機構]下屬的MPEG[運動圖象專家組]開發 )視訊編碼方面主要是Mpeg1(vcd用的就是它)、Mpeg2(DVD使用)、Mpeg4(的DVDRIP使用的都是它的變種,如:divx,xvid等)、Mpeg4 AVC(正熱門);音訊編碼方面主要是MPEG Audio Layer 1/2、MPEG Audio Layer 3(大名鼎鼎的mp3)、MPEG-2 AAC 、MPEG-4 AAC等等。注意:DVD音訊沒有采用Mpeg的。

  • H.26X系列:

    (由ITU[國際電傳視訊聯盟]主導,側重網路傳輸,注意:只是視訊編碼)
    包括H.261、H.262、H.263、H.263+、H.263++、H.264(就是MPEG4 AVC-合作的結晶)[1]

編碼原理
數字化後的視訊訊號能進行壓縮主要依據兩個基本條件:
資料冗餘:
例如如空間冗餘、時間冗餘、結構冗餘、資訊熵冗餘等,即影象的各畫素之間存在著很強的相關性。消除這些冗餘並不會導致資訊損失,屬於無失真壓縮。
視覺冗餘:
人眼的一些特性比如亮度辨別閾值,視覺閾值,對亮度和色度的敏感度不同,使得在編碼的時候引入適量的誤差,也不會被察覺出來。可以利用人眼的視覺特性,以一定的客觀失真換取資料壓縮。這種壓縮屬於有失真壓縮。
數字視訊訊號的壓縮正是基於上述兩種條件,使得視訊資料量得以極大的壓縮,有利於傳輸和儲存。一般的數字視訊壓縮編碼方法都是混合編碼,即將變換編碼,運動估計和運動補償,以及熵編碼三種方式相結合來進行壓縮編碼。通常使用變換編碼來消去除影象的幀內冗餘,用運動估計和運動補償來去除影象的幀間冗餘,用熵編碼來進一步提高壓縮的效率。

視訊影象資料有極強的相關性,也就是說有大量的冗餘資訊。其中冗餘資訊可分為空域冗餘資訊和時域冗餘資訊。壓縮技術就是將資料中的冗餘資訊去掉(去除資料之間的相關性),壓縮技術包含幀內影象資料壓縮技術、幀間影象資料壓縮技術和熵編碼壓縮技術。

  • 去時域
    使用幀間編碼技術可去除時域冗餘資訊,它包括以下三部分:
    - 運動補償
    運動補償是通過先前的區域性影象來預測、補償當前的區域性影象,它是減少幀序列冗餘資訊的有效方法。
    - 運動表示
    不同區域的影象需要使用不同的運動向量來描述運動資訊。運動向量通過熵編碼進行壓縮。
    -運動估計
    運動估計是從視訊序列中抽取運動資訊的一整套技術。
    注:通用的壓縮標準都使用基於塊的運動估計和運動補償。
  • 去空域
    主要使用幀內編碼技術和熵編碼技術:
    -變換編碼
    幀內影象和預測差分訊號都有很高的空域冗餘資訊。變換編碼將空域訊號變換到另一正交向量空間,使其相關性下降,資料冗餘度減小。
    - 量化編碼
    經過變換編碼後,產生一批變換系數,對這些係數進行量化,使編碼器的輸出達到一定的位率。這一過程導致精度的降低。
    -熵編碼
    熵編碼是無損編碼。它對變換、量化後得到的係數和運動資訊,進行進一步的壓縮。

H264編碼原理

H264是新一代的編碼標準,以高壓縮高質量和支援多種網路的流媒體傳輸著稱,在編碼方面,我理解的他的理論依據是:參照一段時間內影象的統計結果表明,在相鄰幾幅影象畫面中,一般有差別的畫素只有10%以內的點,亮度差值變化不超過2%,而色度差值的變化只有1%以內。所以對於一段變化不大影象畫面,我們可以先編碼出一個完整的影象幀A,隨後的B幀就不編碼全部影象,只寫入與A幀的差別,這樣B幀的大小就只有完整幀的1/10或更小!B幀之後的C幀如果變化不大,我們可以繼續以參考B的方式編碼C幀,這樣迴圈下去。這段影象我們稱為一個序列(序列就是有相同特點的一段資料),當某個影象與之前的影象變化很大,無法參考前面的幀來生成,那我們就結束上一個序列,開始下一段序列,也就是對這個影象生成一個完整幀A1,隨後的影象就參考A1生成,只寫入與A1的差別內容。
在H264協議裡定義了三種幀,完整編碼的幀叫I幀,參考之前的I幀生成的只包含差異部分編碼的幀叫P幀,還有一種參考前後的幀編碼的幀叫B幀。
H264採用的核心演算法是幀內壓縮和幀間壓縮,幀內壓縮是生成I幀的演算法,幀間壓縮是生成B幀和P幀的演算法。

序列的說明
在H264中影象以序列為單位進行組織,一個序列是一段影象編碼後的資料流,以I幀開始,到下一個I幀結束。
一個序列的第一個影象叫做 IDR 影象(立即重新整理影象),IDR 影象都是 I 幀影象。H.264 引入 IDR 影象是為了解碼的重同步,當解碼器解碼到 IDR 影象時,立即將參考幀佇列清空,將已解碼的資料全部輸出或拋棄,重新查詢引數集,開始一個新的序列。這樣,如果前一個序列出現重大錯誤,在這裡可以獲得重新同步的機會。IDR影象之後的影象永遠不會使用IDR之前的影象的資料來解碼。
一個序列就是一段內容差異不太大的影象編碼後生成的一串資料流。當運動變化比較少時,一個序列可以很長,因為運動變化少就代表影象畫面的內容變動很小,所以就可以編一個I幀,然後一直P幀、B幀了。當運動變化多時,可能一個序列就比較短了,比如就包含一個I幀和3、4個P幀。

三種幀的說明

  • 1、I幀
    I幀:幀內編碼幀 ,I幀表示關鍵幀,你可以理解為這一幀畫面的完整保留;解碼時只需要本幀資料就可以完成(因為包含完整畫面)
    I幀特點:
    1)它是一個全幀壓縮編碼幀。它將全幀影象資訊進行JPEG壓縮編碼及傳輸;
    2)解碼時僅用I幀的資料就可重構完整影象;
    3)I幀描述了影象背景和運動主體的詳情;
    4)I幀不需要參考其他畫面而生成;
    5)I幀是P幀和B幀的參考幀(其質量直接影響到同組中以後各幀的質量);
    6)I幀是幀組GOP的基礎幀(第一幀),在一組中只有一個I幀;
    7)I幀不需要考慮運動向量;
    8)I幀所佔資料的資訊量比較大。
  • 2、P幀
    P幀:前向預測編碼幀。P幀表示的是這一幀跟之前的一個關鍵幀(或P幀)的差別,解碼時需要用之前快取的畫面疊加上本幀定義的差別,生成最終畫面。(也就是差別幀,P幀沒有完整畫面資料,只有與前一幀的畫面差別的資料)
    P幀的預測與重構:P幀是以I幀為參考幀,在I幀中找出P幀“某點”的預測值和運動向量,取預測差值和運動向量一起傳送。在接收端根據運動向量從I幀中找出P幀“某點”的預測值並與差值相加以得到P幀“某點”樣值,從而可得到完整的P幀。
    P幀特點:
    1)P幀是I幀後面相隔1~2幀的編碼幀;
    2)P幀採用運動補償的方法傳送它與前面的I或P幀的差值及運動向量(預測誤差);
    3)解碼時必須將I幀中的預測值與預測誤差求和後才能重構完整的P幀影象;
    4)P幀屬於前向預測的幀間編碼。它只參考前面最靠近它的I幀或P幀;
    5)P幀可以是其後面P幀的參考幀,也可以是其前後的B幀的參考幀;
    6)由於P幀是參考幀,它可能造成解碼錯誤的擴散;
    7)由於是差值傳送,P幀的壓縮比較高。
  • 3、B幀
    B幀:雙向預測內插編碼幀。B幀是雙向差別幀,也就是B幀記錄的是本幀與前後幀的差別(具體比較複雜,有4種情況,但我這樣說簡單些),換言之,要解碼B幀,不僅要取得之前的快取畫面,還要解碼之後的畫面,通過前後畫面的與本幀資料的疊加取得最終的畫面。B幀壓縮率高,但是解碼時CPU會比較累。
    B幀的預測與重構
    B幀以前面的I或P幀和後面的P幀為參考幀,“找出”B幀“某點”的預測值和兩個運動向量,並取預測差值和運動向量傳送。接收端根據運動向量在兩個參考幀中“找出(算出)”預測值並與差值求和,得到B幀“某點”樣值,從而可得到完整的B幀。
    B幀特點
    1)B幀是由前面的I或P幀和後面的P幀來進行預測的;
    2)B幀傳送的是它與前面的I或P幀和後面的P幀之間的預測誤差及運動向量;
    3)B幀是雙向預測編碼幀;
    4)B幀壓縮比最高,因為它只反映丙參考幀間運動主體的變化情況,預測比較準確;
    5)B幀不是參考幀,不會造成解碼錯誤的擴散。
    注:I、B、P各幀是根據壓縮演算法的需要,是人為定義的,它們都是實實在在的物理幀。一般來說,I幀的壓縮率是7(跟JPG差不多),P幀是20,B幀可以達到50。可見使用B幀能節省大量空間,節省出來的空間可以用來儲存多一些I幀,這樣在相同位元速率下,可以提供更好的畫質。

壓縮演算法的說明
h264的壓縮方法:
1.分組:把幾幀影象分為一組(GOP,也就是一個序列),為防止運動變化,幀數不宜取多。
2.定義幀:將每組內各幀影象定義為三種類型,即I幀、B幀和P幀;
3.預測幀:以I幀做為基礎幀,以I幀預測P幀,再由I幀和P幀預測B幀;
4.資料傳輸:最後將I幀資料與預測的差值資訊進行儲存和傳輸。
幀內(Intraframe)壓縮也稱為空間壓縮(Spatial compression)。當壓縮一幀影象時,僅考慮本幀的資料而不考慮相鄰幀之間的冗餘資訊,這實際上與靜態影象壓縮類似。幀內一般採用有失真壓縮演算法,由於幀內壓縮是編碼一個完整的影象,所以可以獨立的解碼、顯示。幀內壓縮一般達不到很高的壓縮,跟編碼jpeg差不多。  
幀間(Interframe)壓縮的原理是:相鄰幾幀的資料有很大的相關性,或者說前後兩幀資訊變化很小的特點。也即連續的視訊其相鄰幀之間具有冗餘資訊,根據這一特性,壓縮相鄰幀之間的冗餘量就可以進一步提高壓縮量,減小壓縮比。幀間壓縮也稱為時間壓縮(Temporal compression),它通過比較時間軸上不同幀之間的資料進行壓縮。幀間壓縮一般是無損的。幀差值(Frame differencing)演算法是一種典型的時間壓縮法,它通過比較本幀與相鄰幀之間的差異,僅記錄本幀與其相鄰幀的差值,這樣可以大大減少資料量。

NAL簡介與I幀判斷
1、NAL全稱Network Abstract Layer, 即網路抽象層。
在H.264/AVC視訊編碼標準中,整個系統框架被分為了兩個層面:視訊編碼層面(VCL)和網路抽象層面(NAL)。其中,前者負責有效表示視訊資料的內容,而後者則負責格式化資料並提供頭資訊,以保證資料適合各種通道和儲存介質上的傳輸。因此我們平時的每幀資料就是一個NAL單元(SPS與PPS除外)。在實際的H264資料幀中,往往幀前面帶有00 00 00 01 或 00 00 01分隔符,一般來說編碼器編出的首幀資料為PPS與SPS,接著為I幀……
如下圖:
這裡寫圖片描述
2、如何判斷幀型別(是影象參考幀還是I、P幀等)?
NALU型別是我們判斷幀型別的利器,從官方文件中得出如下圖:
這裡寫圖片描述
我們還是接著看最上面圖的碼流對應的資料來層層分析,以00 00 00 01分割之後的下一個位元組就是NALU型別,將其轉為二進位制資料後,解讀順序為從左往右算,如下:
(1)第1位禁止位,值為1表示語法出錯
(2)第2~3位為參考級別
(3)第4~8為是nal單元型別
例如上面00000001後有67,68以及65
其中0x67的二進位制碼為:
0110 0111
4-8為00111,轉為十進位制7,參考第二幅圖:7對應序列引數集SPS
其中0x68的二進位制碼為:
0110 1000
4-8為01000,轉為十進位制8,參考第二幅圖:8對應影象引數集PPS
其中0x65的二進位制碼為:
0110 0101
4-8為00101,轉為十進位制5,參考第二幅圖:5對應IDR影象中的片(I幀)

所以判斷是否為I幀的演算法為: (NALU型別 & 0001 1111) = 5 即 NALU型別 & 31 = 5
比如0x65 & 31 = 5

一些名詞解釋:
VCL video coding layer 視訊編碼層
NAL network abstraction layer 網路提取層

PTS:Presentation Time Stamp。PTS主要用於度量解碼後的視訊幀什麼時候被顯示出來
DTS:Decode Time Stamp。DTS主要是標識讀入記憶體中的bit流在什麼時候開始送入解碼器中進行解碼。
序列的引數集(SPS):包括了一個影象序列的所有資訊,
影象的引數集(PPS):包括了一個影象所有片的資訊。
NAL以NALU(NAL unit)為單元來支援編碼資料在基於分組交換技術網路中傳輸。 它定義了符合傳輸層或儲存介質要求的資料格式,同時給出頭資訊,從而提供了視訊編碼和外部世界的介面。
NALU:定義了可用於基於分組和基於位元流系統的基本格式 RTP封裝:只針對基於NAL單元的本地NAL介面。
三種不同的資料形式:
SODB 資料位元串-->最原始的編碼資料
RBSP 原始位元組序列載荷-->在SODB的後面填加了結尾位元(RBSP trailing bits 一個bit“1”)若干位元“0”,以便位元組對齊
EBSP 擴充套件位元組序列載荷–>在RBSP基礎上填加了仿校驗位元組(0X03)它的原因是: 在NALU加到Annexb上時,需要新增每 組NALU之前的開始碼