1. 程式人生 > >MPEG-4 壓縮編碼標準

MPEG-4 壓縮編碼標準

好的 form 視頻 分享圖片 選擇 sha 互訪問 let 重構

文章轉自:http://www.cnblogs.com/CoderTian/p/8477021.html

1.MPEG-4標準概述

  • 與MPEG1和MPEG2標準相比,MPEG-4 更加註重多媒體系統的交互性和靈活性,主要應用於可視電話、視頻會議等。
  • MPEG-4 標準主要包含音視頻對象編碼工具集和編碼對象句法語言兩個部分
  • MPEG-4 標準的編碼基於對象,便於操作和控制對象,MPEG-4 的對象操作使用戶可在終端直接將不同對象進行拼接,得到用戶合成圖像。
  • MPEG-4 具有很好的擴展性,可進行時域和空域的擴展,MPEG-4 可根據帶寬和誤碼率的客觀條件,在時域或空域進行擴展。前者指在帶寬允許時增加幀率帶寬窄時,減少幀率,以達到充分利用帶寬;後者指對圖像進行采樣插值,增加或減少空間分辨率。
  • MPEG-4 有多種算法,可根據需要選擇,例如區域編碼有 DCT、 SADCT、 OWT 等等。
  • MPEG-4 為了支持高效壓縮、基於內容交互和基於內容分級擴展,以基於內容的方式表示視頻數據,引入 AVO(Audio/Video Object)的概念實現基於內容的表示。

2.AVO及數據結構

AVO 基本單位是原始 AV 對象,可能是一個沒有背景的說話的人,也可能是這個人的語音或背景音樂等等。它具有高效編碼、高效存儲傳播及可交互操作的特性。MPEG-4 就是圍繞 AV 對象的編碼、存儲、傳輸和組合而制定的。 MPEG-4 對 AV 對象的主要操作如下:
(1)采用 AV 對象表示音視頻或其組合內容; (2)組合已有 AV 對象,通過自然混合編碼 SNHC 組織; (3)可對 AV 對象數據多路合成和同步,以便選擇合適網絡傳輸數據; (4)允許用戶對 AV 對象進行交互操作; (5)支持 AV 對象知識產權和保護 MPEG-4 是第一個使用戶可在接收端對畫面進行操作和交互訪問的編碼標準。在 MPEG-4 校驗模型中, VO(Video Object) 主要定義為畫面中分割出來的不同物體, 並由三類信息描述:運動信息、形狀信息、紋理信息。MPEG-4 視頻數據流的邏輯結構如下圖所示:

技術分享圖片

  • VOP(Video Object Plane,視頻對象平面)可看作 VO 在某一時刻的表示,即某一幀; GOV(Group of VOPs,視頻對象平面組)提供視頻流的標記點,標記 VOP 單獨解碼的時域位置,也即對視頻流任意訪問的標記;
  • VOL(Video Object Layer,視頻對象層),用於擴展 VO 的時域和空域分辨率,包含 VO 的三種屬性信息;
  • VO(Video Object,視頻對象)如前所述,為場景中的某個物體,有生命期,由時間上連續的許多幀構成;
  • VS(Video Session,視頻鏡頭),一個完整的視頻序列由幾個 VS 組成。
每個 VS 由一個或多個 VO 構成,每個 VO 可能有一個或多個 VOL 層,如基本層、增強層等,每個層是 VO 的某一分辨率表示。每個層中都有時間連續的 GOV,每個 GOV 又由一系列的VOP 構成。

3.MPEG-4標準構成

MPEG-4 提供自然和合成的音頻、視頻以及圖形的基於對象的編碼工具。類似於以前標準,MPEG-4 由若幹部分組成, 主要部分為系統、視頻和音頻。 MPEG-4 碼流主要包括基本碼流和系統流, 基本碼流包括音視頻和場景描述的編碼流表示,每個基本碼流只包含一種數據類型,並通過各自的解碼器解碼;系統流則指定根據編碼視聽信息和相關場景描述信息產生交互方式的方法,並描述其交互通信系統。

3.1.系統

MPEG-4 系統把音視頻對象及其組合復用成一個場景,提供與場景互相作用的工具,使用戶具有交互能力。 MPEG-4 的系統終端模型如下圖所示

技術分享圖片

(1)壓縮層,執行媒體解碼的系統組件。媒體是通過基本碼流接口從同步層提取的。 (2)同步層,負責各個壓縮媒體的同步和緩沖。它接收來自傳輸層的同步層包(SL),根據基本碼流的時間標誌進行拆包,並轉發到壓縮層。 (3)傳輸層,對已經存在的各種傳輸協議描述。這些協議能夠用來傳輸和存儲符合 MPEG-4標準的視聽內容。 系統解碼器模型包括定時模型和緩沖模型兩種。如下圖所示,每個基本碼流都有一個單獨的解碼緩沖區,單個解碼器可以解碼多個基本碼流(如擴展的視聽對象解碼)。

技術分享圖片

3.2.音頻

與 MPEG-1、 MPEG-2 相比, MPEG-4 不僅支持自然聲音(如語音和音樂), 還支持合成聲音(如MIDI)。 MPEG-4 音頻部分將音頻的合成編碼和自然聲音的編碼相結合,並支持音頻的對象特征。
1.自然聲音編碼 MPEG-4 支持 2Kbps~64 Kbps 的自然聲音編碼。如 8KHz采樣頻率的 2Kbps~4 Kbps 的語音編碼,以及 8KHz 或 16KHz 采樣頻率 4Kbps~16 Kbps 的語音編碼,一般采用參數編碼;而 6Kbps~24 Kbps 的語音編碼,一般采用碼激勵線性預測 CELP(CodeExcited Linear Predictive)編碼技術;而從 16Kbps 以上碼率的編碼,則采用視頻變換編碼技術。
2.合成語音編碼 MPEG-4 引入兩個有力的編碼技術:文本到語音編碼(TTS, Text-to-Speech)和樂譜驅動合成編碼。事實上,合成語音編碼技術是一種基於知識庫的參數編碼。

3.3.視頻

MPEG-4 支持對自然和合成視覺對象的編碼。合成的視覺對象包括 2D、 3D 動畫和人面部表情動畫等。對於靜止圖像, MPEG-4 采用零樹小波算法(Zerotree Wavelet Algorithm),以提高壓縮比,同時還提供多達 11 級的空間分辨率和質量的可伸縮性。對於運動視頻對象的編碼, MPEG-4 采用了如下圖 所示編碼框圖,以支持對象的編碼。

技術分享圖片

MPEG-4 相對 MPEG-1、 MPEG-2 而言,編碼效率顯著提高除了因為基於內容的性質外,還因為引入了以下的編碼工具。
  • DC 預測,可選擇當前塊的前一塊或者後一塊作為當前 DC 值
  • AC 預測, DCT 系數的 AC 預測在 MPEG-4 中是新的。選擇用來預測 DC 系數的塊也用於預測一行 AC 系數。AC 預測對於具有粗糙紋理、對角邊緣或水平以及垂直邊緣的塊效果不佳。在塊級切換 AC 預測的通斷是所希望的,但這代價太大,一般在宏塊級作出
  • 交替水平掃描,這種掃描被添加到 MPEG-2 的兩種掃描中。 MPEG-2 的交替掃描在 MPEG-4中被稱為交替垂直掃描
  • 三維 VLC, DCT 系數編碼與 H.263 類似
  • 四個運動矢量,允許宏塊的四個運動矢量,與 H.263 類似
  • 無約束運動矢量,與 H.263 相比,可以使用寬得多的±048 像素的運動矢量範圍
  • 子圖形,子圖形基本上是一個傳輸到解碼器的大背景圖像,為了顯示,編碼器傳送該圖像的一部分並映射到屏幕上仿射映射參數。通過改變映射,解碼器可以放大和縮小子圖形,以及向左或向右。
  • 全局運動補償,為了補償由於攝像機運動、攝像機變焦或者大運動物體引起的全局運動,按照下列公式的八參數運動模型進行補償:

技術分享圖片

全局運動補償有助於改善最挑剔的場景中的圖像質量
  • 四分之一像素運動補償,主要目的是以小的語法和計算上代價來提高運動補償的分辨率,得到更精確的運動描述和較小的預測誤差。四分之一像素運動補償只用於亮度像素,色度像素則是用半像素精度運動補償。
1.基於VOP的編碼 某一時刻 VO 以 VOP 的形式出現,編碼也主要針對這個時刻 VO 的形狀、運動、紋理這三類信息進行。
  • 形狀編碼:相對以前標準而言, MPEG-4 第一次引入形狀編碼的壓縮算法。編碼的形狀信息有兩種:二值形狀信息(Binary Shape Information)和灰度級形狀信息(Grey Scale Shape Information)。二值形狀信息為用 0、 1 的方式表示編碼 VOP 形狀, 0 表示非 VOP 區域, 1 表示 VOP 區域;灰度級形狀信息可取值 0~255, 0 表示非 VOP 區域(即透明區域), 1~255 表示透明度不同的區域, 255 表示完全不透明。 灰度級形狀信息的引入主要為了使前景物體疊加到背景上時,邊界不至於太明顯、生硬,進行“模糊”處理。MPEG-4 采用位圖法表示這兩種形狀信息。 VOP 被一個“邊框”框住,如下圖所示

技術分享圖片

位圖表示法實際就是一個邊框矩陣,取值為 0~255(或 0、1),編碼變為對該矩陣的編碼。矩陣倍分為 16×16 的形狀塊,允許進行有損編碼,這要通過對邊界信息子采樣實現,同時允許使用宏塊運動矢量作形狀塊的運動補償。為了得到語義上更方便的描述,以支持基於內容的操作, MPEG-4 還引入基於上下文的算術編碼。
  • 運動估計和運動補償:類似於以前的壓縮標準(MPEG-1、 H.263 等)的三種幀格式: I、 P、 B, MPEG-4 的 VOP 也有三種相應的幀格式: I-VOP、 P-VOP、 B-VOP,表示運動補償類型的不同。運動估計和補償可以基於宏塊,也可基於塊。

技術分享圖片

  • 紋理編碼:紋理信息可能有兩種:內部編碼的 I-VOP 像素值和幀間編碼的 P-VOP、 B-VOP 的運動估計殘差值。 MPEG-4 采用基於分塊的紋理編碼, VOP 邊框仍分為 16×16 的宏塊。
2.VOP編解碼結構框圖 VOP 編解碼器主要由兩部分組成:形狀編解碼和傳統運動紋理編解碼。重構的 VOP 由形狀、紋理和運動信息正確組合而成

技術分享圖片

MPEG-4 壓縮編碼標準