2017-01-23 新一代視訊壓縮碼標準-H.264_AVC:第一章 緒論、第二章數字視訊、第三章視訊壓縮編碼的基本原理

第一章緒論

    1.1 緒論.資訊化與視訊通訊

        1.1.1 緒論.資訊化與視訊通訊.什麼是資訊

            資訊是客觀世界的描述和分析。

        1.1.2 緒論.資訊化與視訊通訊.什麼是資訊化

    1.2 緒論.視訊資訊和訊號的特點

        1.2.1 直觀性

        1.2.2 準確性

        1.2.3 高效性

        1.2.4 廣泛性

        1.2.5 視訊訊號的高頻寬性

    1.3 緒論.視訊壓縮編碼的要求和可能性

        1.3.1 視訊壓縮編碼的目標

            1.3.1.1 必須壓縮在一定的頻寬內,即視訊編碼應具有足夠的壓縮比;

            1.3.1.1 視訊訊號壓縮後,經解壓重建應保持一定的視訊質量。

            1.3.1.3 簡單、易實現、成本低、可靠性高。

        1.3.2 視訊壓縮的可能性

            1.預測編碼:相鄰的畫素的值發生突變的概率極小,相等、相似或緩變的概率極大。利用此原理編碼稱為幀內預測編碼。相鄰幀與幀之間突變的可能性也很小,具有幀間相關性。

            2.變換編碼:大量統計表明,視訊訊號中包含著能量上佔大部分的直流和低頻成分(圖中的平坦部分),還有少量的高頻成分(影象的細節部分)。

    1.4 視訊壓縮編碼技術綜述

        1.4.1 基本結構

            視訊編碼方法與可採用的信源模型有關:

                如果採用一幅影象由許多畫素構成的信源模型,這種信源模型的引數就是每個畫素的亮度和色度的幅度值,對這些引數進行壓縮編碼的技術稱為基於波形的編碼

                如果採用一個分量由幾個物體構成的信源模型,這種信源模型的引數就是各個物體的形狀、紋理和運動,對這些引數進行壓縮的編碼的技術稱為基於內容的編碼

        1.4.2 基於波形的編碼

            利用畫素間的空間相關性和幀間的時間相關性,採用預測編碼變換編碼技術可大大減少視訊訊號的相關性,從而顯著降低視訊序列的位元速率,實現壓縮編碼的目標。

            基於波形的編碼採用了把預測編碼和變換編碼組合起來的基於塊的混合編碼方法。

            為了減少編碼的複雜性,使視訊編碼操作易於執行,採用混合編碼方法時,首先把一副影象分成固定大小的塊,如8*8(即每塊8行,每行8個畫素)等,然後對塊進行壓縮編碼處理。

            H264就採用了基於塊的混合編碼法,屬於基於波形的編碼

        1.4.3 基於內容的編碼

            對不同物體的形狀、運動和紋理進行編碼。在最簡單的情況下,利用二維輪廓描述物體的形狀,利用運動向量描述其運動狀態,而紋理則用顏色的波形進行描述。

            MPEG-4採用的編碼方法即是基於塊的混合編碼,又採用了基於內容的編碼方法。

        1.4.4 立體(三維)視訊編碼

            同樣具有基於波形和基於內容兩種方式

第二章數字視訊

    2.1 數字電視的基本概念

        1:失真小、噪聲低、視訊質量高

            模擬電視訊號在傳輸過程中難免會引入失真噪聲,並隨著處理次數和傳輸距離的增加不斷積累。數字電視訊號則沒有上述的噪聲累積效應。只要噪聲電平不超過訊號脈衝幅度的一半,就可用脈衝再生技術對其整形,恢復成“0”“1”兩種電平,不會引入噪聲。

        2:易處理、易校正

            模擬訊號進行壓縮、加密、校正都很麻煩,數字訊號則方便的多。

        3:容量大、節目多

            同樣的貸款容納的數字電視節目比模擬電視節目多得多。

        2.1.2 數字電視的PCM原理

PCM 脈衝編碼調製(Pulse Code Modulation,PCM)

2.1.4 A/DD/A變換

DACDigital Analog Converter(數字模擬訊號轉換器)的縮寫

Analog.Digital, 模擬/數字\Digital.Analog, 數字/模擬

    2.2 數字電視訊號

        2.2.1 電視訊號的時間和空間取樣

            1.時間取樣

                電視訊號的取樣有兩種:空間取樣和時間取樣。運動影象可由每秒若干幀的靜止影象構成,如每秒25幀。這種取樣方式就是按時間取樣。但低於15/秒的視訊質量不高。

            2.空間取樣

                在同一電視訊號幀中,同一行由若干取樣點構成,這樣取樣點稱為畫素,這樣取樣就屬於空間取樣。

        2.2.2 彩色空間

            1.RGBredgreenblue三基色。

                總所周知,任何彩色影象可由不同比例的紅色、綠色、藍色組合而成,即三基色原理。這種表示彩色影象的方法即RGB彩色空間。

            2.YUV

                人類視覺系統對亮度比色彩更敏感,因此可把亮度資訊從色彩資訊中心分離出來。色彩清晰度降低,可顯著壓縮頻寬。

        2.2.3 彩色電視取樣格式

        2.2.4 數字電視訊號的編碼引數

            1.量化值:量化值(量化節距)取得太大,視訊影象顯得粗糙;取得太小,視訊影象質量好,但頻寬浪費大。

            2.取樣頻率

    2.3 視訊訊號的預處理

        各種感測器在將實際場景轉換為影象訊號時總會引入各種噪聲和畸變失真,因此需要對影象感測器和影象進行預處理。

2.3.1 色彩插值(Color Interpolation

2.3.2 色彩校正(Color Correction

2.3.3 伽馬校正(Gamma Correction

            其中涉及一個術語--強度(Intensity),其表示的是每單位面積傳播的(光)輻射能量。感光裝置的光線強度和電壓並不成正比,所以需要矯正。

2.3.4 影象增強Image Enhancement

            1.平滑濾波

                主要用於消除影象取樣系統的量化過程所產生的的噪聲。

            2.中值濾波

                目的是保護影象的細節的同時,消除噪聲。

            3.影象銳化

                影象的邊緣資訊在影象風險和人的世界中都是非常重要的,物體的邊緣是以影象區域性特性不斷連續的形式出現的。

                前面介紹的影象濾波有益於消除噪聲是有益的,但往往使影象中的邊界、輪廓變得模糊。影象銳化技術,就是使影象的邊緣變得更加鮮明。

2.3.5 白平衡White Balance

            白平衡作為影象處理的一個重要術語,指的是對白色物體顏色的還原。當我們用肉眼觀看大千世界時,在不同光線下,對相同的顏色的感覺基本相同,

            主是由於大腦已經對於不同光線下的物體的色彩還原有了適應性。但是,感測器沒有這種人眼的適應性,在不同的光線下,由於影象感測器輸出的不平衡性,

            造成其輸出的色彩失真。

    2.4 視訊質量

        2.4.1 主觀質量的評定

        2.4.2 客觀質量的測量

第三章視訊壓縮編碼的基本原理

    3.1 預測編碼

        3.1.1 預測編碼.預測編碼的基本概念

            預測法是最簡單、實用的視訊壓縮編碼方法,經過壓縮編碼後傳輸的並不是畫素本身的取樣值,而是該取樣的預測值和實際值之差。

            大量統計表明,同一副影象的臨近畫素之間有著相關性,或者說這些畫素值相似。

        3.1.2 預測編碼.幀內預測編碼

        3.1.3 預測編碼.幀間預測編碼

            1.單項預測

            2.雙向預測

                有時,不只是利用前一幀畫素進行預測,還需利用後一幀畫素。

                這時,用前向參考幀預測當前幀稱為前向運動補償,利用後向參考幀預測當前幀稱為後向運動補償,利用前、後向同時預測,就稱為雙向預測運動補償。

                在諸如會議電視、可視電話等實時通訊中,一般不應用雙向預測,因為後向預測在當前幀之後進行,會引入編碼時延。

                為了進一步提高編碼效率,多幀預測(包括單向和雙向預測)被引入,如H.264標準參考幀可達16幀。

            3.重疊塊運動補償OBMC

                以上基於塊的運動補償從計算量上看是比較簡單,但這種人為的塊劃分使得每一個塊有一個運動向量,容易產生方塊效應,

                特別在運動向量估計不準確或物體運動非簡單的平移運動及一個塊中有幾個不同運動物體時更為嚴重。重疊塊運動補償(Overlapped Block Motion Compensation)方法解決了運動向量估計不準確的問題。

        3.1.4 預測編碼.運動估計

            1.基本概念

                在幀間預測編碼中,由於活動影象臨近幀中的景物存在著一定的相關性,因此可將活動影象分成若干塊或巨集塊,並設法搜尋出每個塊或巨集塊在臨近幀中的位置,並得出兩者之間的空間位置的相對偏移量,得到的偏移量就是通常指的運動向量,得到的運動向量的過程被稱為運動估計。

            2.運動估計的方法

                H.264編碼標準和以往採用的視訊壓縮標準的最大不用在於,在運動估計過程中採用了多參考幀來提高預測精度。多參考幀預測就是在編解碼端建立一個儲存M個重建幀的快取,當前的帶編碼塊可以在快取內的所有重建幀中尋找最優的匹配塊進行運動補償。

            3.運動表示法

                由於在成像的場景中一般有多個物體做不同的運動,如果直接按照不同型別的運動將影象分割成複雜的區域是比較困難的。最直接和不受約束的方法是對每個畫素都制定運動向量,這就是基於畫素表示法。他需要估計大量的未知量,並且他的解時常在物理上不正確,通常採用基於塊的物體運動表示法。

                1)基於塊的運動表示法

                    一般對於細節比較少、比較平坦的區域選擇得塊的尺寸大一些,對於影象中細節比較多的區域選擇的塊的尺寸小一些。

                2)亞畫素位置的內插

                    由於自然物體運動的連續性,相同兩幀之間的塊的運動向量不是以整畫素為基本單位的,可能真正的運動位移量是以1/4畫素甚至1/8畫素等亞畫素作為單位的。

                    H.264只採用了1/4畫素精度的運動向量模型。

                3)運動向量在時空域的預測方式

                    如果對每個塊的運動向量進行編碼,那麼將花費相當數目的位元數,特別是選擇小尺寸的塊的時候。由於一個運動物體會覆蓋多個分塊,所以空間域相鄰塊的運動向量具有很強的相關性,因此,每個運動向量可以根據鄰近先前已編碼的塊進行預測。