1. 程式人生 > >【C語言】位元組對齊問題(以32位系統為例)

【C語言】位元組對齊問題(以32位系統為例)

  1. 什麼是對齊?

  現代計算機中記憶體空間都是按照位元組(byte)劃分的,從理論上講似乎對任何型別的變數的訪問可以從任何地址開始,但實際情況是在訪問特定變數的時候經常在特定的記憶體地址訪問,這就需要各型別資料按照一定的規則在空間上排列,而不是順序地一個接一個地排放,這就是對齊。

  2. 計算機為什麼要對齊?

  各個硬體平臺對儲存空間的處理上有很大的不同。一些平臺對某些特定型別的資料只能從某些特定地址開始存取,其他平臺可能沒有這種情況。但是最常見的是,如果不按照適合其平臺的要求對資料存放進行對齊,會在存取效率上帶來損失。比如有些平臺每次讀都是從偶地址開始,一個int型(假設為 32位)如果存放在偶地址開始的地方,那麼一個讀週期就可以讀出,而如果存放在奇地址開始的地方,就可能會需要2個讀週期,並對兩次讀出的結果的高低位元組進行拼湊才能得到該int資料,顯然在讀取效率上下降很多。這也是空間和時間的博弈。在網路程式中,掌握這個概念可是很重要的:如果在不同平臺之間(比如在Windows 和Linux之間)傳遞2進位制流(比如結構體),那麼在這兩個平臺間必須要定義相同的對齊方式,不然莫名其妙地出了一些錯,可是很難排查的。

  3. 一個對齊的例子

  通常,我們寫程式的時候,不需要考慮對齊問題,編譯器會替我們選擇適合目標平臺的對齊策略。當然,我們也可以通知給編譯器傳遞預編譯指令而改變對指定資料的對齊方法,比如寫入預編譯指令#pragma pack(2),即告訴編譯器按兩位元組對齊。

  但是,正因為我們一般不需要關心這個問題,所以,如果編輯器對資料存放做了對齊,而我們不瞭解的話,常常會對一些問題感到迷惑。最常見的就是struct資料結構的sizeof結果,比如以下程式:

#include <stdio.h>

void main(){

    struct A{
        char a;
        short b;
        int c;
    };

    printf( "size of struct A = %d \n", sizeof(struct A) );

}

  輸出結果為:8位元組。

  如果我們將結構體中的變數宣告位置稍加改動(並不改變變數本身),請再看以下程式:

#include <stdio.h>

void main(){

    struct A{
        short b;
        int c;
        char a;
    };

    printf( "size of struct A = %d \n", sizeof(struct A) );

}

  輸出結果為:12位元組。

  問題出來了,他們都是同一個結構體,為什麼佔用的記憶體大小不同呢?為此,我們需要對對齊演算法有所瞭解。

  4. 對齊演算法

  由於各個平臺和編譯器的不同,現以32位,vc++6.0系統為例,來討論編譯器對struct資料結構中的各成員如何進行對齊的。

  首先,我們給出四個概念:

  1)資料型別自身的對齊值:就是基本資料型別的自身對齊值,比如char型別的自身對齊值為1位元組,int型別的自身對齊值為4位元組。

  2)指定對齊值:預編譯命令#pragma pack (value)指定的對齊值value。

  3)結構體或者類的自身對齊值:其成員中自身對齊值最大的那個值,比如以上的struct A的對齊值為4。

  4)資料成員、結構體和類的有效對齊值:自身對齊值和指定對齊值中較小的那個值。

  設結構體如下定義:



struct A{
    char a;
    short b;
    int c;
};

  a是char型資料,佔用1位元組記憶體;short型資料,佔用2位元組記憶體;int型資料,佔用4位元組記憶體。因此,結構體A的自身對齊值為4。於是,a和b要組成4個位元組,以便與c的4個位元組對齊。而a只有1個位元組,a與b之間便空了一個位元組。我們知道,結構體型別資料是按順序儲存結構一個接一個向後排列的,於是其儲存方式為:

  其中空白方格無資料,是浪費的記憶體空間,共佔用8位元組記憶體。

  實際上,為了更加明顯地表示“對齊”,我們可以將以上結構想象為以下的行排列:

 

  對於另一個結構體定義:



struct A{
        short b;
        int c;
        char a;
    };

 其記憶體儲存方式為:

  同樣把它想象成行排列:

  可見,浪費的空間更多。

  其實,除了結構體之外,整個程式在給每個變數進行記憶體分配時都會遵循對齊機制,也都會產生記憶體空間的浪費。但我們要知道,這種浪費是值得的,因為它換來的是效率的提高。

  以上分析都是建立在程式預設的對齊值基礎之上的,我們可以通過新增預定義命令#pragma pack(value)來對對齊值進行自定義,比如#pragma pack(1),對齊值變為1,此時記憶體緊湊,不會出現記憶體浪費,但效率降低了。效率之所以降低,是因為:如果存在更大位元組數的變數時(比1大),比如int型別,需要進行多次讀週期才能將一個int資料拼湊起來。

  參考資料:

  [1] http://blog.sina.com.cn/s/blog_715de2f50100pgs3.html

  [2] http://baike.baidu.com/view/1523557.htm?fr=aladdin