1. 程式人生 > >編碼歷史ASCII、Unicode、utf-8和GBK

編碼歷史ASCII、Unicode、utf-8和GBK

英文字母 英文 全世界 兩個 編碼 中國 歷史 1的個數 包含

ASCII編碼:用來表示所有的大寫和小寫字母,數字0 到9、標點符號, 以及在美式英語中使用的特殊控制字符,一個字符共8位,占一個字節。

ASCII編碼是由美國國家標準協會制定的標準的單字節字符編碼方案,用來存儲計算機中的數據。

Unicode:ASCII編碼具有一定的局限性,不能表示中文等其它語言,所以,國際組織制定了可以容納更多文字和符號的字符編碼方案----unicode。Unicode在創建之初用16位2個字節來表示一個字符,但是依然發現不能顯示全世界所有的文字,所以對Unicode編碼進行了改進,用32位4個字節來表示一個字符,但是英文字母和數字等字符用8位就能表示,改成32位是對資源的極大浪費。

utf-8:utf-8是一種針對Unicode的可變長度字符編碼,最少用8位去表示一個字節,UTF-8編碼規則:如果只有一個字節則其最高二進制位為0;如果是多字節,其第一個字節從最高位開始,連續的二進制位值為1的個數決定了其編碼的字節數,其余各字節均以10開頭。

GBK:國標,只有中國人自己用,一個中文字符用兩個字節,16位表示。但不能包含全部漢字。

單位轉換:

8bit(位) = 1bytes

1024bytes = 1kb

1024kb = 1MB

1024MB = 1GB

1024GB = 1TB

編碼歷史ASCII、Unicode、utf-8和GBK