1. 程式人生 > >漢字編碼 (GB2312 GBK GB18030)

漢字編碼 (GB2312 GBK GB18030)

ron hive ascii csdn blank 編碼 字符集 net 範圍

GB2312

收錄簡化漢字及符號、字母、日文假名等共7445個圖形字符,其中漢字占6763個
每個符號都用兩個字節表示,每個字節均采用七位編碼表示,習慣上 第一個字節是高字節,第二個字節是低字節

GB2312的編碼範圍為2121H-777EH,與ASCII有重疊,通行方法是將GB碼兩個字節的最高位置1以示區別

GBK

由於GKB收錄的漢字較少以及配合UNICODE的實施,GBK 產生了
向下兼容GB2312
雙字節表示

GBK共收入21886個漢字和圖形符號,包括:

GB2312中的全部漢字、非漢字符號。
BIG5中的全部漢字。

與ISO 10646相應的國家標準GB13000中的其它CJK漢字,以上合計20902個漢字。
其它漢字、部首、符號,共計984個。

GB18030  

最新的漢字編碼字符集國家標準, 向下兼容 GBK 和 GB2312 標準
一二四字節變長編碼
一字節部分與ASCII 編碼兼容
二字節部分與GBK標準基本兼容
四字節部分包括除去二字節部分的的所有unico3.1碼位(也就是說, GB18030 編碼在碼位空間上做到了與 Unicode 標準一一對應,這一點與 UTF-8 編碼類似)

BIG5

繁體字編碼
雙字節
BIG5收錄13461個漢字和符號,包括:

符號408個
常用字5401個
次常用字7652個

CP936 (GBK)

Windows使用代碼頁(code page)來適應各個國家和地區不同編碼。
code page可以被理解為前面提到 的內碼。GBK對應的code page是CP936。

65001 #utf-8
936 #GBK
437 #美國英語

參考:

http://www.cnblogs.com/finallyliuyu/archive/2013/05/10/3071023.html

http://blog.csdn.net/liujinchengjx/article/details/1527909

漢字編碼 (GB2312 GBK GB18030)