1. 程式人生 > >Java基礎--常見計算機編碼類型

Java基礎--常見計算機編碼類型

版本 ava lan img 混合 http rdquo 分享 sci

計算機編碼指電腦內部代表字母或數字的方式,常見的編碼方式有:ASCII編碼,GB2312編碼(簡體中文),GBK,BIG5編碼(繁體中文),ANSI編碼,Unicode,UTF-8編碼等。

1.ASCII字符集

ASCII(American Standard Code for Information Interchange,美國信息互換標準代碼)是基於羅馬字母表的一套電腦編碼系統,它主要用於顯示現代英語和其他西歐語言。它是現今最通用的單字節編碼系統,並等同於國際標準ISO 646。

技術分享圖片

2.GB2312字符集

GB2312又稱為GB2312-80字符集,全稱為《信息交換用漢字編碼字符集·基本集》,由原中國國家標準總局發布,1981年5月1日實施,是中國國家標準的簡體中文字符集。它是用雙字節表示的,兩個字節中前面的字節為第一字節,後面的字節為第二字節。習慣上稱第一字節為“高字節” ,而稱第二字節為“低字節”。“高位字節”使用了0xA1-0xF7(把01-87區的區號加上0xA0),“低位字節”使用了0xA1-0xFE(把01-94加上0xA0)。

3.GBK字符集

GBK字符集是GB2312的擴展(K),GBK1.0收錄了21886個符號,它分為漢字區和圖形符號區,漢字區包括21003個字符。GBK字符集主要擴展了繁體中文字的支持。 4.GB18030字符集 GB 18030字符集標準解決漢字、日文假名、朝鮮語和中國少數民族文字組成的大字符集計算機編碼問題。該標準的字符總編碼空間超過150萬個編碼位,收錄了27484個漢字,覆蓋中文、日文、朝鮮語和中國少數民族文字。滿足中國大陸、香港、臺灣、日本和韓國等東亞地區信息交換多文種、大字量、多用途、統一編碼格式的要求。並且與Unicode 3.0版本兼容,填補Unicode擴展字符字匯“統一漢字擴展A”的內容。並且與以前的國家字符編碼標準(GB2312,GB13000.1)兼容。 5.Unicode字符集 Unicode字符集編碼是(Universal Multiple-Octet Coded Character Set) 通用多八位編碼字符集的簡稱,支持世界上超過650種語言的國際字符集。Unicode允許在同一服務器上混合使用不同語言組的不同語言。它是由一個名為 Unicode 學術學會(Unicode Consortium)的機構制訂的字符編碼系統,支持現今世界各種不同語言的書面文本的交換、處理及顯示。該編碼於1990年開始研發,1994年正式公布,最新版本是2005年3月31日的Unicode 4.1.0。Unicode是一種在計算機上使用的字符編碼。它為每種語言中的每個字符設定了統一並且唯一的二進制編碼,以滿足跨語言、跨平臺進行文本轉換、處理的要求。 6.UTF-8 編碼方法 UTF-8是Unicode的其中一個使用方式。 UTF是 Unicode Translation Format,即把Unicode轉做某種格式的意思。 UTF-8便於不同的計算機之間使用網絡傳輸不同語言和編碼的文字,使得雙字節的Unicode能夠在現存的處理單字節的系統上正確傳輸。 UTF-8使用可變長度字節來儲存 Unicode字符,例如ASCII字母繼續使用1字節儲存,重音文字、希臘字母或西裏爾字母等使用2字節來儲存,而常用的漢字就要使用3字節。輔助平面字符則使用4字節。

Java基礎--常見計算機編碼類型