1. 程式人生 > >字符編碼與二進制

字符編碼與二進制

一個 二進制 -- gbk 字符 xxx 組織 使用 str

字符編碼的由來:

計算機只認識0和1,因為計算機底層就是電路
二進制可以使用數字轉換
二進制字符編碼,可以使用數字來表示字符
ASCII碼最多用8位來表示一個字節,英文使用了127個字符,預留128-255
128-255進行擴展 ,在擴展中加入了7000多個中文字符,1980年定義的就是GB2312
1995年收錄了20000多個漢字,就是GBK
2000年使用了GB18030,收錄了27000多字符,包含藏文,蒙文等
字符編碼向下兼容

最常用的中文編碼就是GBK

國際ISO標準組織就叫Unicode,就是萬國碼,不兼容GBK
UTF8就是Unicode,可變長的字符集,英文字符用UTF8存儲就是ASCII碼,用中文就是UTF8

ASCII 255 1Bytes
----->1980 GB2312 7xxx
------> 1995 GBK1.0 2W+
------> 2000 GB10830 27xxx
------>unicode 2bytes
------> UTF-8 en:1bytes,zh:3bytes

Python2裏顯示中文需要申明編碼:
# -*- coding:utf-8 -*-

Python3默認就是utf8,可以直接打印輸出

字符編碼與二進制