1. 程式人生 > >python拾遺-檔案的編碼與解碼格式

python拾遺-檔案的編碼與解碼格式

字串的編碼函式是encode和decode

常用編碼的型別是utf-8,latin-1、gb2312mcp936和gbk

字串進行解碼可以得到unicode型別作為編碼的基礎型別

對於一個是漢字的字串進行編碼可以得到十六進位制的編碼字串

例如

a=‘你好’

a.encode('utf-8') -> b'\xe4\xbd\xa0\xe5\xa5\xbd'

如果是十六進位制的字串編碼進行漢字輸出舊的需要進行解碼

b=b'\xe4\xbd\xa0\xe5\xa5\xbd'  //type()檢測的是<class,'byte'>

b.decode('utf-8')

另外有時會出現編碼字串是以u開頭的十六進位制編碼,在python3.0中通過type()可以發現是<class 'str'>型別,用的是萬國碼編碼方式latin-1