1. 程式人生 > >Python的學習之旅———基本數據類型(字符編碼)

Python的學習之旅———基本數據類型(字符編碼)

統一 所有 語言 一個 記錄 取代 edi 科學 文字

計算機中儲存的信息都是用二進制數表示的。通俗的說,按照何種規則將字符存儲在計算機中,如‘n‘用什麽表示,稱為"編碼";反之,將存儲在計算機中的二進制數解析顯示出來,稱為"解碼".在解碼過程中,如果使用了錯誤的解碼規則,則導致‘n‘解析成‘m‘或者亂碼。

使用字符編碼聲明,並且同一工程中的所有源代碼文件使用相同的字符編碼聲明。

這點是一定要做到的。

python3 拋棄str,全部使用unicode。

按引號前先按一下u最初做起來確實很不習慣而且經常會忘記再跑回去補.

當計算機傳到世界各個國家時,

為了解決亂碼問題,一個偉大的創想產生了——Unicode。Unicode編碼系統為表達任意語言的任意字符而設計。它使用4字節的數字來表達每個字母、符號,或者表意文字(ideograph)。每個數字代表唯一的至少在某種語言中使用的符號。(並不是所有的數字都用上了,但是總數已經超過了65535,所以2個字節的數字是不夠用的。)被幾種語言共用的字符通常使用相同的數字來編碼,除非存在一個在理的語源學(etymological)理由使不這樣做。不考慮這種情況的話,每個字符對應一個數字,每個數字對應一個字符。即不存在二義性。不再需要記錄"模式"了。U+0041總是代表‘A‘,即使這種語言沒有‘A‘這個字符。

在計算機科學領域中,Unicode統一碼萬國碼單一碼標準萬國碼)是業界的一種標準,它可以使電腦得以體現世界上數十種文字的系統。Unicode 是基於通用字符集(Universal Character Set)的標準來發展,並且同時也以書本的形式[1]對外發表。Unicode 還不斷在擴增, 每個新版本插入更多新的字符。直至目前為止的第六版,Unicode 就已經包含了超過十萬個字符(在2005年,Unicode 的第十萬個字符被采納且認可成為標準之一)、一組可用以作為視覺參考的代碼圖表、一套編碼方法與一組標準字符編碼、一套包含了上標字、下標字等字符特性的枚舉等。Unicode 組織(The Unicode Consortium)是由一個非營利性的機構所運作,並主導 Unicode 的後續發展,其目標在於:將既有的字符編碼方案以Unicode 編碼方案來加以取代,特別是既有的方案在多語環境下,皆僅有有限的空間以及不兼容的問題。

Python的學習之旅———基本數據類型(字符編碼)