1. 程式人生 > >關於Python編碼這一篇文章就夠了

關於Python編碼這一篇文章就夠了

概述

在使用Python或者其他的程式語言,都會多多少少遇到編碼錯誤,處理起來非常痛苦。在Stack Overflow和其他的程式設計問答網站上,UnicodeDecodeError和UnicodeEncodeError也經常被提及。本篇教程希望能幫你認識Python編碼,並能夠從容的處理編碼問題。

本教程提到的編碼知識並不限定在Python,其他語言也大同小異,但我們依然會以Python為主,來演示和講解編碼知識。

通過該教程,你將學習到如下的知識:

  • 獲取有關字元編碼和數字系統的概念
  • 理解編碼如何使用Python的str和bytes
  • 通過int函數了解Python對數字系統的支援
  • 熟悉Python字元編碼和數字系統相關的內建函式

什麼是字元編碼

現在的編碼規則已經有好多了,最簡單、最基本是的ASCII編碼,只要是你學過計算機相關的課程,你就應該多少了解一點ASCII編碼,他是最小也是最適合瞭解字元編碼原理的編碼規則。具體如下:

  • 小寫英文字元:a-z
  • 大寫英文字元:A-Z
  • 符號: 比如 $和!
  • 空白符:回車、換行、空格等
  • 一些不可列印的字元: 比如\b等

那麼,字元編碼的定義到底是什麼了?它是一種將字元(如字母,標點符號,符號,空格和控制字元)轉換為整數並最終轉換為bit進行儲存的方法。 每個字元都可以編碼為唯一的bit序列。 如果你對bit的概念不瞭解,請不要擔心,我們後面會介紹。

ASCII碼的字元被分為如下幾組:

ASCII表一共包括128個字元,如果你想了解整個ASCII表,這裡有

大家在學python的時候肯定會遇到很多難題,以及對於新技術的追求,這裡推薦一下我們的Python學習扣qun:784,758,214,這裡是python學習者聚集地

Python string模組

string模組是python裡處理字串很方便的模組,它包括了整個ASCII字元,讓我們來看看部分string模組原始碼:

# From lib/python3.7/string.py

whitespace = ' \t\n\r\v\f'
ascii_lowercase = 'abcdefghijklmnopqrstuvwxyz'
ascii_uppercase = 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'
ascii_letters = ascii_lowercase + ascii_uppercase
digits = '0123456789'
hexdigits = digits + 'abcdef' + 'ABCDEF'
octdigits = '01234567'
punctuation = r"""!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~"""
printable = digits + ascii_letters + punctuation + whitespace

你可以在Python中這樣使用string模組:

>>> import string

>>> s = "What's wrong with ASCII?!?!?"
>>> s.rstrip(string.punctuation)
'What's wrong with ASCII'

什麼是bit

學過計算機相關課程的同學,應該都知道,bit是計算機內部儲存單位,只有0和1兩個狀態(二進位制),我們上面所說的ASCII表,都是一個10進位制的數字表示一個字元,而這個10進位制數字,最終會轉換成0和1,儲存在計算機內部。例如(第一列是10進位制數字,第二列是二進位制,第三列是計算機內部儲存結果):

這是一種在Python中將ASCII字串表示為位序列的方便方法。 ASCII字串中的每個字元都被偽編碼為8位,8位序列之間有空格,每個字元代表一個字元:

>>> def make_bitseq(s: str) -> str:
...     if not s.isascii():
...         raise ValueError("ASCII only allowed")
...     return " ".join(f"{ord(i):08b}" for i in s)

>>> make_bitseq("bits")
'01100010 01101001 01110100 01110011'

>>> make_bitseq("CAPS")
'01000011 01000001 01010000 01010011'

>>> make_bitseq("$25.43")
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq("~5")
'01111110 00110101'

我們也可以是用python的f-string 來格式化,比如f"{ord(i):08b}":

  • 冒號的左側是ord(i),它是實際的物件,其值將被格式化並插入到輸出中。 使用ord()為單個str字元提供了base-10程式碼點。

  • 冒號的右側是格式說明符。 08表示寬度為8,0填充,b用作在基數2(二進位制)中輸出結果數的符號。

ASCII編碼不夠用了

ASCII採用的是8bit來儲存字元(只使用7位,剩下的1位二進位制為0),所以,ASCII最多儲存128個字元,這有個簡單的公式,計算儲存字元的bit數量與儲存字元總數的關係:2的n次方,n表示bit數量。例如:

  • 1bit儲存2個字元
  • 8bit儲存256個字元
  • 64bit儲存2的64次方 == 18,446,744,073,709,551,616

我們可以寫個簡單的程式碼,來計算一下,指定字元數量,至少需要多少bit來儲存:

>>> from math import ceil, log

>>> def n_bits_required(nvalues: int) -> int:
...     return ceil(log(nvalues) / log(2))

>>> n_bits_required(256)
8

數字系統

在上面的ASCII討論中,您看到每個字元對映到0到127範圍內的整數。但在CPython中還有其他的數字系統,通過其他方式是表示數字。除了十進位制外,python還支援以下幾個方式:

  • Binary: 2進位制
  • Octal: 8進位制
  • Hexadecimal (hex): 16進位制

你可能要問,為什麼有了十進位制,還要支援這麼多其他進位制的數字了?這個取決你的業務場景和作業系統,在Python裡,把str轉換成int,預設是10進位制的。

>>> int('11')
11
>>> int('11', base=10)  # 10 is already default
11
>>> int('11', base=2)  # Binary
3
>>> int('11', base=8)  # Octal
9
>>> int('11', base=16)  # Hex
17

你可以在賦值時,直接告訴直譯器數字的型別,不同進位制標表示方法如下:

型別字首示例
n/an/a11
二進位制0b 或者 0B0b11
八進位制0o 或者 0O0o11
十六進位制0x 或者 0X0x11
>>> 11
11
>>> 0b11  # 二進位制
3
>>> 0o11  # 八進位制
9
>>> 0x11  # 16進位制
17

深入Unicode

正如您所看到的,ASCII的問題在於它不是一個足夠大的字符集來容納世界上的語言,方言,符號和字形。 (這對於英語來說甚至都不夠大。)Unicode從根本上起到與ASCII相同的作用,但是Unicode擁有更大的儲存空間,具有1,114,112個可能的字元,能夠完全包含世界上所有的語言。事實上,ASCII是Unicode的完美子集。 Unicode表中的前128個字元與您合理期望的ASCII字元完全對應。

Unicode本身不是編碼,但是有很多遵循Unicode編碼規範編碼,後面講到的UTF-8就是其中一個。

Unicode vs UTF-8

Unicode是一種抽象編碼標準,而不是編碼。這就是UTF-8和其他編碼方案發揮作用的地方。 Unicode標準(字元到程式碼點的對映)從其單個字符集定義了幾種不同的編碼。UTF-8及其較少使用的表兄弟UTF-16和UTF-32是用於將Unicode字元表示為每個字元一個或多個位元組的二進位制資料的編碼格式。我們稍後將討論UTF-16和UTF-32,但到目前為止,UTF-8佔據了最大份額。

Python 3裡的編碼與解碼

Python 3的str型別用於表示人類可讀的文字,可以包含任何Unicode字元。

相反,位元組型別表示二進位制資料或原始位元組序列,它們本質上沒有附加編碼。

編碼和解碼是從一個到另一個的過程:

decode 和 encode 函式,預設編碼是utf-8:

>>> "résumé".encode("utf-8")
b'r\xc3\xa9sum\xc3\xa9'
>>> "El Niño".encode("utf-8")
b'El Ni\xc3\xb1o'

>>> b"r\xc3\xa9sum\xc3\xa9".decode("utf-8")
'résumé'
>>> b"El Ni\xc3\xb1o".decode("utf-8")
'El Niño'

str.encode()的結果是一個bytes物件,bytes物件只允許ASCII字元。這就是為什麼在呼叫“ElNiño”.encode(“utf-8”)時,允許ASCII相容的“El”按原樣表示,但帶有波浪號的n被轉義為“\ xc3 \ xb1”。 這個看起來很亂的序列代表兩個位元組,十六進位制為0xc3和0xb1:

>>> " ".join(f"{i:08b}" for i in (0xc3, 0xb1))
'11000011 10110001'

Python3一切字元皆Unicode

  • 預設情況下,Python 3原始碼假定為UTF-8。 這意味著您不需要# - * - 編碼:UTF-8 - * - 位於Python 3中.py檔案的頂部。

  • 預設情況下,所有文字(str)都是Unicode。 編碼的Unicode文字表示為二進位制資料(位元組)。 str型別可以包含任何文字Unicode字元,例如“Δv/Δt”,所有這些字元都將儲存為Unicode。

  • Unicode字符集中的任何內容都是識別符號中的猶太符號,這意味著résumé=“〜/ Documents / resume.pdf”是有效的,雖然這看起來很花哨。

  • Python的re模組預設為re.UNICODE標誌而不是re.ASCII。 這意味著,例如,r“\ w”匹配Unicode字元,而不僅僅是ASCII字母。

  • str.encode()和bytes.decode()中的預設編碼是UTF-8。

還有一個更細微的屬性,即內建的open()的預設編碼是依賴於平臺的,並且取決於locale.getpreferredencoding()的值:

>>> # Mac OS X High Sierra
>>> import locale
>>> locale.getpreferredencoding()
'UTF-8'

>>> # Windows Server 2012; other Windows builds may use UTF-16
>>> import locale
>>> locale.getpreferredencoding()
'cp1252'

一個關鍵特性是UTF-8是一種可變長度編碼。回想一下關於ASCII的部分。 擴充套件ASCII-land中的所有內容最多需要一個位元組的空間。 您可以使用以下生成器表示式快速證明這一點:

>>> all(len(chr(i).encode("ascii")) == 1 for i in range(128))
True

UTF-8完全不同。 給定的Unicode字元可以佔用1到4個位元組。 以下是佔用四個位元組的單個Unicode字元的示例:

>>> ibrow = "