Python 編碼（一）— Python3

阿新 • • 發佈：2018-01-26

mar 令行 sock 早期 ref 亂碼 transform enc 方法

Unicode

什麽是 Unicode

標準 unicode

標準 Unicode 為每個字符提供了一個獨特的數字，並且跨平臺、設備、應用或者編程語言都是通用的。 -- 來自 http://unicode.org/standard/WhatIsUnicode.html

Unicode

什麽是 Unicode

標準 unicode

標準 Unicode 為每個字符提供了一個獨特的數字，並且跨平臺、設備、應用或者編程語言都是通用的。 -- 來自 http://unicode.org/standard/WhatIsUnicode.html

Unicode 之前的編碼

比如 ASCII、GBK等等。

這些早期的字符編碼是受限制的並且不能包含包含全世界語言的編碼。

早期的字符編碼互相之間也會沖突。兩種編碼可能使用同樣的數字來表示不同的字符或者使用不同的數字來表示同樣的字符。任意給定的計算機（尤其是服務器）會需要支持多種不同的編碼。然而當數據在不同計算機或不同編碼之間傳遞的時候，數據會有沖突的風險。 -- 來自 https://zh.wikipedia.org/wiki/Unicode#%E5%AE%9E%E7%8E%B0%E6%96%B9%E5%BC%8F

UTF

UTF(Unicode Transformation Format）的意思是 Unicode 轉換格式。

例如，如果一個僅包含基本7位ASCII字符的Unicode文件，如果每個字符都使用2字節的原Unicode編碼傳輸，其第一字節的8位始終為0。這就造成了比較大的浪費。對於這種情況，可以使用UTF-8編碼，這是一種變長編碼，它將基本7位ASCII字符仍用7位編碼表示，占用一個字節（首位補0）。而遇到與其他Unicode字符混合的情況，將按一定算法轉換，每個字符使用1-3個字節編碼，並利用首位為0或1進行識別。這樣對以7位ASCII字符為主的西文文檔就大幅節省了編碼長度（具體方案參見UTF-8）。類似的，對未來會出現的需要4個字節的輔助平面字符和其他UCS-4擴充字符，2字節編碼的UTF-16也需要通過一定的算法進行轉換。 -- 來自 https://zh.wikipedia.org/wiki/Unicode#%E5%AE%9E%E7%8E%B0%E6%96%B9%E5%BC%8F

Python 編碼

Unicode 是一連串的數字。

Python 編碼指將 Unicode 轉換為 bytes。 -- 來自 https://docs.python.org/3/howto/unicode.html#encodings

對於 ASCII 編碼：

如果編碼點小於 128，每個比特與編碼點的值相同

如果編碼點大於等於 128，那麽這些 Unicode 字符不能使用這種編碼表示。（Python 會拋出 UnicodeEncodeError）
-- 來自 https://zh.wikipedia.org/wiki/Unicode#%E5%AE%9E%E7%8E%B0%E6%96%B9%E5%BC%8F

UTF-8 是最常用的編碼，有如下方便的性質：

可以處理所有 Unicode 編碼點。

ASCII 文本也是有效的 UTF-8 文本。

UTF-8 很緊湊；常用的字符可以使用一個或者兩個 bytes 表示。
-- 來自 https://zh.wikipedia.org/wiki/Unicode#%E5%AE%9E%E7%8E%B0%E6%96%B9%E5%BC%8F

Python3 對 Unicode 的支持

從 Python 3.0 開始，使用 Unicode 儲存字符串。

Python 源碼的默認編碼是 UTF-8，也可以通過 # -*- coding: <encoding name> -*- 來指定特殊的編碼。

讀寫 Unicode 數據

Unicode 數據在寫入磁盤或者發送到一個 socket 前通常會被轉化為一種編碼。你可以自己完成所有的工作：打開一個文件，從文件中讀取 8-bit bytes 然後使用 bytes.decode(encoding) 轉換 bytes。但是不推薦手動處理。

一個原因是一個 Unicode 字符可以被多個 bytes 表示。如果你讀取任意大小的塊（比如 1024 或者 4096 bytes），你需要寫錯誤處理代碼來捕捉塊的末尾部分 Unicode 字符不完整的情況。一個解決辦法是讀取整個文件到內存中，但是這會使你不能處理大文件。

解決辦法是使用低級別的解碼接口來捕捉部分編碼序列的情況。這個工作已經被自帶的 open() 函數實現了，open(filename, encoding=encoding) 返回一個可以擁有如 read() 和 write() 等方法的 file-like 對象。
-- 以上引用來自 https://docs.python.org/3/howto/unicode.html#reading-and-writing-unicode-data

Unicode 在編程中的技巧

軟件內部應該只使用 Unicode 字符串，盡快解碼輸入數據（bytes）並只在最後給輸出編碼。

當使用來自瀏覽器或者其他不信任來源的數據時，一個常用的技巧是在使用字符串作為命令行或者儲存字符串到數據庫前檢查字符串中的非法字符。如果你打算這樣做，要註意檢查解碼後的字符串，而不是編碼的 bytes 數據；因為一些編碼可能有一些有趣的屬性，比如有多個意思或者不是完全適配 ASCII。 -- 來自 https://docs.python.org/3/howto/unicode.html#tips-for-writing-unicode-aware-programs

未知編碼的文件

如果你知道文件的編碼是適配 ASCII 的並且只想測試或修改 ASCII 的部分，你可以用 surrogateescape 錯誤處理器來打開文件。

with open(fname, 'r', encoding="ascii", errors="surrogateescape") as f:
    data = f.read()

# make changes to the string 'data'

with open(fname + '.new', 'w',
          encoding="ascii", errors="surrogateescape") as f:
    f.write(data)

surrogateescape 錯誤處理器將所有非 ASCII bytes 解碼為 Unicode 編碼點。這些秘密編碼點會變回同樣的 bytes 當使用 surrogateescape 編碼數據並寫出的時候。
-- 來自 https://docs.python.org/3/howto/unicode.html#files-in-an-unknown-encoding

假設文件只有一種編碼，那麽可以嘗試使用所有標準編碼進行解碼，從解碼沒有報錯的結果中挑選出合適的，即沒有亂碼的結果。
Unicode 之前的編碼

比如 ASCII、GBK等等。

這些早期的字符編碼是受限制的並且不能包含包含全世界語言的編碼。

早期的字符編碼互相之間也會沖突。兩種編碼可能使用同樣的數字來表示不同的字符或者使用不同的數字來表示同樣的字符。任意給定的計算機（尤其是服務器）會需要支持多種不同的編碼。然而當數據在不同計算機或不同編碼之間傳遞的時候，數據會有沖突的風險。 -- 來自 https://zh.wikipedia.org/wiki/Unicode#%E5%AE%9E%E7%8E%B0%E6%96%B9%E5%BC%8F

UTF

UTF(Unicode Transformation Format）的意思是 Unicode 轉換格式。

例如，如果一個僅包含基本7位ASCII字符的Unicode文件，如果每個字符都使用2字節的原Unicode編碼傳輸，其第一字節的8位始終為0。這就造成了比較大的浪費。對於這種情況，可以使用UTF-8編碼，這是一種變長編碼，它將基本7位ASCII字符仍用7位編碼表示，占用一個字節（首位補0）。而遇到與其他Unicode字符混合的情況，將按一定算法轉換，每個字符使用1-3個字節編碼，並利用首位為0或1進行識別。這樣對以7位ASCII字符為主的西文文檔就大幅節省了編碼長度（具體方案參見UTF-8）。類似的，對未來會出現的需要4個字節的輔助平面字符和其他UCS-4擴充字符，2字節編碼的UTF-16也需要通過一定的算法進行轉換。 -- 來自 https://zh.wikipedia.org/wiki/Unicode#%E5%AE%9E%E7%8E%B0%E6%96%B9%E5%BC%8F

Python 編碼

Unicode 是一連串的數字。

Python 編碼指將 Unicode 轉換為 bytes。 -- 來自 https://docs.python.org/3/howto/unicode.html#encodings

對於 ASCII 編碼：

如果編碼點小於 128，每個比特與編碼點的值相同

如果編碼點大於等於 128，那麽這些 Unicode 字符不能使用這種編碼表示。（Python 會拋出 UnicodeEncodeError）
-- 來自 https://zh.wikipedia.org/wiki/Unicode#%E5%AE%9E%E7%8E%B0%E6%96%B9%E5%BC%8F

UTF-8 是最常用的編碼，有如下方便的性質：

可以處理所有 Unicode 編碼點。

ASCII 文本也是有效的 UTF-8 文本。
UTF-8 很緊湊；常用的字符可以使用一個或者兩個 bytes 表示。
-- 來自 https://zh.wikipedia.org/wiki/Unicode#%E5%AE%9E%E7%8E%B0%E6%96%B9%E5%BC%8F

Python3 對 Unicode 的支持

從 Python 3.0 開始，使用 Unicode 儲存字符串。

Python 源碼的默認編碼是 UTF-8，也可以通過 # -*- coding: <encoding name> -*- 來指定特殊的編碼。

讀寫 Unicode 數據

Unicode 數據在寫入磁盤或者發送到一個 socket 前通常會被轉化為一種編碼。你可以自己完成所有的工作：打開一個文件，從文件中讀取 8-bit bytes 然後使用 bytes.decode(encoding) 轉換 bytes。但是不推薦手動處理。

一個原因是一個 Unicode 字符可以被多個 bytes 表示。如果你讀取任意大小的塊（比如 1024 或者 4096 bytes），你需要寫錯誤處理代碼來捕捉塊的末尾 Unicode 字符不完整的情況。一個解決辦法是讀取整個文件到內存中，但是這會讓你不能處理大文件。

解決辦法是使用低級別的解碼接口來捕捉部分編碼序列的情況。這個工作已經被自帶的 open() 函數實現了，open(filename, encoding=encoding) 返回一個可以擁有如 read() 和 write() 等方法的 file-like 對象。
-- 以上引用來自 https://docs.python.org/3/howto/unicode.html#reading-and-writing-unicode-data

編寫註意 Unicode 的程序的技巧

軟件內部應該只使用 Unicode 字符串，盡快解碼輸入數據（bytes）並只在最後給輸出編碼。

當使用來自瀏覽器或者其他不信任來源的數據時，一個常用的技巧是在使用字符串作為命令行或者儲存字符串到數據庫前檢查字符串中的非法字符。如果你打算這樣做，要註意檢查解碼後的字符串，而不是編碼的 bytes 數據；因為一些編碼可能有一些有趣的屬性，比如有多個意思或者不是完全適配 ASCII。 -- 來自 https://docs.python.org/3/howto/unicode.html#tips-for-writing-unicode-aware-programs

未知編碼的文件

如果你知道文件的編碼是適配 ASCII 的並且只想測試或修改 ASCII 的部分，你可以用 surrogateescape 錯誤處理器來打開文件。

with open(fname, 'r', encoding="ascii", errors="surrogateescape") as f:
    data = f.read()

# make changes to the string 'data'

with open(fname + '.new', 'w',
          encoding="ascii", errors="surrogateescape") as f:
    f.write(data)

surrogateescape 錯誤處理器將所有非 ASCII bytes 解碼為 Unicode 編碼點。這些秘密編碼點會變回同樣的 bytes 當使用 surrogateescape 編碼數據並寫出的時候。
-- 來自 https://docs.python.org/3/howto/unicode.html#files-in-an-unknown-encoding

假設文件只有一種編碼，那麽可以嘗試使用所有標準編碼進行解碼，從解碼沒有報錯的結果中挑選出合適的。合適的結果指沒有亂碼的結果。

Python 編碼（一）— Python3

mar 令行 sock 早期 ref 亂碼 transform enc 方法 Unicode 什麽是 Unicode 標準 unicode 標準 Unicode 為每個字符提供了一個獨特的數字，並且跨平臺、設備、應用或者編程語言都是通用的。 -- 來自 http://un

Python隨筆（一）-python3關鍵字

開發十年，就只剩下這套架構體系了！ >>>

python基本數據類型（一）-python3.0學習筆記

中括號 str 只有一個 most 浮點型基本數字類型 shel convert python基本數據類型 1.python課程簡介 2.數據類型 3.序列類型 1.python簡介 1.python是一門編程語言，是一門完全面向對象的編程語言 2.如果對語言進行分類，

python基礎-函數（一）--python3

python3 函數基礎 python基礎---函數(一) 目錄 python基礎---函數(一)1.函數的定義2.函數的參數詳解3.return4.lambda匿名函數 1.函數的定義 function 功能，函數函數就是對代碼進行一個封裝，把實現某一功能的相同代碼，進行封裝到一起。下

python入門（一）

html pre uic 程序添加 -a 控制臺命令成了第一步，我們先來安裝Python，博主選擇的版本是最新的3.4.2版本。windows下面的Python安裝一般是通過軟件安裝包安裝而不是命令行，所以我們首先要在Python的官方主頁上面下載最新的Python

Python學習（一）

ubun 安裝目錄 tle setup extract reat 常用插件增加網址 Python學習（一）一：開發工具安裝　　1,pycharm下載：Linux版本　　2，破解：在help-register下-service輸入：　　　　 http://elpo

Python爬蟲（一）：基本概念

popu 通用字符 spider dai 自身部分螞蟻 people 網絡爬蟲的定義網絡爬蟲（Web Spider。又被稱為網頁蜘蛛。網絡機器人，又稱為網頁追逐者），是一種依照一定的規則，自己主動的抓取萬維網信息的程序或者腳本。另外一些不常使用

Python基礎（一）

類型 spa 例子 hat except 存在內容限制字符數 Python基礎1 1.Hello World程序 2.變量 3.用戶輸入 4.模塊初識 5.數據類型初識 6.數據運算 7.表達式if ...else語句 8.表達式fo

python爬蟲（一）

返回沒有發現學習內容部分訪問 family 司機獲得 1.首先你需要一些Python的基礎知識和相關的開發環境，沒有相關基礎的同學推薦可以先去網易雲的Mooc觀看學習相關教程 2.什麽是網絡爬蟲？　　我們上網會在瀏覽器中輸入連接，然後服務器會返回給我們相關的信

Python練習（一）

pythonPython練習（一）：給一個不超過5位的正整數，判斷其有幾位，依次打印出個位、十位、百位、千位、萬位的數字：num = int(input(‘please enter a number: ‘)) lst = [] for i in str(num): lst.append(i)

Charles的基本操作方法與python基礎（一）

inpu 格式 format log text src 基礎 pos -s 開始與結束按鈕：斷點按鈕：清空按鈕：若抓不到包可嘗試更改瀏覽器重新請求 python基礎（一）計算機語言分為編譯型語言和解釋型語言，編譯型語言需要提前編譯，然後直接拿來運行，但解釋型語

Python練習題（一）

python練習題1. 企業發放的獎金根據利潤提成。利潤(I)低於或等於10萬元時，獎金可提10%；利潤高　　　於10萬元，低於20萬元時，低於10萬元的部分按10%提成，高於10萬元的部分，可可提　　　成7.5%；20萬到40萬之間時，高於20萬元的部分，可提成5%；40萬到60萬之間時高於　　　40

第一章 Python基礎（一）

科學計算廣泛 java 賦值運算退出 glob 單詞技術電視 1.1 編程語言編程語言總體分以為機器語言、匯編語言、高級語言，如下機器語言由於計算機內部只能接受二進制代碼，因此，用二進制代碼0和1描述的指令稱為機器指令，全部機器指令的集合構成計算機的機器語言，

python入門（一）pycharm的安裝

python python入門 python的來歷：Python 是一種面向對象的解釋型計算機程序設計語言，由荷蘭人Guido van Rossum於1989年發明，第一個公開發行版發行於1991年。Python是純粹的自由軟件，源代碼和解釋器CPython遵循 GPL協議。Python語法簡潔清

python筆記（一）

python 學習筆記字符串處理單雙引號一樣.title()：將每個單詞的首字母變為大寫，其余小寫（不管原來是什麽樣）.upper()：將字符串中所有字母變為大寫.lower()：將字符串中所有字母變為小寫.strip()：刪除行首和行末的空白（空格和制表符）（直接輸入變量返回值才能看到，否則看不到

python 編碼（encode）解碼（decode）問題

color nbsp 轉換 pytho type bubuko 格式 utf-8 ima s = ‘匆匆‘print(s)s1 = s.decode("utf-8") # utf-8 轉成 Unicode，decode(解碼)需要註明當前編碼格式print(s1,type(

python 漫談（一）相見恨晚的庫

在那分享圖片文本處理執行時間結果性能既然 panda Coding （一）pypy和Cpython解釋器在性能上的比較 Cpython解釋器是從官網下載python自帶的解釋器，就是我們平常使用的解釋器。pypy解釋器的出現是為了在一定程度上提升python代碼

Python入門（一）異常處理

必須 IV PE runt .... fin 是否位置邏輯異常處理捕捉異常可以使用try/except語句。 try/except語句用來檢測try語句塊中的錯誤，從而讓except語句捕獲異常信息並處理。以下是語法： 1 try: 2 <語句>

文件壓縮——哈夫曼樹編碼（一）

結構體 splay 空間構建葉子 ESS rate char 底層何謂哈夫曼樹？—— 　　百度百科：給定n個權值作為n個葉子結點，構造一棵二叉樹，若帶權路徑長度達到最小，稱這樣的二叉樹為最優二叉樹，也稱為哈夫曼樹(Huffman Tree)。哈夫曼樹是帶權路徑長度最短

python 爬蟲（一） requests+BeautifulSoup 爬取簡單網頁代碼示例

utf-8 bs4 rom 文章都是 Coding man header 文本以前搞偷偷摸摸的事，不對，是搞爬蟲都是用urllib，不過真的是很麻煩，下面就使用requests + BeautifulSoup 爬爬簡單的網頁。詳細介紹都在代碼中註釋了，大家可以參閱。

Python 編碼（一）— Python3

Unicode

什麽是 Unicode

Unicode

什麽是 Unicode

UTF

Python 編碼

Python3 對 Unicode 的支持

讀寫 Unicode 數據

Unicode 在編程中的技巧

未知編碼的文件

UTF

Python 編碼

Python3 對 Unicode 的支持

讀寫 Unicode 數據

編寫註意 Unicode 的程序的技巧

未知編碼的文件

相關推薦