1. 程式人生 > >python讀取中文txt文字

python讀取中文txt文字

對於python2.7

字串在Python2.7內部的表示是unicode編碼,因此,在做編碼轉換時,通常需要以unicode作為中間編碼,即先將其他編碼的字串解碼成unicode,再從unicode編碼成另一種編碼。

先用一些編輯器(如editplus )看一下你的txt檔案儲存的是utf-8,還是gb2312或其他的。當你讀行時可以這樣

line = (file1.readline()).decode('utf-8').encode('gb2312')或

line = (file1.readline()).decode('gb2312').encode('utf-8')

注意:txt使用utf8編碼的時候會預設在檔案開頭插入三個不可見字元。這個是windows用來判斷txt編碼是否為utf8的。所以如果你直接使用decode('utf-8')的話是得不到正確結果的。必須先判斷前三個字元是否是windows插入的那三個。這個python已經定義了一個常量了,可以直接和這個常量比較,如果一樣就刪除前三個字元然後再decode。

import codecs
 data = open("Test.txt").read()
 if data[:3] == codecs.BOM_UTF8: 
	data = data[3:]
	print data.decode("utf-8")

延伸:

因為decode的函式原型是decode([encoding], [errors='strict']),可以用第二個引數控制錯誤處理的策略,預設的引數就是strict,代表遇到非法字元時丟擲異常;
如果設定為ignore,則會忽略非法字元;
如果設定為replace,則會用?取代非法字元;
如果設定為xmlcharrefreplace,則使用XML的字元引用。

對於Python3

python3下比較簡單,開啟的時候指定encoding引數即可:open("txt.txt", encoding="gbk").read()。