Python讀取文件，使用split進行分割時，出現ufeff

阿新 • • 發佈：2018-08-30

lin replace little 讀取文件 get txt ace tty 連續

1.問題

使用python3.6對文件讀取時，按照正常套路處理，文件內容類似以下：

啊啊啊 || AAA

不不不 || BBB

當使用utf-8讀取文檔並且使用split函數分割時，發現第一行字符分割後，莫名多了一個\ufeff。

因為這個原因，導致後續使用 == 或者 x in list 操作時，涉及到第一行的數據時，出錯。

Debug第一行見下圖（第二行以後是沒問題的）

技術分享圖片

2.原因

參考1：

The Unicode character U+FEFF is the byte order mark, or BOM, and is used to tell the difference between big- and little-endian UTF-16 encoding

u = u‘ABC‘
e8 = u.encode(‘utf-8‘)        # encode without BOM（沒考慮BOM）
e8s = u.encode(‘utf-8-sig‘)   # encode with BOM（考慮了BOM）
e16 = u.encode(‘utf-16‘)      # encode with BOM
e16le = u.encode(‘utf-16le‘)  # encode without BOM
e16be = u.encode(‘utf-16be‘)  # encode without BOM

參考2

\ufeff是一個特殊的標識，表明編碼方式，

字節序，也就是字節的順序，指的是多字節的數據在內存中的存放順序，在幾乎所有的機器上，多字節對象都被存儲為連續的字節序列，根據信息在連續內存中的存儲順序，字節序被分為大端序（Big Endian） 與 小端序（Little Endian）兩類。（然後就牽涉出兩大CPU派系：一派如PowerPC 970等處理器采用 Big Endian方式存儲數據，另一派如x86系列等處理器采用Little Endian方式存儲數據）。其中大端序和小端序解釋如下：

Big Endian 是指低地址端存放高位字節。

Little Endian 是指低地址端存放低位字節。

對其作用及更多內容見參考

3.解決方法

一種方法：

通過utf-8對字符串進行encode成byte數組，然後再對該byte數組使用utf-8-sig進行decode，即：

    templateList = []
    for line in open(‘templateResult.txt‘, encoding=‘utf-8‘):
        tmps = line.strip().split(‘|‘)
        templateList.append(tmps[0].encode(
            ‘utf-8‘).decode(‘utf-8-sig‘).strip().replace(‘。‘, ‘‘))

另一種方法，直接使用‘utf-8-sig’打開文件：

    templateList = []
    for line in open(‘templateResult.txt‘, encoding=‘utf-8-sig‘):
        tmps = line.strip().split(‘|‘)
        templateList.append(tmps[0].strip().replace(‘。‘, ‘‘))

4.總結

寫文檔或者讀文檔是python經常用到的操作，如使用open(‘test.txt‘,encoding=‘utf-8‘)的方式打開文檔，當在處理第一行數據的時候可能由於自己忽略導致問題。

本文對出錯的原因及解決辦法進行了說明。

參考：

https://stackoverflow.com/questions/17912307/u-ufeff-in-python-string

https://songlee24.github.io/2015/05/02/endianess/

Python讀取文件，使用split進行分割時，出現\ufeff

Python讀取文件，使用split進行分割時，出現ufeff

lin replace little 讀取文件 get txt ace tty 連續 1.問題使用python3.6對文件讀取時，按照正常套路處理，文件內容類似以下：啊啊啊 || AAA 不不不 || BBB 當使用utf-8讀取文檔並且使用split函數分割時，發現第

python 讀取文件時報錯UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multibyte sequence

gbk erro unicode log Coding post txt文件 odi 讀取 python讀寫txt文件轉化成excel文件 python讀取文件時提示"UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0

python-跨文件的全局變量，該如何是好

數據 markdown urn field ras msg 創建 common 標簽一、設置一個類，存放全局數據 class GlobalVar: def __init__(self): self.DB_CONFIG = {} self.table_

【python讀取文件時如何去掉' '

readlines AD pre OS nes nbsp 文件 readline 如何 import os file=‘bsw.txt‘ f=open(file,‘r‘) ff=f.readlines() for line in ff: line=line.

Python讀取文件編碼解碼問題

har AD python Coding 檢測 result del chardet PE 用chardet檢測編碼 import chardet raw = open("model.json", ‘rb‘).read() result = chardet.detect(

python讀取文件內的IP信息練習

報錯 ada 正則表達 put readlines for clas level 日誌信息代碼如下： 1 #導包 2 import fileinput 3 import re 4 5 def readArw(): 6 7 for line in

python 讀取文件時報錯： UnicodeDecodeError: 'gbk' codec can't decode byte 0xa4 in position 127: illegal multibyte sequence

報錯 error: open 解決辦法 post code 讀取文件 utf-8 gpo UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xa4 in position 127: illegal multibyte se

Python 讀取文件裏的內容

readlines oss type pytho cto 控制 mar -o 讀取文件讀取文件內容有三個方法：Read() 讀取整個文件Readlines()按行讀取整個文件Readeline()按行讀取一行內容現需求是：讀取整個文件的內容，並打印在控制臺上剛寫入的文

FlexPaper 當文件僅有一頁時，檔案預覽不顯示問題解決方案

問題為使用swftools將pdf轉換為swf時，未指定flash格式，頁面加載出錯。解決方法：在cmd命令末尾加“ -T 9”指定轉換檔案為flash9格式。 String command = SWFTools_HOME + "\\pdf2swf.exe

Python中，關於讀取文件編碼解碼的問題

fault use ext ted ltib read name strong nco UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xb1 in position 94: illegal multibyte sequ

tensorflow 批次讀取文件內的數據，並將順序隨機化處理. --[python]

constant field ads run clas rom nump bsp 行數據使用tensorflow批次的讀取預處理之後的文本數據，並將其分為一個叠代器批次：比如此刻，我有一個處理之後的數據包： data.csv shape =(8,10)，其中這個結構

python .dcm文件讀取，並轉化為.jpg格式

plot pip scipy 文件讀取 com 相關信息 python程序 install pre .dcm文件是DICOM（Digital Imaging and Communications in Medicine）即醫學數字成像和通信中記錄醫學圖像和相關信息的文件，在

作業一：登錄界面（優化，能讀取鎖定文件中的任意用戶名，一旦發現所輸入的用戶名是鎖定文件中的，立即告知並跳出循環）

col cnblogs 循環 lin auth pen str flag div 1 #Author:AXIN 2 #功能：登錄窗口 3 # 1.輸入用戶名，密碼 4 # 2.認證成功後輸出提示信息，表示歡迎 5 # 3.輸錯

R中讀取文件，找不到路徑問題 No such file or directory

con tracking air csdn rac rect 路徑路徑和 data R中讀取文件，找不到路徑問題 No such file or directory 近日，讀取文件時。出現例如以下問題 > passenger = read.c

python 生成器按指定大小讀取文件

env yield imp read else 生成指定大小 turn sys.argv #!/usr/bin/env python import osimport sys def read_file(fpath): 　　Block_Size = 1024 　

python基礎-讀取文件

() int 拆分 span open div lose color 本地一、讀取txt文件 #coding=utf-8 user_file = open(‘./bosspe/data/users.txt‘,‘r‘)#以只讀方式打開txt文件 lines = use

Python讀取文本，輸出指定中文（字符串）

class 分享 /tmp () fun 問題 print fin 斷路器因業務需求，需要提取文本中帶有檢查字樣的每一行。樣本如下： 1 投入10kVB、C母分段820閉鎖備自投壓板 2 退出10kVB、C母分段820備投跳803壓板 3 退出10kVB

python 讀取文本文件

文件文本文 des 去掉 som 打開文件最簡 object variable Python的文本處理是經常碰到的一個問題，Python的文本文件的內容讀取中，有三類方法：read()、readline()、readlines()，這三種方法各有利弊，下面逐一介紹其使用

BufferedReader 讀取文件內容，原樣輸出

nec ati java buffered system har 運行寫入讀取文件 1.新建目標類： package com.xuzhiwen.io; public class TargetFile { public static void main(Str

Python模塊詳解以及import本質，獲得文件當前路徑os.path.abspath，獲得文件的父目錄os.path.dirname，放到系統變量的第一位sys.path.insert(0,x)

alt 獲取詳解 nbsp spa 絕對路徑解釋系統 port 模塊介紹 1、定義：模塊：用來從邏輯上組織python代碼（變量，函數，類，邏輯：實現一個功能），本質就是.py結尾的python文件（文件名:test.py，對應的模塊名：test）包：用來從邏輯上

Python讀取文件，使用split進行分割時，出現ufeff

相關推薦