python--學習筆記7 文件格式、數據讀取、儲存
阿新 • • 發佈:2019-01-18
字段 message series index 正則表達式 ESS 對象 之一 pan
讀取文本類數據
pandas提供了一些將表格型數據讀取為DataFrame對象的函數。read_csv 默認分隔符為逗號, read_table 默認分隔符為制表符 "\t"
類型推斷是這些函數最重要的功能之一。
沒有標題行的文件可以通過pandas分配也可以自定義列名。 pd.read_csv(‘xxx.csv‘,header=None) / pd.read_csv(‘xxx.csv‘, names = [‘a‘,‘b‘,‘c‘,‘d‘,‘message‘])
可以通過index_col 指定索引 pd.read_csv(‘xxx.csv‘, names = [‘a‘,‘b‘,‘c‘,‘d‘,‘message‘], index_col = ‘message‘)
有些表格可能不是用固定的分隔符去分隔字段,因此可以編寫一個正則表達式來作為read_table的分隔符。
可以用skiprows跳過文件指定行。
逐塊讀取文本文件
有時候文件太大,可以只讀取文件的一小部分或者逐塊對文件進行叠代。
只讀幾行的話,可以通過nrows進行指定。
若需逐塊讀取文件,需要設置chunksize(行數):
chunker = pd.read_csv(‘xxxx.csv‘,chunksize = 1000)
tot = Series([])
for piece in chunker:
tot = tot.add(piece[‘key‘].value_counts(),fill_value=0)
tot = tot.order(ascending = False)
此處叠代處理csv,將值計數聚合到‘key‘列中。
輸出
通過DataFrame的to_csv方法,我們可以將數據寫到一個以逗號分隔的文件中。缺失值在輸出結果中會被表示為空字符串,也可以表示為其他標記值。
python--學習筆記7 文件格式、數據讀取、儲存