1. 程式人生 > >python--學習筆記7 文件格式、數據讀取、儲存

python--學習筆記7 文件格式、數據讀取、儲存

字段 message series index 正則表達式 ESS 對象 之一 pan

讀取文本類數據

pandas提供了一些將表格型數據讀取為DataFrame對象的函數。read_csv 默認分隔符為逗號, read_table 默認分隔符為制表符 "\t"

類型推斷是這些函數最重要的功能之一。

沒有標題行的文件可以通過pandas分配也可以自定義列名。 pd.read_csv(‘xxx.csv‘,header=None) / pd.read_csv(‘xxx.csv‘, names = [‘a‘,‘b‘,‘c‘,‘d‘,‘message‘])

可以通過index_col 指定索引 pd.read_csv(‘xxx.csv‘, names = [‘a‘,‘b‘,‘c‘,‘d‘,‘message‘], index_col = ‘message‘)

有些表格可能不是用固定的分隔符去分隔字段,因此可以編寫一個正則表達式來作為read_table的分隔符。

可以用skiprows跳過文件指定行。

逐塊讀取文本文件

有時候文件太大,可以只讀取文件的一小部分或者逐塊對文件進行叠代。

只讀幾行的話,可以通過nrows進行指定。

若需逐塊讀取文件,需要設置chunksize(行數):

chunker = pd.read_csv(xxxx.csv,chunksize = 1000)
tot = Series([])
for piece in chunker:

tot = tot.add(piece[‘key‘].value_counts(),fill_value=0)

tot = tot.order(ascending = False)

此處叠代處理csv,將值計數聚合到‘key‘列中。


輸出

通過DataFrame的to_csv方法,我們可以將數據寫到一個以逗號分隔的文件中。缺失值在輸出結果中會被表示為空字符串,也可以表示為其他標記值。

python--學習筆記7 文件格式、數據讀取、儲存