1. 程式人生 > >Pandas學習筆記(三)——讀取 CSV、TXT檔案

Pandas學習筆記(三)——讀取 CSV、TXT檔案

pandas是資料分析專用庫。從外部讀寫檔案也屬於資料處理的一部分。pandas提供了多種I/O API函式。支援多種型別資料的讀取。常用的函式如下:

讀取函式寫入函式
read_csv   to_csv
read_excelto_excel
read_hdfto_hdf
read_sqlto_sql
read_jsonto_json
read_htmlto_html
read_statato_stata
read_clipboardto_clipboard
read_pickleto_pickle
read_msgbackto_msgback
read_bbqto_gbq

1.CSV檔案。CSV格式:檔案的每一行的多個元素是用逗號隔開的。如:myCSV_01.csv

2.直接讀取csv.

        pandas讀取csv檔案預設第一行是識別符號,也就是列名。

輸入

csvframe=pd.read_csv("myCSV_01.csv") #讀取無表頭的csv檔案 print(csvframe)

會得到輸出


第一列0,1,2,3,4為索引序列。White red blue green animal成為了列名

如果CSV檔案中不包含列名。如

,則會得到如下輸出:

此時。pandas把第一行當做了列名。要解決該問題,只需要新增header =None

csvframe=pd.read_csv("myCSV_02.csv",header=None) #讀取無表頭的csv檔案

就會得到如下輸出

列名變成了0,1,2,3.

我們還可以通過name來修改列名

csvframe=pd.read_csv("myCSV_02.csv",names=['white','red','blue','green','animal']) #讀取檔案,並自定義每列的名稱

輸出為

4.對TXT檔案進行操作

TXT檔案大家都很熟悉了,就不介紹了。TXT的用法和CSV檔案大致相同。主要區別是:CSV格式中,每個資料之間通過逗號分隔。而TXT中資料的分隔可以是逗號,也可以是空格,更可以是字母。

現有如下的TXT檔案:

如果對我來說,只有數字才是我需要資料,字母為分隔符,那麼輸入如下指令:

csvframe=pd.read_table("ch05_05.txt"
,sep='\D*',header=None) #讀取txt檔案的數字部分,無表頭

sep的作用為,排除。sep=','表示去除逗號,按照逗號對資料進行分割。sep='\D*'表示去除非數字字元,按照非數字字元對資料進行分割。因此,此時的輸出為

此外,還有一個常使用的選項:skiprows.它的功能為排除某一行。要注意的是:排除前五行是skiprows=5.排除第五行是skiprows=[5].