Pandas學習筆記(三)——讀取 CSV、TXT檔案
阿新 • • 發佈:2019-01-03
pandas是資料分析專用庫。從外部讀寫檔案也屬於資料處理的一部分。pandas提供了多種I/O API函式。支援多種型別資料的讀取。常用的函式如下:
讀取函式 | 寫入函式 |
---|---|
read_csv | to_csv |
read_excel | to_excel |
read_hdf | to_hdf |
read_sql | to_sql |
read_json | to_json |
read_html | to_html |
read_stata | to_stata |
read_clipboard | to_clipboard |
read_pickle | to_pickle |
read_msgback | to_msgback |
read_bbq | to_gbq |
1.CSV檔案。CSV格式:檔案的每一行的多個元素是用逗號隔開的。如:myCSV_01.csv
2.直接讀取csv.
pandas讀取csv檔案預設第一行是識別符號,也就是列名。
輸入
csvframe=pd.read_csv("myCSV_01.csv") #讀取無表頭的csv檔案 print(csvframe)會得到輸出
第一列0,1,2,3,4為索引序列。White red blue green animal成為了列名
如果CSV檔案中不包含列名。如
,則會得到如下輸出:
此時。pandas把第一行當做了列名。要解決該問題,只需要新增header =None
csvframe=pd.read_csv("myCSV_02.csv",header=None) #讀取無表頭的csv檔案就會得到如下輸出
列名變成了0,1,2,3.
我們還可以通過name來修改列名
輸出為
4.對TXT檔案進行操作
TXT檔案大家都很熟悉了,就不介紹了。TXT的用法和CSV檔案大致相同。主要區別是:CSV格式中,每個資料之間通過逗號分隔。而TXT中資料的分隔可以是逗號,也可以是空格,更可以是字母。
現有如下的TXT檔案:
如果對我來說,只有數字才是我需要資料,字母為分隔符,那麼輸入如下指令:
csvframe=pd.read_table("ch05_05.txt"sep的作用為,排除。sep=','表示去除逗號,按照逗號對資料進行分割。sep='\D*'表示去除非數字字元,按照非數字字元對資料進行分割。因此,此時的輸出為
此外,還有一個常使用的選項:skiprows.它的功能為排除某一行。要注意的是:排除前五行是skiprows=5.排除第五行是skiprows=[5].