Pandas基礎(一):資料的存取和檢視
阿新 • • 發佈:2018-12-21
使用pandas做資料分析,首先匯入pandas庫:
import pandas as pd
pandas的資料結構有兩種:Series和DataFrame。前者可以理解為陣列,後者可以理解為表格。我們主要講解DataFrame。
1.建立DataFrame:
由等長列表構成。包含列名和每行該列的值。
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 'year': [2000, 2001, 2002, 2001, 2002, 2003], 'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]} frame = pd.DataFrame(data)
輸出為:
pop state year
0 1.5 Ohio 2000
1 1.7 Ohio 2001
2 3.6 Ohio 2002
3 2.4 Nevada 2001
4 2.9 Nevada 2002
5 3.2 Nevada 2003
2.匯入資料:
pandas支援多種文字格式的資料匯入。比如常用的csv,table和excel等。
df = pd.read_csv('ex1.csv')
df = pd.read_table('ex2.tsv')
對於沒有表頭的csv檔案和以特殊字元(比如逗號)分割的table檔案:
df = pd.read_csv('ex1.csv', header=None) df = pd.read_csv('ex1.tsv', sep=',')
pandas支援的檔案型別如下表:
3.匯出資料:
使用to_csv方法,可以將資料匯出為以逗號分隔的檔案。
pd.to_cs('example.csv')
也可指定分隔符,比如豎線:
pd.to_cs('example.csv', sep='|')
還有其他屬性,index:是否儲存資料索引,header:是否儲存表頭:
pd.to_cs('example.csv', index=False, header=True)
4.檢視資料:
檢視頭部5行資料和前10行資料
df.head()
df.head(10)
檢視尾部5行資料和最後10行資料
df.tail() df.tail(10)
還可以用Python的切片檢視資料:
df[:5] #前5行
df[10:15] #第11到第15行
df[-3:] #最後三行
檢視指定列的資料:
df['year']
輸出:
0 Ohio
1 Ohio
2 Ohio
3 Nevada
4 Nevada
5 Nevada
Name: year, dtype: object