1. 程式人生 > >Pandas基礎(一):資料的存取和檢視

Pandas基礎(一):資料的存取和檢視

使用pandas做資料分析,首先匯入pandas庫:

import pandas as pd

pandas的資料結構有兩種:Series和DataFrame。前者可以理解為陣列,後者可以理解為表格。我們主要講解DataFrame。

1.建立DataFrame:
由等長列表構成。包含列名和每行該列的值。

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

輸出為:

   pop   state  year
0  1.5    Ohio  2000
1  1.7    Ohio  2001
2  3.6    Ohio  2002
3  2.4  Nevada  2001
4  2.9  Nevada  2002
5  3.2  Nevada  2003

2.匯入資料:
pandas支援多種文字格式的資料匯入。比如常用的csv,table和excel等。

df = pd.read_csv('ex1.csv')
df = pd.read_table('ex2.tsv')

對於沒有表頭的csv檔案和以特殊字元(比如逗號)分割的table檔案:

df = pd.read_csv('ex1.csv', header=None)
df = pd.read_csv('ex1.tsv', sep=',')

pandas支援的檔案型別如下表:
表1-1 pandas的資料解析函式
3.匯出資料:
使用to_csv方法,可以將資料匯出為以逗號分隔的檔案。

pd.to_cs('example.csv')

也可指定分隔符,比如豎線:

pd.to_cs('example.csv', sep='|')

還有其他屬性,index:是否儲存資料索引,header:是否儲存表頭:

pd.to_cs('example.csv', index=False, header=True)

4.檢視資料:
檢視頭部5行資料和前10行資料

df.head()
df.head(10)

檢視尾部5行資料和最後10行資料

df.tail()
df.tail(10)

還可以用Python的切片檢視資料:

df[:5]    #前5行
df[10:15]    #第11到第15行
df[-3:]    #最後三行

檢視指定列的資料:

df['year']

輸出:

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: year, dtype: object