1. 程式人生 > >pandas之DataFrame常用方法

pandas之DataFrame常用方法

1 簡介

DataFrame是Python中Pandas庫中的一種資料結構,它類似excel,是一種二維表

或許說它可能有點像matlab的矩陣,但是matlab的矩陣只能放數值型值(當然matlab也可以用cell存放多型別資料),DataFrame的單元格可以存放數值、字串等,這和excel表很像。

同時DataFrame可以設定列名columns與行名index,可以通過像matlab一樣通過位置獲取資料也可以通過列名和行名定位,具體方法在後面細說。

2 建立DataFrame

首先宣告一下,以下都是使用的Python 3.6.5版本為例,Python2應該也差不多吧(大概

在所有操作之前當然要先import必要的pandas庫,因為pandas常與numpy一起配合使用,所以也一起import吧。

import pandas as pd
import numpy as np

如果還沒安裝直接在cmd裡pip安裝吧,如果有版本選擇問題,參看之前的帖子。

pip install pandas
pip install numpy

2.1 直接建立

可以直接使用pandas的DataFrame函式建立,比如接下來我們隨機建立一個4*4的DataFrame。

df1=pd.DataFrame(np.random.randn(4,4),index=list('ABCD'),columns=list('ABCD'))

其中第一個引數是存放在DataFrame裡的資料,第二個引數index就是之前說的行名(或者應該叫索引?),第三個引數columns是之前說的列名。

後兩個引數可以使用list輸入,但是注意,這個list的長度要和DataFrame的大小匹配,不然會報錯。當然,這兩個引數是可選的,你可以選擇不設定。

而且發現,這兩個list是可以一樣的,但是每行每列的名字在index或columns裡要是唯一的。

使用python自己的shell展示建立的結果是這樣的:

或者在jupyter裡面更酷點的樣子,接下來都使用jupyter輸出展示吧。

當然,如果你的資料量賊小,也可以自己輸入建立,類似這樣。

df2=pd.DataFrame([[1,2,3,4],[2,3,4,5],
                  [3,4,5,6],[4,5,6,7]],
                 index=list('ABCD'),columns=list('ABCD'))

這樣也可以得到這樣子的DataFrame:

2.2 使用字典建立

仍然是使用DataFrame這個函式,但是字典的每個key的value代表一列,而key是這一列的列名。比如這樣。

dic1={'name':['小明','小紅','狗蛋','鐵柱'],'age':[17,20,5,40],'gender':['男','女','女','男']}
df3=pd.DataFrame(dic1)

輸出結果是這樣的

3 檢視與篩選資料

python沒有matlab的工作區直接檢視變數與內容,這大概是python科學計算的一個缺點。所以需要格外的程式碼來檢視,最基本的直接寫變數名與print就不說了。

3.1 檢視列的資料型別

使用dtypes方法可以檢視各列的資料型別,比如說剛剛的df3。

df3.dtypes

輸出的結果是這樣:

3.2 檢視DataFrame的頭尾

使用head可以檢視前幾行的資料,預設的是前5行,不過也可以自己設定。

使用tail可以檢視後幾行的資料,預設也是5行,引數可以自己設定。

比如隨意設定一個6*6的資料,只看前5行。

df4=pd.DataFrame(np.random.randn(6,6))
df4.head()

比如只看前3行。

df4.head(3)

比如看後5行。

df4.tail()

比如只看後2行。

df4.tail(2)

3.3 檢視行名與列名

使用index檢視行名,columns檢視列名。具體由例子感受吧。

檢視行名。

df1.index

檢視列名。

df3.columns

3.4 檢視資料值

使用values可以檢視DataFrame裡的資料值,返回的是一個數組。

比如說檢視所有的資料值。

df3.values

比如說檢視某一列所有的資料值。

df3['name'].values

還有另一種操作,使用loc或者iloc檢視資料值(但是好像只能根據行來檢視?)。區別是loc是根據行名,iloc是根據數字索引(也就是行號)。

比如說這樣。

df1.loc['A']

或者這樣。

df1.iloc[0]

按列進行索引檢視資料還能直接使用列名,但這種方法對行索引不適用。

df3['name']

3.5 檢視行列數

使用shape檢視行列數,引數為0表示檢視行數,引數為1表示檢視列數。

df3.shape[0]

df3.shape[1]

4 基本操作

DataFrame有些方法可以直接進行資料統計,矩陣計算之類的基本操作。

4.1 轉置

直接字母T,線性代數上線。

比如說把之前的df2轉置一下。

df3.T

4.2 描述性統計

使用describe可以對資料根據列進行描述性統計。

比如說對df1進行描述性統計。

df1.describe()

如果有的列是非數值型的,那麼就不會進行統計。

如果想對行進行描述性統計,請參看4.1(轉置後進行describe呀!)

4.3 計算

使用sum預設對每列求和,sum(1)為對每行求和。比如

df3.sum()

可以發現就算元素是字串,使用sum也會加起來。

df3.sum(1)

而一行中,有字串有數值則只計算數值。

數乘運算使用apply,比如。

df2.apply(lambda x:x*2)

如果元素是字串,則會把字串再重複一遍。

乘方運算跟matlab類似,直接使用兩個*,比如。

df2**2

乘方運算如果有元素是字串的話,就會報錯。

4.4 新增

擴充列可以直接像字典一樣,列名對應一個list,但是注意list的長度要跟index的長度一致

df2['E']=['999','999','999','999']
df2

還可以使用insert,使用這個方法可以指定把列插入到第幾列,其他的列順延。

df2.insert(0,'F',[888,888,888,888])
df2

4.5 合併

使用join可以將兩個DataFrame合併,但只根據行列名合併,並且以作用的那個DataFrame的為基準。如下所示,新的df7是以df2的行號index為基準的。

df6=pd.DataFrame(['my','name','is','a'],index=list('ACDH'),columns=list('G'))
df6
df7=df2.join(df6)
df7

但是,join這個方法還有how這個引數可以設定,合併兩個DataFrame的交集或並集。引數為'inner'表示交集,'outer'表示並集。

df8=df2.join(df6,how='inner')
df8
df9=df2.join(df6,how='outer')
df9

如果要合併多個Dataframe,可以用list把幾個Dataframe裝起來,然後使用concat轉化為一個新的Dataframe。

df10=pd.DataFrame([1,2,3,4],index=list('ABCD'),columns=['a'])
df11=pd.DataFrame([10,20,30,40],index=list('ABCD'),columns=['b'])
df12=pd.DataFrame([100,200,300,400],index=list('ABCD'),columns=['c'])
list1=[df10.T, df11.T, df12.T]
df13=pd.concat(list1)
df13