小白學 Python 資料分析(3):Pandas (二)資料結構 Series
在家為國家做貢獻太無聊,不如跟我一起學點 Python
順便問一下,你們都喜歡什麼什麼樣的文章封面圖,老用這一張感覺有點醜
人生苦短,我用 Python
前文傳送門:
小白學 Python 資料分析(1):資料分析基礎
小白學 Python 資料分析(2):Pandas (一)概述
引言
先介紹下 Pandas 的資料結構,畢竟資料結構是萬物的基礎。
Pandas 有兩種主要的資料結構: Series 和 DataFrame ,本文就先介紹第一種 Series 。
模組匯入
首先我們在程式碼中引入 Pandas 和 Numpy ,如下:
import numpy as np import pandas as pd
Series
Series 可以簡單的理解為一維陣列,可以儲存整數、浮點數、字串、Python 物件等型別的資料。
這個概念有點像 Java 中的集合。
如果無法理解的話,那麼可以看下面這個圖(Excel 簡單畫畫,靈魂畫手登場):
這裡的 data 可以是上面提到的那些資料型別,並不僅限於圖中的整數。
如果 index 的值未指定,那麼將會自動的建立數值型別的索引,從 0 開始,例如:0 , 1 , 2, 3 ... len(data) - 1 。
建立一個 Series ,這裡我們可以使用 pd.Series 函式來建立,如下:
s = pd.Series(np.random.rand(5), index=['a', 'b', 'c', 'd', 'e']) print(s) print(s.index) s1 = pd.Series(np.random.randn(5)) print(s1)
結果如下:
a 0.218164
b 0.153201
c 0.572437
d 0.142784
e 0.710664
dtype: float64
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
0 0.255452
1 1.354357
2 2.092490
3 0.353899
4 1.692989
dtype: float64
從上面我們可以看到,如果我們手動指定了索引,那麼將會按照我們指定的索引進行建立,如果沒有指定會直接使用數值索引。
注意: 如果我們手動指定索引,索引的長度必須與資料的長度一致。如果不一致,將會丟擲 ValueError 的異常,如下:
s = pd.Series(np.random.rand(6), index=['a', 'b', 'c', 'd', 'e'])
異常部分內容:
ValueError: Length of passed values is 6, index implies 5
字典例項化
Series 是可以使用字典進行例項化的,示例如下:
d = {'b': 1, 'a': 0, 'c': 2}
s2 = pd.Series(d)
print(s2)
結果如下:
b 1
a 0
c 2
dtype: int64
注意: 當我們使用的 data 為字典的時候,且未設定 index 引數時,如果 Python 版本 >= 3.6 且 Pandas 版本 >= 0.23, Series 按字典的插入順序排序索引。Python < 3.6 或 Pandas < 0.23,且未設定 index 引數時, Series 按字母順序排序字典的鍵(key)列表。
在上面的這個示例中,如果當前的環境 Python < 3.6 或 Pandas < 0.23, Series 將會按照字母的順序進行排序,而不是當前字典的順序,輸出的結果將會是 ['a', 'b', 'c']
。
同時,如果我們在使用字典做 data 的時候,同樣可以設定索引,這樣將會按照索引來提取 data 中對應的值,如果索引在 data 中無對應,將會使用 NaN 來表示缺失的資料,示例如下:
s3 = pd.Series(d, index=['b', 'c', 'd', 'a'])
print(s3)
結果如下:
b 1.0
c 2.0
d NaN
a 0.0
dtype: float64
標量值例項化
data 還支援標量值進行例項化,當 data 是標量值的時候,例項化 Series 的時候必須提供索引, Series 將會按照索引的長度重複這個標量值,如下:
s4 = pd.Series(5., index=['a', 'b', 'c', 'd', 'e'])
print(s4)
結果如下:
a 5.0
b 5.0
c 5.0
d 5.0
e 5.0
dtype: float64
基於索引的操作方式
print(s[0])
print(s[:3])
print(s[s > s.median()])
print(s[[4, 3, 1]])
結果如下:
0.481205137399224
a 0.481205
b 0.045604
c 0.108321
dtype: float64
d 0.495208
e 0.817171
dtype: float64
e 0.817171
d 0.495208
b 0.045604
dtype: float64
同時, Series 還支援通過索引標籤進行設定值或者是取值,如下:
print(s['a'])
s['e'] = 12.
print(s)
結果如下:
0.481205137399224
a 0.481205
b 0.045604
c 0.108321
d 0.495208
e 12.000000
dtype: float64
如果直接使用 Series 中沒有的索引標籤,會丟擲 KeyError 異常:
# 丟擲 KeyError 異常
# print(s['f'])
我們可以通過 in
來判斷當前的 Series 中有沒有含有索引標籤,如下:
print('e' in s)
print('f' in s)
結果如下:
True
False
可以通過 get 這個方法獲取 Series 沒有的索引標籤,同時可以設定返回的預設值:
print(s.get('f'))
print(s.get('f', np.nan))
結果如下:
None
nan
常用方法
# 列印 e 的冪次方, e 是一個常數為 2.71828
print (np.exp(s))
# 列印 s 裡每個元素的開方
print (np.sqrt(s))
print(s.dtype)
print(s.array)
print(s.to_numpy())
結果如下:
a 1.618023
b 1.046659
c 1.114406
d 1.640840
e 2.264085
dtype: float64
a 0.693690
b 0.213550
c 0.329122
d 0.703711
e 0.903975
dtype: float64
float64
<PandasArray>
[ 0.481205137399224, 0.04560362121419126, 0.10832121726528887,
0.49520848929233285, 0.8171705710254773]
Length: 5, dtype: float64
[0.48120514 0.04560362 0.10832122 0.49520849 0.81717057]
從上面的示例中可以看到,當使用 Series 做一些算數運算的時候,是不需要迴圈 Series 中每個值的。
注意: Series 之間的操作會自動基於標籤對齊資料。
print(s[1:] + s[:-1])
結果如下:
a NaN
b 0.091207
c 0.216642
d 0.990417
e NaN
dtype: float64
操作未對齊索引的 Series, 其計算結果是所有涉及索引的並集。如果在 Series 裡找不到標籤,運算結果標記為 NaN
,即缺失值。
名稱屬性
Series 支援 name
屬性,我們可以給我們自己定義的 Series 起一個自己喜歡的名字:
s5 = pd.Series(np.random.randn(5), name='my_series')
print(s5)
print(s5.name)
print(id(s5))
結果如下:
0 0.491450
1 0.939965
2 0.868437
3 -0.099575
4 1.866875
Name: my_series, dtype: float64
my_series
1492397351368
這裡小編順手使用 id 方法列印一下 s5 的記憶體地址。
同樣, Series 為我們提供了重新命名的方法 rename()
:
# 重新命名 series
s6 = s5.rename("my_series_different")
print(id(s6))
結果如下:
1492397351368
0 0.491450
1 0.939965
2 0.868437
3 -0.099575
4 1.866875
Name: my_series_different, dtype: float64
1492400065800
對比上下兩個 s5 和 s6 可以看到,這兩個 Series 具有相同的 data 內容, name 屬性並不相同。
但是,有一點要注意的是: s5 和 s6 是兩個不同的物件,這裡列印的記憶體地址不同也說明了這一點,這裡實際上並不是將 s5 的 name 修改了一下,而是新建了一個新的物件並使用了新的 name 屬性。
示例程式碼
老規矩,所有的示例程式碼都會上傳至程式碼管理倉庫 Github 和 Gitee 上,方便大家取用。
示例程式碼-Github
示例程式碼-Gitee
參考
https://www.pypandas.cn/docs/getting_started/dsintro.html