1. 程式人生 > >python資料分析pandas包入門學習(三)彙總和統計描述

python資料分析pandas包入門學習(三)彙總和統計描述

本文參考《利用Python進行資料分析》的第五章 pandas入門

pandas擁有一組常用的數學和統計方法。它們大部分屬於約簡和彙總統計,用於從Series中提取單個值(如sum和mean),或從DataFrame的行或列中提取一個Series。跟對應的Numpy陣列方法相比,它們都是基於沒有缺失資料的假設而構建的。


idxmin()/idxmax():返回最小值最大值的索引
cumsum():返回列累積和
describe():產生彙總統計


相關係數和協方差corr(), cov() 協方差cov():表示線性相關的方向,取值正無窮到負無窮。協方差為正值,說明一個變數變大另一個變數也變大;協方差取負值,說明一個變數變大另一個變數變小,取0說明兩個變數咩有相關關係。 相關係數corr():不僅表示線性相關的方向,還表示線性相關的程度,取值[-1,1]。也就是說,相關係數為正值,說明一個變數變大另一個變數也變大;取負值說明一個變數變大另一個變數變小,取0說明兩個變數沒有相關關係。同時,相關係數的絕對值越接近1,線性關係越顯著。 下圖為計算a列和b列的相關係數corr()和協方差cov():

corrwith():計算DataFrame的列(axis=0,預設)或行(axis=1)跟另外一個Series或DataFrame之間的相關係數:
唯一值、值計數以及成員資格 unique():得到Series中的唯一值數值:
value_counts():計算一個Series中各值出現的頻率(預設降序排列):
isin():判斷成員資格,用於選取Series中或DataFrame列中資料的子集: