1. 程式人生 > >python之pandas核心函數

python之pandas核心函數

ria 特定 cor strong 取數據 col none lse 命名

Pandas的23種核心函數:
import pandas as pd

基礎數據集操作
(1)讀取CSV文件
pd.DataFrame.from_csv("csv_file")
或者
pd.read_csv("csv_file")

(2)讀取Excel文件
pd.read_excel("excel_file")

(3)將DataFrame寫入CSV
df.to_csv("data_csv", sep=",", index=False) #采用逗號分隔,且不帶索引

(4)基本的數據集特征信息
df.info()

(5)數據集統計
print (df.describe())

(6)將DataFrame輸出到一張表裏


print (tabulate(print_table, headers=headers))
#其中print_table為二維列表,headers為表頭字符串組成的列表

(7)列出所有列名
df.columns

基礎數據處理
(8)刪除缺失數據
df.dropna(axis=0, how=‘any‘)
#any表示刪除包含任何NaN值的給定軸,how=all會刪除所有元素都是NaN的給定軸

(9)替換缺失數據
df.replace(to_replace=None, value=None) #用value替換to_replace

(10)檢查空值NaN
pd.isnull(object) #數值組中的NaN和目標數組中的None/NaN

(11)刪除特征


df.drop(‘feature_variable_name‘, axis=1) #axis選0表示行,選1表示列

(12)將目標類型轉換為浮點型
pd.to_numeric(df["feature_name"], errors="coerce")

(13)將DataFrame轉換為NumPy數組
df.as_matrix()

(14)取DataFrame的前面n行
df.head(n)

(15)通過特征名取數據
df.loc[feature_name]

DataFrame操作
(16)對DataFrame使用函數
df["height"].apply(*lambda* height: 2*height) #將height行的所有值乘上2

def multiply(x):
return x*2
df["height"].apply(multiply)

(17)重命名行
df.rename(columns={df.columns[2]:‘size‘}, inplace=True)

(18)取某一行的唯一實體
df["name"].unique()

(19)訪問子DataFrame
new_df = df[["name","size"]]

(20)總結數據信息
df.sum()
df.min()
df.max()
df.idxmin()
df.idxmax()
df.describe()
df.mean()
df.median()
df.corr()
df["size"].median()

(21)給數據排序
df.sort_values(ascending=False)

(22)布爾型索引
df[df["size"] == 5] #過濾名為size的行,並僅顯示值為5的行

(23)選定特定的值
df.loc([0],[‘size‘]) #選定size列/第一行

python之pandas核心函數