1. 程式人生 > >Python常見庫Numpy、Pandas函式使用匯總

Python常見庫Numpy、Pandas函式使用匯總

      'first'      按值在原始資料中出現的順序排名

  C.DataFrame

    DataFrame是一個表格型的資料結構,它含有一組有序的列,每列可以是不同的值型別(數值、字串、布林值等)。DataFrame既有行索引也有列索引,它可以被看做由Series組成的字典(共用同一個索引)。

    DataFrame可以通過類似字典的方式或者.columnname的方式將列獲取為一個Series。行也可以通過位置或名稱的方式進行獲取。

    為不存在的列賦值會建立新列。

    >>> del frame['xxx']  # 刪除列

屬性說明
valuesDataFrame的值
index行索引
index.name行索引的名字
columns列索引
columns.name列索引的名字
ix返回行的DataFrame
ix[[x,y,...], [x,y,...]]對行重新索引,然後對列重新索引
Tframe行列轉置

2.2.C.1 DataFrame常用屬性

函式說明

DataFrame(dict, columns=dict.index, index=[dict.columnnum])

DataFrame(二維ndarray)

DataFrame(由陣列、列表或元組組成的字典)

DataFrame(NumPy的結構化/記錄陣列)

DataFrame(由Series組成的字典)

DataFrame(由字典組成的字典)

DataFrame(字典或Series的列表)

DataFrame(由列表或元組組成的列表)

DataFrame(DataFrame)

DataFrame(NumPy的MaskedArray)

構建DataFrame

資料矩陣,還可以傳入行標和列標

每個序列會變成DataFrame的一列。所有序列的長度必須相同

類似於“由陣列組成的字典”

每個Series會成為一列。如果沒有顯式制定索引,則各Series的索引會被合併成結果的行索引

各內層字典會成為一列。鍵會被合併成結果的行索引。

各項將會成為DataFrame的一行。索引的並集會成為DataFrame的列標。

類似於二維ndarray

沿用DataFrame

類似於二維ndarray,但掩碼結果會變成NA/缺失值

df.reindex([x,y,...], fill_value=NaN, limit)

df.reindex([x,y,...], method=NaN)

df.reindex([x,y,...], columns=[x,y,...],copy=True)

返回一個適應新索引的新物件,將缺失值填充為fill_value,最大填充量為limit

返回適應新索引的新物件,填充方式為method

同時對行和列進行重新索引,預設複製新物件。

df.drop(index, axis=0)丟棄指定軸上的指定項。
排序函式說明

df.sort_index(axis=0, ascending=True)

df.sort_index(by=[a,b,...])

根據索引排序
彙總統計函式說明
df.count()非NaN的數量
df.describe()一次性產生多個彙總統計

df.min()

df.min()

最小值

最大值

df.idxmax(axis=0, skipna=True)

df.idxmin(axis=0, skipna=True)

返回含有最大值的index的Series

返回含有最小值的index的Series

df.quantile(axis=0)計算樣本的分位數

df.sum(axis=0, skipna=True, level=NaN)

df.mean(axis=0, skipna=True, level=NaN)

df.median(axis=0, skipna=True, level=NaN)

df.mad(axis=0, skipna=True, level=NaN)

df.var(axis=0, skipna=True, level=NaN)

df.std(axis=0, skipna=True, level=NaN)

df.skew(axis=0, skipna=True, level=NaN)

df.kurt(axis=0, skipna=True, level=NaN)

df.cumsum(axis=0, skipna=True, level=NaN)

df.cummin(axis=0, skipna=True, level=NaN)

df.cummax(axis=0, skipna=True, level=NaN)

df.cumprod(axis=0, skipna=True, level=NaN)

df.diff(axis=0)

df.pct_change(axis=0)

返回一個含有求和小計的Series

返回一個含有平均值的Series

返回一個含有算術中位數的Series

返回一個根據平均值計算平均絕對離差的Series

返回一個方差的Series

返回一個標準差的Series

返回樣本值的偏度(三階距)

返回樣本值的峰度(四階距)

返回樣本的累計和

返回樣本的累計最大值

返回樣本的累計最小值

返回樣本的累計積

返回樣本的一階差分

返回樣本的百分比數變化

計算函式說明 

df.add(df2, fill_value=NaN, axist=1)

df.sub(df2, fill_value=NaN, axist=1)

df.div(df2, fill_value=NaN, axist=1)

df.mul(df2, fill_value=NaN, axist=1)

元素級相加,對齊時找不到元素預設用fill_value 

元素級相減,對齊時找不到元素預設用fill_value 

元素級相除,對齊時找不到元素預設用fill_value 

元素級相乘,對齊時找不到元素預設用fill_value 

df.apply(f, axis=0)將f函式應用到由各行各列所形成的一維陣列上
df.applymap(f)將f函式應用到各個元素上
df.cumsum(axis=0, skipna=True)累加,返回累加後的dataframe

2.2.C.2 Dataframe常用函式

索引方式說明
df[val]選取DataFrame的單個列或一組列
df.ix[val]選取Dataframe的單個行或一組行
df.ix[:,val]選取單個列或列子集
df.ix[val1,val2]將一個或多個軸匹配到新索引
reindex方法將一個或多個軸匹配到新索引
xs方法根據標籤選取單行或者單列,返回一個Series
icol、irow方法根據整數位置選取單列或單行,並返回一個Series
get_value、set_value根據行標籤和列標籤選取單個值

2.2.C.3 Dataframe常用索引方式

    運算:

      預設情況下,Dataframe和Series之間的算術運算會將Series的索引匹配到的Dataframe的列,沿著列一直向下傳播。若索引找不到,則會重新索引產生並集。

  D.Index

    pandas的索引物件負責管理軸標籤和其他元資料(比如軸名稱等)。構建Series或DataFrame時,所用到的任何陣列或其他序列的標籤都會被轉換成一個Index。Index物件不可修改,從而在多個數據結構之間安全共享。


主要的Index物件說明
Index最廣泛的Index物件,將軸標籤表示為一個由Python物件組成的NumPy陣列
Int64Index針對整數的特殊Index
MultiIndex“層次化”索引物件,表示單個軸上的多層索引。可以看做由元組組成的陣列
DatetimeIndex儲存納秒級時間戳(用NumPy的Datetime64型別表示)
PeriodIndex針對Period資料(時間間隔)的特殊Index

相關推薦

Python常見NumpyPandas函式使用匯

      'first'      按值在原始資料中出現的順序排名  C.DataFrame    DataFrame是一個表格型的資料結構,它含有一組有序的列,每列可以是不同的值型別(數值、字串、布林值等)。DataFrame既有行索引也有列索引,它可以被看做由Series組成的字典(共用同一個索引)。 

python資料處理numpypandas陣列操作

1.numpy 1.1陣列行列 import numpy as np data_np=np.array(data) data_col=data_np[:,2:] data_row=data_np[] 1.2陣列拼接 按列拼接 data_cat_

Python擴充套件numpy中where()函式的三種用法 Python擴充套件numpy中where()函式的三種用法

原 Python擴充套件庫numpy中where()函式的三種用法 2018年06月25日 07:43:56 Python_小屋 閱讀數:1000

Ubuntu18.04下安裝機器學習相關Python第三方numpy,scipy,pandas,matplotlib

本文主要講述在ubuntu18.04下是如何安裝numpy,scipy,pandas,matplotlib的 一、numpy        NumPy(Numeric Python)是用Python進行科學計算的基本軟體包。 NumPy是Pytho

Python資料探勘課程 六.NumpyPandas和Matplotlib包基礎知識

        前面幾篇文章採用的案例的方法進行介紹的,這篇文章主要介紹Python常用的擴充套件包,同時結合資料探勘相關知識介紹該包具體的用法,主要介紹Numpy、Pandas和Matplotlib三個包。目錄:         一.Python常用擴充套件包  

Python常用模組(timenumpypandasmatplotlib)之簡單使用

一、time模組 常用的一種獲取當前時間以及格式化模組,模組名稱:time 匯入方式:import time 1. 時間元祖屬性 2. 常用方法 3. 使用 3.1 導包 import time 3.

windows下安裝python及第三方numpyscipymatplotlib終極版

一、python安裝        進入python官網https://www.python.org/,點選Downloads--Windows下載對應的python2.7或者3.6。 下載點選安裝,預設安裝位置是C盤根目錄C:\,如果C盤空間夠用,不建議換目錄,按照

Python:基本運算基本函式(包括複數)Math模組NumPy模組

基本運算 x**2 : x^2 若x是mat矩陣,那就表示x內每個元素求平方 inf:表示正無窮 邏輯運算子:and,or,not 基本函式 字典的get方法 a.get(k,d) get相當於一條if…else…語句。若k在字典a中,

Python資料探勘課程】六.NumpyPandas和Matplotlib包基礎知識

        前面幾篇文章採用的案例的方法進行介紹的,這篇文章主要介紹Python常用的擴充套件包,同時結合資料探勘相關知識介紹該包具體的用法,主要介紹Numpy、Pandas和Matplotlib三

Python資料分析模組安裝---NumpyPandasMatplotlib

如果是沒有python基礎的同學,建議可以直接下載安裝 anaconda,裡面已經集成了各種資料分析所需模組,這裡不做贅述。 下載地址:https://www.continuum.io/downloads/ 下面來介紹用python安裝以及利用python的pip安裝各個

Python資料科學知識體系【 NumpyPandasMatplotlib 】

以簡單、直觀、清晰的思維導圖方式,幫助大家學習和回顧Python資料科學知識體系,原創作者是個萌妹紙。 Numpy (一) Numpy (二) Numpy (三) Pandas (資料結構) Pandas (索引物件) Pandas (

NumPyPandasMatplotlib scipy機器學習安裝

       NumPy系統是Python的一種開源的數值計算擴充套件。這種工具可用來儲存和處理大型矩陣,比Python自身的巢狀列表(nested list structure)結構要高效的多(該結構

PythonNumpy的argpartition函式淺析

最近在研究用Python實現K鄰近演算法的KD樹,發現一個奇怪的現象,就是為什麼沒有在網上搜到關於numpy的argpartition的任何中文的文章。難道是我搜索方法有問題嗎?所以自己寫一篇簡單的文章說說這個有意思的函式。 這個函式有什麼用呢?我舉幾個例子,

Python安裝numpypandasmatplotlib等第三方包

首先開啟cmd,然後進入pip.exe所在的scripts路徑。安裝順序就是numpy,Scipy,matplotlib,sklearn。首先是更新一下pip (確保pip能使用)然後將setuptools, numpy, python-dateutil, pytz, pyp

Ubuntu16.04安裝Python的資料分析numpypandas,scipy,matplotlib

1. 安裝依賴庫 sudo apt-get install python-dev 2. 使用pip方式安裝 sudo pip install numpy sudo pip install scipy sudo pip install pandas sudo pi

numpypandasscipy介紹

https://blog.csdn.net/LOLITA0164/article/details/80195124 numpy簡介NumPy(Numeric Python)是一個Python包。它是一個由多維陣列物件和用於處理陣列的例程集合組成的庫。Numeric,即NumPy的前身,是由Jim Hugun

Python機器學習Numpy, Scipy, Pandas, Scikit-learn, Matplotlib, Keras, NN速查手冊

Python機器學習Numpy, Scipy, Pandas, Scikit-learn, Matplotlib, Keras, NN速查手冊   Numpy SciPy Scikit-Learn Pandas Keras Matp

python 擴充套件 numpy

np.newaxis 用於在指定的維度上增加陣列的維度。通俗的講,每往尾部加一個np.newaxis,就多給最內層元素增加一對[ ] >>> a=np.random.randint(0,5,6) >>> a array([0, 0, 4, 1, 4

python-for迴圈語句range()函式

1.for迴圈 2.range 1.for迴圈 for 迴圈的語法: for 變數 in range(10): #迴圈0-9次 迴圈需要執行的程式碼 else: 迴圈結束時需要執行的程式碼 2.range()函式: range(stop): 0~stop-1 r

python中的numpypandas---機器學習實戰第一篇KNN

http://www.cnblogs.com/prpl/p/5537417.html 熟悉其基本操作 from numpy import * import operator def data(): datas = array([[1.0,1.1],[1.0,1.0],[0,0]