pandas縱向學習之10 minutes to pandas（三）

阿新 • • 發佈：2018-11-14

操作

數學統計

df.mean() #檢視每列的平均值
df.mean(1) #檢視每行的平均值

#每一行減去一列數
s = pd.Series([1,3,5,np.nan,6,8], index=dates).shift(2)
s
df.sub(s, axis='index')
A	B	C	D	F
2013-01-01	NaN	NaN	NaN	NaN	NaN
2013-01-02	NaN	NaN	NaN	NaN	NaN
2013 
-01-03	-1.158085	-1.262675	-1.465764	-6.0	-3.0
2013-01-04	-3.679138	-3.191328	-4.159281	-8.0	-6.0
2013-01-05	-5.007158	-6.672655	-5.091954	-10.0	-9.0
2013-01-06	NaN	NaN	NaN	NaN	NaN

應用函式

#對每一列應用累計函式
df.apply(np.cumsum)
	A	B	C	D	F
2013-01-01	-0.001431	-0.908440	-0.851724	-5	NaN
2013-01-02	-1.093717	-2.312200	-1.815194	-10	-1.0
2013-01-03	- 
1.251802	-2.574875	-2.280958	-15	-3.0
2013-01-04	-1.930940	-2.766203	-3.440239	-20	-6.0
2013-01-05	-1.938097	-4.438858	-3.532193	-25	-10.0
2013-01-06	-2.051573	-4.438876	-5.427721	-30	-15.0

#每一列的極差
df.apply(lambda x: x.max()-x.min())
A    1.090854
B    1.672638
C    1.803573
D    0.000000
F    4.000000
dtype: float64

數量統計

#統計每一種元素各出現了幾次 

s = pd.Series(np.random.randint(0, 7, size=10))
s
0    2
1    0
2    4
3    5
4    0
5    2
6    6
7    3
8    3
9    5
dtype: int32
s.value_counts()
5    2
3    2
2    2
0    2
6    1
4    1
dtype: int64

字串方法

df.str.lower()	#小寫
df.str.upper()

合併

concat方法

df = pd.DataFrame(np.random.randn(10, 4))
pieces = [df[:3], df[3:7], df[7:]]
pd.concat(pieces)

join方法

比較兩種型別的合併：

left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})
left
	key	lval
0	foo	1
1	foo	2
right
	key	rval
0	foo	4
1	foo	5
pd.merge(left, right, on='key')
key	lval	rval
0	foo	1	4
1	foo	1	5
2	foo	2	4
3	foo	2	5

left = pd.DataFrame({'key': ['foo', 'bar'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'bar'], 'rval': [4, 5]})
left
   key  lval
0  foo     1
1  bar     2
right
   key  rval
0  foo     4
1  bar     5
pd.merge(left, right, on='key')
   key  lval  rval
0  foo     1     4
1  bar     2     5

增加行

df = pd.DataFrame(np.random.randn(8, 4), columns=['A','B','C','D'])
df
A	B	C	D
0	-1.221865	-0.313737	0.813024	-2.067007
1	-0.833239	-1.123765	-0.580756	-1.618360
2	0.780570	0.057091	1.610320	1.198047
3	1.306492	-0.657629	0.946997	0.064994
4	-0.104776	-0.300427	-0.226296	-0.638638
5	-0.215063	-0.443774	1.900574	-0.392732
6	-0.108958	0.813018	-0.316127	-1.677159
7	0.678901	0.164350	-1.391680	0.434714
s = df.iloc[3]\
df.append(s, ignore_index=True)
A	B	C	D
0	-1.221865	-0.313737	0.813024	-2.067007
1	-0.833239	-1.123765	-0.580756	-1.618360
2	0.780570	0.057091	1.610320	1.198047
3	1.306492	-0.657629	0.946997	0.064994
4	-0.104776	-0.300427	-0.226296	-0.638638
5	-0.215063	-0.443774	1.900574	-0.392732
6	-0.108958	0.813018	-0.316127	-1.677159
7	0.678901	0.164350	-1.391680	0.434714
8	1.306492	-0.657629	0.946997	0.064994

分組

    df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
   ....:                           'foo', 'bar', 'foo', 'foo'],
   ....:                    'B' : ['one', 'one', 'two', 'three',
   ....:                           'two', 'two', 'one', 'three'],
   ....:                    'C' : np.random.randn(8),
   ....:                    'D' : np.random.randn(8)})
df
A	B	C	D
0	foo	one	1.981136	1.652507
1	bar	one	2.676476	-1.424416
2	foo	two	-0.975054	-0.711273
3	bar	three	-0.366664	1.363469
4	foo	two	-1.447261	-0.122510
5	bar	two	0.138113	-0.559464
6	foo	one	-1.292988	-0.375974
7	foo	three	-0.533342	1.218957
df.groupby('A').sum()
	C	D
A		
bar	2.447925	-0.620411
foo	-2.267508	1.661708
df.groupby(['A', 'B']).sum()
		C	D
A	B		
bar	one	2.676476	-1.424416
three	-0.366664	1.363469
two	0.138113	-0.559464
foo	one	0.688148	1.276533
three	-0.533342	1.218957
two	-2.422314	-0.833782

重塑

堆疊

In [95]: tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
   ....:                      'foo', 'foo', 'qux', 'qux'],
   ....:                     ['one', 'two', 'one', 'two',
   ....:                      'one', 'two', 'one', 'two']]))
   ....: 

In [96]: index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])

In [97]: df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])

In [98]: df2 = df[:4]

In [99]: df2
Out[99]: 
                     A         B
first second                    
bar   one     0.029399 -0.542108
      two     0.282696 -0.087302
baz   one    -1.575170  1.771208
      two     0.816482  1.100230

In [100]: stacked = df2.stack()

In [101]: stacked
Out[101]: 
first  second   
bar    one     A    0.029399
               B   -0.542108
       two     A    0.282696
               B   -0.087302
baz    one     A   -1.575170
               B    1.771208
       two     A    0.816482
               B    1.100230
dtype: float64

In [102]: stacked.unstack()
Out[102]: 
                     A         B
first second                    
bar   one     0.029399 -0.542108
      two     0.282696 -0.087302
baz   one    -1.575170  1.771208
      two     0.816482  1.100230

In [103]: stacked.unstack(1)
Out[103]: 
second        one       two
first                      
bar   A  0.029399  0.282696
      B -0.542108 -0.087302
baz   A -1.575170  0.816482
      B  1.771208  1.100230

In [104]: stacked.unstack(0)
Out[104]: 
first          bar       baz
second                      
one    A  0.029399 -1.575170
       B -0.542108  1.771208
two    A  0.282696  0.816482
       B -0.087302  1.100230

資料透視表

In [105]: df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3,
   .....:                    'B' : ['A', 'B', 'C'] * 4,
   .....:                    'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
   .....:                    'D' : np.random.randn(12),
   .....:                    'E' : np.random.randn(12)})
   .....: 

In [106]: df
Out[106]: 
        A  B    C         D         E
0     one  A  foo  1.418757 -0.179666
1     one  B  foo -1.879024  1.291836
2     two  C  foo  0.536826 -0.009614
3   three  A  bar  1.006160  0.392149
4     one  B  bar -0.029716  0.264599
5     one  C  bar -1.146178 -0.057409
6     two  A  foo  0.100900 -1.425638
7   three  B  foo -1.035018  1.024098
8     one  C  foo  0.314665 -0.106062
9     one  A  bar -0.773723  1.824375
10    two  B  bar -1.170653  0.595974
11  three  C  bar  0.648740  1.167115

#資料透視表
In [107]: pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])
Out[107]: 
C             bar       foo
A     B                    
one   A -0.773723  1.418757
      B -0.029716 -1.879024
      C -1.146178  0.314665
three A  1.006160       NaN
      B       NaN -1.035018
      C  0.648740       NaN
two   A       NaN  0.100900
      B -1.170653       NaN
      C       NaN  0.536826

pandas縱向學習之10 minutes to pandas（一）

10mins官方文件 10 Minutes to pandas 必要的庫匯入： import pandas as pd import numpy as np import matplotlib.pyplot as plt 建立物件 pandas常用資料

pandas縱向學習之10 minutes to pandas（四）

時間序列 resample函式的用法： In [14]: rng = pd.date_range('1/1/2012', periods=100, freq='S') In [15]: ts = pd.Series(np.random.randint(0, 500, len(rn

pandas縱向學習之10 minutes to pandas（三）

pandas縱向學習之10 minutes to pandas（二） pandas縱向學習之10 minutes to pandas（一）操作數學統計 df.mean() #檢視每列的平均值 df.mean(1) #檢視每行的平均值 #每一行減去一列

pandas縱向學習之10 minutes to pandas（二）

pandas縱向學習之10 minutes to pandas（一）布林值索引 df[df.A>0] A B C D 2013-01-02 0.356680 -0.468280 1.293093 -0.752251 2013-01-03 1.179930

panda縱向學習之10 minutes to pandas（一）

10 Minutes to pandas 必要的庫匯入： import pandas as pd import numpy as np import matplotlib.pyplot as plt

機器學習之支持向量機（三）：核函數和KKT條件的理解

麻煩 ron 現在調整所有核函數多項式 err ges 註：關於支持向量機系列文章是借鑒大神的神作，加以自己的理解寫成的；若對原作者有損請告知，我會及時處理。轉載請標明來源。序：我在支持向量機系列中主要講支持向量機的公式推導，第一部分講到推出拉格朗日對偶函數的對

機器學習之貝葉斯網路（三）

引言　　貝葉斯網路是機器學習中非常經典的演算法之一，它能夠根據已知的條件來估算出不確定的知識，應用範圍非常的廣泛。貝葉斯網路以貝葉斯公式為理論接觸構建成了一個有向無環圖，我們可以通過貝葉斯網路構建的圖清晰的根據已有資訊預測未來資訊。貝葉斯網路適用於表達和分析不確定性和概率性的事件，應用於有條件地依賴多種控

機器學習之決策樹 Decision Tree（三）scikit-learn演算法庫

1、scikit-learn決策樹演算法類庫介紹 scikit-learn決策樹演算法類庫內部實現是使用了調優過的CART樹演算法，既可以做分類，又可以做迴歸。分類決策樹的類對應的是DecisionTreeClassifier，而回歸決策樹的類對應的是D

Spring Boot學習之Spring Boot的核心（三）

1、Spring Boot的專案一般都會有*Application的入口類，入口類中會有main方法，這是一個標準的Java應用程式的入口方法。 @SpringBootApplication註解是Spring Boot的核心註解，它其實是一個組合註解：下面我們

Spring原始碼學習之路---IOC實現原理（三）

原文地址：https://blog.csdn.net/zuoxiaolong8810/article/details/8548478 上一章我們已經初步認識了BeanFactory和BeanDefinition，一個是IOC的核心工廠介面，一個是IOC的be

【python】10 Minutes to pandas

1 Object Creation（建立物件） 1.1 Series 給 list 建立預設索引 import pandas as pd import numpy as np s = pd.Series

python機器學習之10分鐘掌握pandas

微信公眾號：資料探勘與分析學習 1.建立物件通過傳遞值列表來建立Series，讓pandas建立一個預設的整數索引：通過傳遞帶有日期時間索引和標記列的NumPy陣列來建立DataFrame：通過傳遞可以轉換為類似series的物件的dict來建立Data

MQTT的學習之Mosquitto發布-訂閱（2）

creat 訂閱模式 pub 測試方法 ssa clientm art ble 在《MQTT的學習之Mosquitto安裝&使用（1）》一文末尾，我已經模擬了發布-訂閱模式，只是那時在服務器直接模擬的，並不是java代碼模擬的。下面貼出Java代碼 1、首先引入依

機器學習之SVM初解與淺析（一）:最大距離

機器學習 svm 最大距離 2 / ||w|| 這段時間在看周誌華大佬的《機器學習》，在看書的過程中，有時候會搜搜其他人寫的文章，對比來講，周教授講的內容還是比較深刻的，但是前幾天看到SVM這一章的時候，感覺甚是晦澀啊，第一感覺就是比較抽象，特別是對於像本人這種I

機器學習之SVM初解與淺析（一）:

機器學習 svm 最大距離 2 / ||w||sdsshngshan‘gccha 這段時間在看周誌華大佬的《機器學習》，在看書的過程中，有時候會搜搜其他人寫的文章，對比來講，周教授講的內容還是比較深刻的，但是前幾天看到SVM這一章的時候，感覺甚是晦澀啊，第一感覺就

java基礎知識學習--------之枚舉類型（1）

blog 枚舉類型 csdn 相同名稱枚舉類 java string pac 枚舉類型的概念： 1 /** 2 * 目的:枚舉類型 3 * @author chenyanlong 4 * 日期:2017/10/22 5 * 網址:http://blo

【java】java學習之路-01-Linux基礎（一）

x文件字母 at命令超過用戶登錄創建刪除軟連接 nbsp tail linux學習方法：你的程序要在服務器（linux）上執行，服務器沒有桌面系統，學習linux就是學習命令。一、Linux介紹 1、芬蘭大學生，名字叫Linux，因為個人興趣，編寫了一個類Un

機器學習之支持向量機（一）：支持向量機的公式推導

根據監督式 art 通用利用哪些這就是在線方法註：關於支持向量機系列文章是借鑒大神的神作，加以自己的理解寫成的；若對原作者有損請告知，我會及時處理。轉載請標明來源。序：我在支持向量機系列中主要講支持向量機的公式推導，第一部分講到推出拉格朗日對偶函數的對偶因

vue學習之路 - 4.基本操作（下）

align 過去開始就會 binding 效果不可 exp 功能 vue學習之路 - 4.基本操作（下）簡述：本章節主要介紹 vue 的一些其他常用指令。 Vue 指令　　這裏將 vue 的指令分為系統內部指令（vue 自帶指令）和用戶自定義指令兩種。系統內部指

機器學習之支持向量機（四）

應用問題計算過程非線性簡單常熟一段約束有關引言：　　SVM是一種常見的分類器，在很長一段時間起到了統治地位。而目前來講SVM依然是一種非常好用的分類器，在處理少量數據的時候有非常出色的表現。SVM是一個非常常見的分類器，在真正了解他的原理之前我們多多少少

pandas縱向學習之10 minutes to pandas（三）

操作

數學統計

應用函式

數量統計

字串方法

合併

concat方法

join方法

增加行

分組

重塑

堆疊

資料透視表

相關推薦