《利用Python進行資料分析》筆記---第9章資料聚合與分組運算

阿新 • • 發佈：2019-02-04

寫在前面的話：

還有一定要說明的：

我使用的是Python2.7，書中的程式碼有一些有錯誤，我使用自己的2.7版本調通。

# coding: utf-8
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

df =DataFrame({'key1':['a','a','b','b','a'],'key2':['one','two','one','two','one'],
    'data1':np.random.randn(5),'data2':np.random.randn(5 
)})
df
grouped = df['data1'].groupby(df['key1'])
grouped
grouped.mean()
means = df['data1'].groupby([df['key1'],df['key2']]).mean()
means
means.unstack()
states = np.array(['Ohio','California','California','Ohio','Ohio'])
years = np.array([2005,2005,2006,2005,2006])
df['data1'].groupby([states,years]).mean()
df.groupby('key1' 
).mean()
df.groupby(['key1','key2']).mean()
df.groupby(['key1','key2']).size()

for name,group in df.groupby('key1'):
    print name
    print group
for (k1,k2),group in df.groupby(['key1','key2']):
    print k1,k2
    print group
pieces = dict(list(df.groupby('key1')))
pieces['b']
df.dtypes
grouped = df.groupby(df.dtypes,axis = 1 
)
dict(list(grouped))

df.groupby('key1')['data1']
df.groupby('key1')[['data1']]
df.groupby(['key1','key2'])[['data2']].mean()
s_grouped = df.groupby(['key1','key2'])['data2']
s_grouped
s_grouped.mean()

people = DataFrame(np.random.randn(5,5),columns = ['a','b','c','d','e'],index = ['Joe','Steve','Wes','Jim','Travis'])
people.ix[2:3,['b','c']] = np.nan
people
mapping = {'a':'red','b':'red','c':'blue','d':'blue','e':'red','f':'orange'}
by_column = people.groupby(mapping,axis = 1)
by_column.sum()
map_series = Series(mapping)
map_series
people.groupby(map_series,axis = 1).count()

people.groupby(len).sum()
key_list = ['one','one','one','two','two']
people.groupby([len,key_list]).min()

columns = pd.MultiIndex.from_arrays([['US','US','US','JP','JP'],[1,3,5,1,3]],names = ['cty','tenor'])
hier_df = DataFrame(np.random.randn(4,5),columns = columns)
hier_df
hier_df.groupby(level = 'cty',axis = 1).count()
hier_df.groupby(level = 'tenor',axis = 1).count()
hier_df.groupby(level = ['cty','tenor'],axis = 1).count()

df
grouped = df.groupby('key1')
grouped['data1'].quantile(0.9),
def peak_to_peak(arr):
    return arr.max() - arr.min()
grouped.agg(peak_to_peak)
grouped.describe()
tips = pd.read_csv('D:\Source Code\pydata-book-master\ch08\\tips.csv')
tips['tip_pct'] = tips['tip'] / tips['total_bill']
tips.head()
grouped = tips.groupby(['sex','smoker'])
grouped_pct = grouped['tip_pct']
grouped_pct.agg('mean')
grouped_pct.agg(['mean','std',peak_to_peak])
grouped_pct.agg([('foo','mean'),('bar',np.std)])
functions = ['count','mean','max']
result = grouped['tip_pct','total_bill'].agg(functions)
result
result['tip_pct']
ftuples = [('Durchschnitt','mean'),('Abweichung',np.var)]
grouped['tip_pct','total_bill'].agg(ftuples)
grouped.agg({'tip':np.max,'size':sum})
grouped.agg({'tip':['min','max','mean','std'],'size':sum})
tips.groupby(['sex','smoker'],as_index=False).mean()

df
k1_means = df.groupby('key1').mean().add_prefix('mean_')
k1_means
pd.merge(df,k1_means,left_on = 'key1',right_index = True)

people = DataFrame(np.random.randn(5,5),columns = ['a','b','c','d','e'],index = ['Joe','Steve','Wes','Jim','Travis'])
people
key = ['one','two','one','two','one']
people.groupby(key).mean()
people.groupby(key).transform(np.mean)
def demean(arr):
    return arr - arr.mean()
demeaned = people.groupby(key).transform(demean)
demeaned
demeaned.groupby(key).mean()

def top(df,n = 5,column = 'tip_pct'):
    return df.sort_index(by = column)[-n:]
top(tips,n = 6)
tips.groupby('smoker').apply(top)
tips.groupby(['smoker','day']).apply(top,n = 1,column = 'total_bill')
result = tips.groupby('smoker')['tip_pct'].describe()
result
result.unstack('smoker')
f = lambda x : x.describe()
tips.groupby('smoker')['tip_pct'].apply(f)
tips.groupby('smoker').apply(f)
tips.groupby('smoker',group_keys = False).apply(top)

frame = DataFrame({'data1':np.random.randn(1000),'data2':np.random.randn(1000)})
frame.head()
factor = pd.cut(frame.data1,4)
factor[:10]
def get_stats(group):
    return {'min':group.min(),'max':group.max(),'count':group.count(),'mean':group.mean()}
grouped = frame.data2.groupby(factor)
grouped.apply(get_stats)
grouped.apply(get_stats).unstack()
grouping = pd.qcut(frame.data1,10)
grouping = pd.qcut(frame.data1,10,labels = False)
grouping
grouped = frame.data2.groupby(grouping)
grouped.apply(get_stats).unstack()

df = DataFrame({'category':['a','a','a','a','b','b','b','b'],
                'data':np.random.randn(8),
                'weights':np.random.randn(8)})
df
grouped = df.groupby('category')
get_wavg = lambda g:np.average(g['data'],weights=g['weights'])
grouped.apply(get_wavg)

close_px = pd.read_csv('D:\Source Code\pydata-book-master\ch09\stock_px.csv',parse_dates=True,index_col=0)
close_px
close_px[-4:]
rets = close_px.pct_change().dropna()
spx_corr = lambda x:x.corrwith(x['SPX'])
by_year = rets.groupby(lambda x:x.year)
by_year.apply(spx_corr)
by_year.apply(lambda g:g['AAPL'].corr(g['MSFT']))
import statsmodels.api as sm
def regress(data,yvax,xvars):
    Y = data[yvax]
    X = data[xvars]
    X['intercept'] = 1
    result = sm.OLS(Y,X).fit()
    return result.params
by_year.apply(regress,'AAPL',['SPX'])

fec = pd.read_csv('D:\Source Code\pydata-book-master\ch09\P00000001-ALL.csv')
fec
fec.ix[123456]
unique_cands = fec.cand_nm.unique()
unique_cands
unique_cands[2]
parties = {'Bachmann, Michelle':'Republican',
'Cain, Herman':'Republican',
'Gingrich, Newt':'Republican',
'Huntsman, Jon':'Republican',
'Johnson, Gary Earl':'Republican',
'McCotter, Thaddeus G':'Republican',
'Obama, Barack':'Democrat',
'Paul, Ron':'Republican',
'Pawlenty, Timothy':'Republican',
'Perry, Rick':'Republican',
"Roemer, Charles E. 'Buddy' III":'Republican',
'Romney, Mitt':'Republican',
'Santorum, Rick':'Republican'}
fec.cand_nm[123456:123461]
fec.cand_nm[123456:123461].map(parties)
fec['party'] = fec.cand_nm.map(parties)
fec['party'].value_counts()
(fec.contb_receipt_amt > 0).value_counts()
fec = fec[fec.contb_receipt_amt >0]
fec_mrbo = fec[fec.cand_nm.isin(['Obama, Barack','Romney, Mitt'])]
fec_mrbo
fec.contbr_occupation.value_counts()[:10]
occ_mapping = {
    'INFORMATION REQUESTED PER BEST EFFORTS':'NOT PROVIDED',
    'INFORMATION REQUESTED':'NOT PROVIDED',
    'INFORMATION REQUESTED (BEST EFFORTS)':'NOT PROVIDED',
    'C.E.O':'CEO'
}
f = lambda x:occ_mapping.get(x,x)
fec.contbr_occupation = fec.contbr_occupation.map(f)
emp_mapping = {
    'INFORMATION REQUESTED PER BEST EFFORTS':'NOT PROVIDED',
    'INFORMATION REQUESTED':'NOT PROVIDED',
    'SELF':'SELF-EMPLOYED',
    'SELF EMPLOYED':'SELF-EMPLOYED'
}
f = lambda x:emp_mapping.get(x,x)
fec.contbr_employer = fec.contbr_employer.map(f)
by_occupation = fec.pivot_table('contb_receipt_amt',rows = 'contbr_occupation',cols = 'party',aggfunc = sum)
by_occupation.head()
over_2mm = by_occupation[by_occupation.sum(1) > 2000000]
over_2mm
over_2mm.plot(kind = 'barh')
def get_top_amounts(group,key,n = 5):
    totals = group.groupby(key)['contb_receipt_amt'].sum()
    return totals.order(ascending = False)[:n]
grouped = fec_mrbo.groupby('cand_nm')
grouped.apply(get_top_amounts,'contbr_occupation',n = 7),'\n'
fec_mrbo.groupby(['cand_nm','contbr_occupation'])['contb_receipt_amt'].sum()
grouped.apply(get_top_amounts,'contbr_employer',n = 10)

《利用Python進行資料分析》筆記---第9章資料聚合與分組運算

寫在前面的話：還有一定要說明的：我使用的是Python2.7，書中的程式碼有一些有錯誤，我使用自己的2.7版本調通。 # coding: utf-8 from pandas import Series, DataFrame import p

《利用Python進行資料分析》第7章軸連線與資料轉換

軸連線另一種資料合併運算也被稱作連線（concatenation）、繫結（binding）或堆疊（stacking）。NumPy有一個用於合併原始NumPy陣列的concatenation函式。 In [2]: import pandas as pd

《利用Python進行資料分析》第三章筆記

第三章IPython 1.在IPython環境中輸入一個東西后按TAB鍵可顯示自動完成功能 2.IPython會自動隱藏以下劃線開頭的方法和屬性，若要輸出自己必須先輸入一個下劃線後按TAB即可 3.TAB鍵還可以查詢檔案：例如 D:/（按TAB鍵可顯示D盤檔案） 4.物件內

資料基礎---《利用Python進行資料分析·第2版》第10章資料聚合與分組運算

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。對資料集進行分組並對各組應用一個函式（無論是聚合還是轉換），通常是資料分析工作中的重要環節。在將資料集載入、融合、準備好之

利用Python進行資料分析之第七章記錄2 資料規整化:清理、轉換、合併、重塑

索引上的合併 DataFrame中傳入引數left_index=True或者right_index=True（或者兩個都傳入）,表示DataFrame的index（索引）被用作兩個DataFrame連線的連線鍵，如下： dataframe1 = DataFrame({'key':

利用Python進行資料分析之第七章記錄資料規整化:清理、轉換、合併、重塑

合併資料集： pandas物件中的資料可以通過一些內建的方式進行合併： pandas.merge可根據一個或多個鍵將不同DataFrame中的行連線起來。SQL或其它關係型資料庫的使用者對此應該會比較熟悉，因為它實現的就是資料庫的連線操作。 pandas.concat可以沿著一條軸將多個

《利用python進行資料分析》第10章時間序列

第十章、時間序列時間戳timestamp：特定的時刻固定時期period：2017年1月或2017年全年時間間隔interval：時期是間隔的特例實驗或過程時間：每一個時間點都是對特定起始實踐的一個獨立那個。例如，從放入烤箱起，每秒鐘餅乾的直徑。 1

《利用Python進行資料分析》第7章合併資料集

合併資料集資料分析和建模方面的大量程式設計工作都是用在資料準備上的：載入、清理、轉換以及重塑。有時候，存放在檔案或資料庫中的資料並不能滿足你的資料處理應用的要求。pandas物件中的資料可以通過一些內建的方式進行合併： pandas.merge可根據一個或

《利用Python進行資料分析》第五章 pandas的基本功能

介紹操作Series和DataFrame中的資料的基本功能重新索引 pandas物件的一個重要方法是reindex，其作用是建立一個適應新索引的新物件。以之前的一個簡單示例來說 In [1]: from pandas import Series,Da

《利用Python進行資料分析》第五章-pandas的資料結構介紹

pandas的資料結構介紹要使用pandas，你首先就得熟悉它的兩個主要資料結構：Series和DataFrame。雖然它們並不能解決所有問題，但它們為大多數應用提供了一種可靠的、易於使用的基礎。 In [1]: from pandas import

《利用python進行資料分析》第十章時間序列（一）

stamp = ts.index[2] print ts[stamp],'\n' #還有更方便的用法，傳入可以被解釋為日期的字串 print ts['1/10/2011'] print ts['20110110'],'\n' #對於較長的時間序列，只需傳入“年”或“年月”即可輕鬆選取資料切片 long_ts

《利用python做資料分析》第十章：時間序列分析

import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inline //anaconda/lib/python2.7/site-packa

利用python進行資料分析-資料聚合與分組運算2

cand_nm contbr_occupation Obama, Barack PROFESSOR 2165071.08 CEO

利用Python進行資料分析--資料聚合與分組運算1

轉載自：http://blog.csdn.net/ssw_1990/article/details/22286583 pandas提供了一個靈活高效的groupby功能，它使你能以一種自然的方式對資料集進行切片、切塊、摘要等操作。根據一個或多個鍵（可以是函式、陣列或DataFrame列名）拆分pa

易學筆記-第6章資料管理/6.3 利用資料卷容器遷移資料

利用資料卷容器遷移資料利用資料庫備份資料 [[email protected] ~]# docker run -it --name backdocker --volumes-from datadocker -v /backup docker.io/ubuntu:lat

Cris 的 Python 資料分析筆記 02：NumPy 資料定位

02. NumPy 資料定位文章目錄 02. NumPy 資料定位 1. numpy 快速判斷每個元素 2. numpy 判斷並返回對應的元素 1. numpy 快速判斷每個元素 i

Cris 的 Python 資料分析筆記 05：Pandas 資料讀取，索引，切片，計算，列整合，過濾，最值

Pandas 資料讀取，索引，切片，計算，列整合，過濾，最值文章目錄 Pandas 資料讀取，索引，切片，計算，列整合，過濾，最值 1. read_csv 函式 2. DataFrame 資料結構的常用

精益資料分析讀書筆記——第五章-資料分析框架

戴夫·麥克盧爾的海盜指標說——AARRR 獲取使用者（Acquisition）、提高活躍度（Activation）、提高留存率（Retention）、獲取營收（Revenue）、自傳播（Referral）要素功用相關指標方式獲取使用者

【資料分析 R語言實戰】學習筆記第六章引數估計與R實現（上）

6.1點估計及R實現 6.1.1矩估計 R中的解方程函式: 函式及所在包：功能 uniroot()@stats：求解一元（非線性)方程 multiroot()@rootSolve：給定n個(非線性)方程，求解n個根 uniroot.all()@rootSolve：

INSPIRED啟示錄讀書筆記 - 第9章產品副經理

辦公室裡最聰明的人從本質上講，產品就是創意，產品經理的職責是想出好點並加以實現。我們需要好點子，有些想法是我們自己的創意，但如果僅依靠自己，就會嚴重限制創意的發揮做產品要找公司最聰明的人合作，發現公司裡潛在的幾個聰明絕頂的人，不拘一格地任用，把他們招進產品團隊產品經理還可以向自己的領導借力，聽取他們對產品

《利用Python進行資料分析》筆記---第9章資料聚合與分組運算

寫在前面的話：

還有一定要說明的：

相關推薦