《利用Python進行資料分析》——Chapter9：資料聚合和分組

阿新 • • 發佈：2018-12-20

對資料集進行分組並對各組應用一個函式，這是資料分析的一個重要環節，將資料集準備好後，接下來的任務就是計算分組統計或深成透視表

GroupBy技術(分組)

建立一個GroupBy物件，再呼叫GroupBy的各種方法計算相關資料

df = pd.DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'],
                   'key2' : ['one', 'two', 'one', 'two', 'one'],
                   'data1' : np.random.randn(5),
                   'data2' : np.random.randn(5)})
grouped = df['data1'].groupby(df['key1'])	     #先訪問data1，再根據key1呼叫groupby
(df.groupby(xxx))		#建立一個GroupBy物件
grouped.mean()
grouped.size()

# groupby的引數是分組的鍵，分組鍵可以是Series，也可以是任何長度適當的陣列，也可以是DataFrame的列名
df.groupby(df['key1'])	
			#以Series為分組鍵
states = np.array(['Ohio', 'California', 'California', 'Ohio', 'Ohio'])
years = np.array([2005, 2005, 2006, 2005, 2006])
df['data1'].groupby([states, years]).mean()
			#以任何長度的陣列為分組鍵
df.groupby('key1')
			#以DataFrame的列名為分組鍵

對分組（GroupBy物件）進行迭代

GroupBy支援迭代，返回的一組二元元組：分組名+資料塊
>>>for name, group in df.groupby('key1'):
       print(name)
       print(group)
a
  key1 key2     data1     data2
0    a  one -1.676303 -0.424336
1    a  two  0.043207 -0.172227
4    a  one -0.165924 -0.145246
b
  key1 key2     data1     data2
2    b  one  1.449175  0.155494
3    b  two -0.379370 -0.075793
對資料片段做任何操作：將這些資料片段做成一個字典
pieces = dict(list(df.groupby('key1')))   #list既將剛剛列印的東西作為一個列表，dict是將列印的name作為key，將group作為value

選取一個或一組列

> 對於由DataFrame產生的GroupBy物件，如果用一個或一組列名對其進行索引，就能實現選取部分列進行聚合的目的
df.groupby(['key1', 'key2'])[['data2','data1']].mean()
			#以一個數組作為索引，返回的是DataFrame
df.groupby(['key1', 'key2'])['data2'].mean()
			#以單個列名作為索引，返回的是Series

通過Series或字典進行GroupBy

> 通過字典或Series給列名分組，然後再根據新分的組GroupBy
mapping = {'a': 'red', 'b': 'red', 'c': 'blue',
           'd': 'blue', 'e': 'red', 'f' : 'orange'}
by_column = people.groupby(mapping, axis=1)
by_column.sum()

map_series = pd.Series(mapping)
map_series
people.groupby(map_series, axis=1).count()   #以Series作為分組鍵

通過函式進行分組

函式作為分組鍵的傳入，則該函式會在各個***索引值***上被呼叫一次，其返回值都會被用作分組名稱

people.groupby(len).sum()		#按人名長度進行分組，直接傳入函式名稱，不用帶()，也不用帶引數
# 將函式和陣列、列表、字典、Series混合使用也不是問題
key_list = ['one', 'one', 'one', 'two', 'two']
people.groupby([len, key_list]).sum()

根據索引級別分組

用level關鍵字傳入級別編號，用axis=1對豎向GroupBy
hier_df.groupby(level='cty', axis=1).count()

資料聚合

# 直接使用groupby內含的方法
>>> grouped['data1'].quantile(0.9)
>>> grouped.describe()
# 使用自己的聚合函式，將函式名稱傳入aggregate或agg方法即可：
>>> def peak_to_peak(arr):
    	return arr.max() - arr.min()
>>> grouped.agg(peak_to_peak)

# 經過優化的GroupBy的方法
count		#分組中非NA值的數量
sum			#非NA值的和
mean 		#非NA值的平均數
median 		#非NA值的算術中位數
std\var		#無偏（分母n-1）標準差和方差
min\max		#非NA值的最小值和最大值
prod		#非NA值的積
first\last	#第一個和最後一個非NA值

面向列的多函式應用對不同的列使用不同的聚合函式，或一次應用多個函式

# 傳入一組函式或函式名，得到的DataFrame的列就會以相應的函式命名
>>> grouped_pct.agg(['mean', 'std', peak_to_peak])
>>> grouped_pct.agg([('foo', 'mean'), ('bar', np.std)])	
					#由(name, function)元組組成的列表作為引數傳入，各元組的第一個元素會被用作DataFrame的列名
# 應用多個函式，將函式以列表形式傳入
>>> functions = ['count', 'mean', 'max']
>>> result = grouped['tip_pct', 'total_bill'].agg(functions)
# 對不同的列應用不同的函式，向agg傳入一個從列名對映到函式的字典
>>> grouped.agg({'tip_pct' : ['min', 'max', 'mean', 'std'], 'size' : 'sum'})

以“無索引”的形式返回聚合函式：分組鍵不作為索引

grouped = tips.groupby(['day', 'smoker'], as_index=False)		#day和smoker不作為返回的dataframe的索引

分組級運算和轉換

聚合知識分組運算的一種而已，它接受能夠將一維陣列簡化為標量值的函式。將介紹transform和apply方法，能夠執行更多其他的分組運算

《利用Python進行資料分析》——Chapter9：資料聚合和分組

對資料集進行分組並對各組應用一個函式，這是資料分析的一個重要環節，將資料集準備好後，接下來的任務就是計算分組統計或深成透視表 GroupBy技術(分組) 建立一個GroupBy物件，再呼叫GroupBy的各種方法計算相關資料 df = pd.DataFrame(

資料基礎---《利用Python進行資料分析·第2版》第4章 NumPy基礎：陣列和向量計算

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。 NumPy（Numerical Python的簡稱）是Python數值計算最重要的基礎包。大多數提供科學計算的包都是用Nu

資料基礎---《利用Python進行資料分析·第2版》第8章資料規整：聚合、合併和重塑

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。在許多應用中，資料可能分散在許多檔案或資料庫中，儲存的形式也不利於分析。本章關注可以聚合、合併、重塑資料的方法。首先

利用 Python 進行資料分析（十二）pandas：資料合併

原文地址 pandas 提供了三種主要方法可以對資料進行合併： pandas.merge()方法：資料庫風格的合併；pandas.concat()方法：軸向連線，即沿著一條軸將多個物件堆疊到一起；例項方法combine_first()方法：合併重疊資料。 pandas

利用Python進行資料分析——資料規整化：清理、轉換、合併、重塑(七)(4) .

1、資料轉換目前為止介紹的都是資料的重排。另一類重要操作則是過濾、清理以及其他的轉換工作。 2、移除重複資料 DataFrame中常常會出現重複行。下面就是一個例子： [python] view plaincopyprint? In

《利用python進行資料分析》讀書筆記之案例二：全美嬰兒姓名

這份資料包含了從1880到2010年間的嬰兒名字頻率資料，其資料形式是多個txt檔案，且用逗號分隔，可以用pandas.read_csv將其載入到DataFrame中，並且用pandas.concat將所有資料都組裝到一個DataFrame。 years=range

《利用Python進行資料分析》例項：USDA食品資料庫

USDA食品資料庫：from pandas import DataFrame,Series from pylab import * import pandas as pd import json de

《利用python進行資料分析》讀書筆記之案例一：來自bit.ly的1.usa.gov資料

從網上下來的資料檔案，先讀取檔案中的第一行檢視是什麼資料型別 path="usagov_data.txt" open(path).readline() 結果是：從上面的資料格

利用Python進行資料分析——第一章：重要Python庫安裝配置

一. NumPyNumPy全稱為Numerical Python，是Python科學計算的基礎包。提供功能有：快速高效的多維陣列物件ndarray；用於對陣列執行元素級計算及直接執行數學運算的函式；用於讀寫硬碟上基於陣列的資料集工具；線性代數運算、傅立葉變換與隨機數

利用python進行資料分析（第二版） pdf下載

適讀人群：適合剛學Python的資料分析師或剛學資料科學以及科學計算的Python程式設計者。閱讀本書可以獲得一份關於在Python下操作、處理、清洗、規整資料集的完整說明。本書第二版針對Python 3.6進行了更新，並增加實際案例向你展示如何高效地解決一系列資料分析問題。你將在閱讀

《利用Python進行資料分析》學習記錄

第8章249頁原語句：party_counts = pd.crosstab(tips.day, tips.size) 現在的pandas似乎有個size屬性，就是計算資料的大小，而不會返回那一列具體的資料，比如這裡tips這個csv資料，其裡面包含一列size資料，現在來執行這句語句的話，

資料基礎---《利用Python進行資料分析·第2版》第12章 pandas高階應用

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。前面的章節關注於不同型別的資料規整流程和NumPy、pandas與其它庫的特點。隨著時間的發展，pandas發展出了更多適

資料基礎---《利用Python進行資料分析·第2版》第6章資料載入、儲存與檔案格式

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。訪問資料是使用本書所介紹的這些工具的第一步。我會著重介紹pandas的資料輸入與輸出，雖然別的庫中也有不少以此為目的的工具

資料基礎---《利用Python進行資料分析·第2版》第11章時間序列

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。時間序列（time series）資料是一種重要的結構化資料形式，應用於多個領域，包括金融學、經濟學、生態學、神經科學、物

資料基礎---《利用Python進行資料分析·第2版》第10章資料聚合與分組運算

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。對資料集進行分組並對各組應用一個函式（無論是聚合還是轉換），通常是資料分析工作中的重要環節。在將資料集載入、融合、準備好之

資料基礎---《利用Python進行資料分析·第2版》第7章資料清洗和準備

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。在資料分析和建模的過程中，相當多的時間要用在資料準備上：載入、清理、轉換以及重塑。這些工作會佔到分析師時間的80%或更多。

資料基礎---《利用Python進行資料分析·第2版》第5章 pandas入門

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。 pandas是本書後續內容的首選庫。它含有使資料清洗和分析工作變得更快更簡單的資料結構和操作工具。pandas經常和其它工

分享《利用Python進行資料分析(第二版)》高清中文版PDF+英文版PDF+原始碼

資料下載：https://pan.baidu.com/s/1K3DjJ9S1S3AxpacEElNF9Q 《利用Python進行資料分析(第二版)》【中文版和英文版】【高清完整版PDF】+【配套原始碼】《利用Python進行資料分析(第二版)》中文和英文兩版對比學習，高清完整版PDF，帶書籤，可複製貼

利用Python進行資料分析之第七章記錄2 資料規整化:清理、轉換、合併、重塑

索引上的合併 DataFrame中傳入引數left_index=True或者right_index=True（或者兩個都傳入）,表示DataFrame的index（索引）被用作兩個DataFrame連線的連線鍵，如下： dataframe1 = DataFrame({'key':

利用Python進行資料分析之第七章記錄資料規整化:清理、轉換、合併、重塑

合併資料集： pandas物件中的資料可以通過一些內建的方式進行合併： pandas.merge可根據一個或多個鍵將不同DataFrame中的行連線起來。SQL或其它關係型資料庫的使用者對此應該會比較熟悉，因為它實現的就是資料庫的連線操作。 pandas.concat可以沿著一條軸將多個

《利用Python進行資料分析》——Chapter9：資料聚合和分組

GroupBy技術(分組)

資料聚合

分組級運算和轉換

相關推薦