pyspark中combineByKey的兩種理解方法

阿新 • • 發佈：2019-02-18

Spark 1.6

以前一直模模糊糊的，現在搞一下比較清楚

combineByKey(createCombiner, mergeValue, mergeCombiners, numPartitions=None, partitionFunc=<function portable_hash at 0x7f1ac7340578>)
它是一個泛型函式，主要完成聚合操作，將輸入RDD[(K,V)]轉化為結果RDD[(K,C)]輸出

在資料分析中，處理Key，Value的Pair資料是極為常見的場景，例如我們可以針對這樣的資料進行分組、聚合或者將兩個包含Pair資料的RDD根據key進行join。從函式的抽象層面看，這些操作具有共同的特徵，都是將型別為RDD[(K,V)]的資料處理為RDD[(K,C)]。這裡的V和C可以是相同型別，也可以是不同型別。
作者：LuciferTM
連結：

http://www.jianshu.com/p/f3aea4480f2b
來源：簡書
著作權歸作者所有。商業轉載請聯絡作者獲得授權，非商業轉載請註明出處。

流程圖

這裡寫圖片描述

多謝@蔣瀟億–知乎的回答，我這裡將圖用自己的話再次整理下，方便理解

來一波分析

第一種比較正統的方法，按照原理圖來一步步推倒過程

如果pair RDD的key第一次出現，那麼就用把該key下的value進行createCombiner操作，這裡第一個pair RDD輸出結果應該是這種形式('coffee',(1,1))這裡需要強調的是，這是對value進行操作的,將其中的value進行轉化。這裡的例子是(1,1)第一個1是value，第二個1是出現了一次
對於key沒重複的pair RDD才上上述同樣操作，如果碰到同樣key的了，那就轉到第二步，key不變的情況下，將上一次的(1,1)當做引數傳遞進mergeValue，效果就是說，以前的acc[0]=1,即值是1，然後現在新的coffee傳進來的值是2，即value=2,這樣，就會對同key值進行累加acc[0]+value=同key下的累加值，而acc[1]=1，即統計了該key出現的次數，acc[1]+1=coffee這個key共出現的次數
經過這兩步之後，先不考慮另一個分割槽的情況，如果只有一個分割槽，那麼現在的結果應該是這樣。第一個分割槽的結果[(‘coffee’,(3,2)),(‘panda’,(3,1))],然後第二個分割槽的結果同理(‘coffee’,(9,1)),之後再對同key下的value傳入mergeCombiner進行操作即可，方式同第二步類似，搞清楚誰是傳進去的value

復現一下程式碼


def createCombiner(value):
    return (value,1)

def mergeValue(acc,value):
    return (acc[0]+value,acc[1]+1)

def mergeCombiners(acc1,acc2):
    return (acc1[0]+acc2[0],acc1[1]+acc2[1])

data = sc.parallelize([('coffee',1),('coffee',2),('panda',3),('coffee',9)],2)

# data.collect():[('coffee', 1), ('coffee', 2), ('panda', 3), ('coffee', 9)]
result = data.combineByKey(createCombiner,mergeValue,mergeCombiners)

print result.collect()

#------------------------------------------------------
#拓展，計算key所含value的均值,方法一，使用map
print result.map(lambda x:(x[0],float(x[1][0])/x[1][1])).collect()
# 方法二,s使用mapValues
print result.mapValues(lambda x:float(x[0])/x[1]).collect()


#[('coffee', (12, 3)), ('panda', (3, 1))]
#[('coffee', 4.0), ('panda', 3.0)]
#[('coffee', 4.0), ('panda', 3.0)]

第二種方法，使用字典來模擬這個過程

字典形式重構程式碼

# 相當於spark中的兩個分割槽
part1 = [('coffee',1),('coffee',2),('panda',3)]
part2 = [('coffee',9)]

dict_res = {}
for part in [part1,part2]:
    for tup in part: 
        if tup[0] not in dict_res:
            dict_res[tup[0]]= {}  # 在該key下，將value構建dict
            dict_res[tup[0]]['sum'] = 0 
            dict_res[tup[0]]['times'] = 0

        dict_res[tup[0]]['sum'] += tup[1]  # sum疊加
        dict_res[tup[0]]['times'] +=1  # 次數累加


print dict_res

# {'coffee': {'sum': 12, 'times': 3}, 'panda': {'sum': 3, 'times': 1}}
# 其中coffee代表鍵，之後的value我又傳了個dict，裡面key=sum的value代表和，key=times的value代表前面的key如coffee出現的次數

將上面的式子再進化一次，使更像spark的寫法


def createAndMergeValue(part):
    for tup in part: 
        if tup[0] not in dict_res:
            dict_res[tup[0]]= {}
            dict_res[tup[0]]['sum'] = 0
            dict_res[tup[0]]['times'] = 0

        dict_res[tup[0]]['sum'] += tup[1]
        dict_res[tup[0]]['times'] +=1

def  mergeCombiners(partitions):
    for part in partitions:
        createAndMergeValue(part)



dict_res = {}
partitions = [[('coffee',1),('coffee',2),('panda',3)],[('coffee',9)]]  # 為了表現其分割槽的特性，這裡用了list區分分割槽部分
mergeCombiners(partitions)

print dict_res

{'coffee': {'sum': 12, 'times': 3}, 'panda': {'sum': 3, 'times': 1}}

致謝

pyspark中combineByKey的兩種理解方法

Spark 1.6 以前一直模模糊糊的，現在搞一下比較清楚 combineByKey(createCombiner, mergeValue, mergeCombiners, nu

Struts2中validate數據校驗的兩種常用方法

red 有一種資源文件業務相同 dna erp wrong 顯示本文主要介紹Struts2中validate數據校驗的兩種方法及Struts2常用校驗器. 1.Action中的validate()方法 Struts2提供了一個Validateable接口,這個接口

在IDEA中使用Jrebel外掛的兩種破解方法;

作為一個程式設計師都知道熱部署的好處，在每次編碼後不用每次重新啟動專案;使用了JRebel的外掛就很方便，但是JRebel的是收費軟體，我所知道的破解方法有兩種; 第一種，從官網激,可以獲得使用吧,但這個還是達不到永久破解的效果,然後又在網上找到了第二種方法; 1）首先在github上上

Servlet中的兩種接收請求的方法

首先說一下，dopost和doget兩種方法都是來接收使用者請求的。但是還是有以下幾種區別 get：提交的資料大小有所限制；請求通過url位址列顯示 post：沒有大小的限制；通過http請求附件傳送（以下舉例在某頁面點選提交後的請求傳送過程）第一步

Python中json.loads()無法解析單引號字串問題的兩種解決方法

目錄 1、json檔案的儲存與載入 2、json.loads()無法解析單引號字串問題 3、解決方案方案一：替換單引號方案二：在使用json.loads()前使用eval()和json.dumps()進行處理 1、json檔案的儲存與載入一般來說，我建立字典、儲

微信公眾號支付介面（vue專案中，兩種方法）

第一種：引入微信js-sdk //在一個地方呼叫this.weixin()方法，比如說按鈕 //寫微信支付方法 weixin() { var that = this; var url=''; var params = {

在java中對LIst集合的兩種排序方法(即sort的使用方法)

List集合的排序: java提供了兩種排序方式,分別是Collections.sort(List)和Collections.sort(List,Commparator),下面就這兩種方法的使用做詳細的說明: -Collections.sort(List); sort的引數是一

PHP查詢資料庫中滿足條件的記錄條數(兩種實現方法)

第一種方法：查詢時候直接統計複製程式碼程式碼如下: $sql="SELECT COUNT(*) AS count FROM TABLE WHERE id='$id'"; $result=mysql_fetch_array(mysql_query($sql)); $count=$result['cou

JS中函式的兩種定義方法

定義函式在JavaScript中，定義函式的方式如下： function abs(x) { if (x >= 0) { return x; } else {

java面試題：java中的單例設計模式及兩種實現方法的程式碼舉例

java面試時經常會問到關於單例設計模式，因為它能考察的知識點較多且在開發中經常用到。那我就來說一說我對於單例設計模式的一些淺見。首先，在Java中，什麼是單例呢？就是保證類在記憶體中只有一個物件。那麼

關於數學公式輸入中括號的換行問題的兩種常用方法

LaTeX最為擅長的就是數學公式的精彩輸出，美觀，漂亮。但是大公式的處理是很多使用者比較棘手的問題，比如下面這個問題，通常我們輸入的大公式，主要有兩種情況比較難處理：1、因為長的分式，比如一個非常長的

react中ref的兩種使用方法

ref一共有兩種使用方式回撥函式形式（官方推薦） string形式第一種回撥函式形式回撥函式形式一共有三種觸發方式元件渲染後元件解除安裝後 ref改變後 import React,{Component} from 'react'

java中的Maven專案的兩種打包方法

個人覺得第二種方法更好。基於Maven構建的專案的方法：一：將專案所支援的所有類庫打在一個包中，而不是隻將專案編譯打包到一個jar中。這樣便可以直接拷貝一個jar去執行了。 Xml程式碼 <plugin>

python環境配置過程中提示api-ms-win-crt-runtime-l1-1-0.dll丟失的兩種解決方法

一、問題描述win7 64位下api-ms-win-crt-runtime-l1-1-0.dll 丟失提醒二、解決問題api-ms-win-crt-runtime-l1-1-0.dll：下載地址方法：把

jsp中base標籤的兩種使用方法

方法一 <% String basePath = request.getScheme() + "://" + request.getServerName() + ":" + req

1.建立一個Rectangle類，新增width和height兩個成員變數。 2.在Rectangle中新增兩種方法分別計算矩形的周長和麵積 3.程式設計利用Rectangle輸出一個矩形的周

/* * 1.建立一個Rectangle類，新增width和height兩個成員變數。 * 2.在Rectangle中新增兩種方法分別計算矩形的周長和麵積 * 3.程式設計利用Rectangle輸出一個矩形的周長和麵積 */ public class ke1 {//

組合（從長度為n的字串中取m個字元）---java兩種實現方法

對於這類組合問題，雖然感覺很簡單，但是用java程式碼實現起來卻不是那麼容易的。這其中最容易用到的應該是遞迴的思想了，這種方法也比較容易理解：方法一：遞迴實現程式碼： /** * 可能種類在4000萬的時候時間效率為7.6s左右

vue中this.$router.push()路由傳值和獲取的兩種常見方法

方法常用 log 配置 back 描述地址 idt file 1、路由傳值 this.$router.push() （1）想要導航到不同的URL，使用router.push()方法，這個方法會向history棧添加一個新紀錄，所以，當用戶點擊瀏覽器後退按鈕時，會回

Java中自定義異常的兩種處理方法

其中註釋掉的部分就是處理方法之一 class DivisorIsZeroException extends Exception { public DivisorIsZeroException(Str

如何將c程式執行檔案打包入APK中，兩種方法

如何將一個可執行的檔案打包到APK中，使用者在下載APK後直接使用，我現在想到了兩種方法：一種是將C程式直接打包到APK中，這種適合於獨立執行程式或者你手上沒有原始碼；另一種是將C程式作為庫然後使用JNI來呼叫C程式；解壓縮即可看到APK如下目錄： |-Android

pyspark中combineByKey的兩種理解方法

流程圖

來一波分析

第一種比較正統的方法，按照原理圖來一步步推倒過程

復現一下程式碼

第二種方法，使用字典來模擬這個過程

字典形式重構程式碼

將上面的式子再進化一次，使更像spark的寫法

致謝

相關推薦