Spark aggregate和combineByKey聚合操作

阿新 • • 發佈：2019-02-12

aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U
val pairRDD = listRDD.aggregate(zeroValue)((acc, value) => (acc._1 + value, acc._2 + 1), (acc1, acc2) => (acc1._1 + acc2._1, acc1._2 + acc2._2))


combineByKey[C]( createCombiner: V => C,  mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)]
val result = pairRDD.combineByKey(v => (v, 1), (acc: (Int, Int), v) => (acc._1 + v, acc._2 + 1), (acc1: (Int, Int), acc2: (Int, Int)) => (acc1._1 + acc2._1, acc1._2 + acc2._2))

例：

對於RDD{1,2,3,4}，求和並計算個數

Aggregate( (6, 5) )( (acc, value) => (acc._1 + value), (acc._2 + 1), (acc1,acc2) => (acc1._1 + acc2._1, acc1._2 + acc2._2))

zeroValue既是seqOp的acc的初始值，也是combOp的acc1的初始值

acc2的RDD是seqOp的計算結果

1. 執行seqOp

acc = (6, 5) value = 1 => (7, 6)

acc = (7, 6) value = 2 => (9, 7)

acc = (9, 7) value

= 3 => (12, 8)

acc = (12, 8) value = 4 => (16, 9)

2. 執行combOp

acc1= (6, 5) acc2=(16, 9) => (22, 14)

Spark aggregate和combineByKey聚合操作

aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U val pairRDD = listRDD.aggregate(zeroValue)((acc, va

spark--DataFrame處理udf操作和一些聚合操作

在spark中對資料進行處理udf函式還是很多的下面介紹在df下udf操作例項 val sqlContext = new SQLContext(sc) import sqlContext.implicits._ 呼叫sqlcontext裡面的udf函式 sql

【Spark調優】聚合操作數據傾斜解決方案

local fix tar 2pc rand shu spark調優 16px 優點【使用場景】　　對RDD執行reduceByKey等聚合類shuffle算子或者在Spark SQL中使用group by語句進行分組聚合時，經過sample或日誌、界面定位，發生了數

Spark—聚合操作—combineByKey

聚合操作——combineByKey 當資料集一鍵值對形式組織的時候，聚合具有相同鍵的元素進行一些統計是很常見的操作。對於Pair RDD常見的聚合操作如：reduceByKey，foldByKey，groupByKey，combineByKey。這裡重點要說

Spark MLlib 之 aggregate和treeAggregate從原理到應用

數據量 hash oom 向上 gre require 圖片 iterator reac 在閱讀spark mllib源碼的時候，發現一個出鏡率很高的函數——aggregate和treeAggregate，比如matrix.columnSimilarities()中。為了

Elasticsearch如何實現篩選功能（設定欄位不分詞和聚合操作）

0 起因中文分詞中比較常用的分詞器是es-ik，建立索引的方式如下：這裡我們為index personList新建了兩個欄位：name和district，注意索引名稱必須是小寫（以下格式都是在kibana上做的） PUT /person_list { "mappings

KNN在MR和Spark下實現的IO操作比較

MapReduce中KNN執行過程I/O操作分析：實現流程： KNN在MapReduce中的實現，認為訓練集大小遠大於測試集大小。所以測試集快取在記憶體中。 Map任務輸入是一個訓練集檔案的分片（子集），測試集中的每一個樣例與訓練集分片中的所有樣例計算距離，輸出<測試樣例，（與

MongoDB 基本操作和聚合操作

一 . MongoDB 基本操作基本操作可以簡單分為查詢、插入、更新、刪除。 1 文件查詢作用 MySQL SQL MongoDB 所有記錄 SELECT * FROM users; db.users.find(); age =18 SELECT * FROM users WH

mongodb aggregate 聚合操作

何為aggregate聚合操作？ mongodb的聚合操作，接受一個名為pipeline的引數和一個可選引數。 pipeline可以理解為流水線，一條流水線上可以有一個或多個工序。所以，mongodb的一次聚合操作就是對一個表進行多個工序的加工，其中的每個工

Spark部分聚合操作的API總結

本文主要簡單的講講Spark幾個常用的聚合操作的API的使用和之間的一些區別。建立一個JavaRDD和一個JavaPairRDD reduce 執行結果 reduceByKey

mongdb aggregate聚合操作

1、資料準備檢視前一篇group操作 2、aggregate函式引數講解 mysql　　　　 mongdb===================WHERE --->$match GROUP BY --->$group HAVING --->$match

Spark中的aggregate和aggregateByKey的區別及疑惑

aggregate(zeroValue,seq,comb,taskNums) 將初始值和第一個分割槽中的第一個元素傳遞給seq函式進行計算，然後將計算結果和第二個元素傳遞給seq函式，直到計算到最後一個值。第二個分割槽中也是同理操作。最後將初始值、所有分割槽的

django中聚合aggregate和annotate GROUP BY的使用方法

接觸django已經很長時間了，但是使用QuerySet查詢集的方式一直比較低端，只會使用filter/Q函式/exclude等方式來查詢，資料量比較小的時候還可以，但是如果資料量很大，而且查詢比較複雜，那麼如果還是使用多個filter進行查詢效率就會很低。就趁

Spark程式設計指引(三)-----------------RDD操作，shuffle和持久化

處理鍵－值對儘管Spark的大部操作支援包含所有物件型別的RDDs,但是還有一些操作只支援鍵－值對的的RDDs.最常見的是類似"洗牌"的操作，比如以鍵值來分組或聚合所有的元素。在Scala裡，這些操作對包含2元組的RDD是自動可用的。（Scala語言內建的元組，通過(a

win10電腦突然開不了熱點，怎麽辦，怎樣開啟和關閉此操作？？

開啟右擊禁用設備管理選擇 src blog log 設備（1）右擊‘我的電腦’，選擇‘管理’ 會出現下面這個界面 (2)選擇‘設備管理器’，再右擊‘網絡適配器’裏面的第二條，具體如下圖示（3）選擇‘屬性’，進入‘高級’選項有下圖所示界面（4）再將鼠

spark mllib和ml類裏面的區別

回歸 ati pam return lec ref nsf 有變 onf mllib是老的api，裏面的模型都是基於RDD的，模型使用的時候api也是有變化的(model這裏是naiveBayes)，（1：在模型訓練的時候是naiveBayes.run(data

二叉搜索樹的隨機化插入和伸展插入操作（平攤法）

新節點 div fine mod and sta std splay ins 源碼例如以下： #include <stdlib.h> #include <stdio.h> //#define Key int #define hl h->l

sql service ---- update和delete 誤操作數據 ---- 恢復數據

del ssi 特性完整強制 test 文章 apple all 原文出處：http://blog.csdn.net/dba_huangzj/article/details/8491327 問題：經常看到有人誤刪數據，或者誤操作，特別是update和

OpenStack/Gnocchi簡介——時間序列數據聚合操作提前計算並存儲起來，先算後取的理念

完整其它度量標準過濾無法什麽規劃 med 表示先看下 http://www.cnblogs.com/bonelee/p/6236962.html 這裏對於環形數據庫的介紹，便於理解歸檔這個操作！轉自：http://blog.sina.com.cn/s/blo

session和cookie基本操作

基本 size tco arr 結束 style 服務器清理方法 session的作用同cookie一樣： 1.在不同頁面使用同一數組 2.實現驗證碼，用戶跟蹤（個人覺得這個用到的其實還是1中的作用） session相對於cookie更加的安全先來說一下coo

Spark aggregate和combineByKey聚合操作

相關推薦