spark2.x由淺入深深到底系列六之RDD java api詳解四

阿新 • • 發佈：2017-09-20

spark 大數據 javaapi 老湯 rdd

學習spark任何的知識點之前，先對spark要有一個正確的理解，可以參考：正確理解spark

本文對join相關的api做了一個解釋

SparkConf conf = new SparkConf().setAppName("appName").setMaster("local");
JavaSparkContext sc = new JavaSparkContext(conf);

JavaPairRDD<Integer, Integer> javaPairRDD =
        sc.parallelizePairs(Arrays.asList(new Tuple2<>(1, 2),
                new Tuple2<>(3, 4), new Tuple2<>(3, 6), new Tuple2<>(5, 6)));
JavaPairRDD<Integer, Integer> otherJavaPairRDD =
        sc.parallelizePairs(Arrays.asList(new Tuple2<>(3, 9),
                new Tuple2<>(4, 5)));
//結果： [(4,([],[5])), (1,([2],[])), (3,([4, 6],[9])), (5,([6],[]))]
System.out.println(javaPairRDD.cogroup(otherJavaPairRDD).collect());

//結果： [(4,([],[5])), (1,([2],[])), (3,([4, 6],[9])), (5,([6],[]))]
// groupWith和cogroup效果是一模一樣的
System.out.println(javaPairRDD.groupWith(otherJavaPairRDD).collect());

//結果： [(3,(4,9)), (3,(6,9))]
//基於cogroup實現的，就是取cogroup結果中相同key在兩個RDD都有value的數據
System.out.println(javaPairRDD.join(otherJavaPairRDD).collect());

//結果： [(1,(2,Optional.empty)), (3,(4,Optional[9])), (3,(6,Optional[9])), (5,(6,Optional.empty))]
//基於cogroup實現的，結果需要出現的key以左邊的RDD為準
System.out.println(javaPairRDD.leftOuterJoin(otherJavaPairRDD).collect());

//結果： [(4,(Optional.empty,5)), (3,(Optional[4],9)), (3,(Optional[6],9))]
//基於cogroup實現的，結果需要出現的key以右邊的RDD為準
System.out.println(javaPairRDD.rightOuterJoin(otherJavaPairRDD).collect());

//結果： [(4,(Optional.empty,Optional[5])), (1,(Optional[2],Optional.empty)), (3,(Optional[4],Optional[9])), (3,(Optional[6],Optional[9])), (5,(Optional[6],Optional.empty))]
//基於cogroup實現的，結果需要出現的key是兩個RDD中所有的key
System.out.println(javaPairRDD.fullOuterJoin(otherJavaPairRDD).collect());

從上可以看出，最基本的操作是cogroup這個操作，下面是cougroup的原理圖：

技術分享

如果想對cogroup原理更徹底的理解，可以參考：spark core RDD api原理詳解

spark2.x由淺入深深到底系列六之RDD java api詳解四

spark 大數據 javaapi 老湯 rdd 學習spark任何的知識點之前，先對spark要有一個正確的理解，可以參考：正確理解spark本文對join相關的api做了一個解釋SparkConf conf = new SparkConf().setAppName("appName")

spark2.x由淺入深深到底系列六之RDD java api詳解二

spark 大數據 javaapi 老湯 rdd package com.twq.javaapi.java7; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.

spark2.x由淺入深深到底系列六之RDD java api詳解三

老湯 spark 大數據 javaapi rdd 學習任何spark知識點之前請先正確理解spark，可以參考：正確理解spark本文詳細介紹了spark key-value類型的rdd java api一、key-value類型的RDD的創建方式1、sparkContext.parall

spark2.x由淺入深深到底系列六之RDD java api調用scala api的原理

spark 大數據 javaapi 老湯 rdd RDD java api其實底層是調用了scala的api來實現的，所以我們有必要對java api是怎麽樣去調用scala api，我們先自己簡單的實現一個scala版本和java版本的RDD和SparkContext一、簡單實現scal

spark2.x由淺入深深到底系列六之RDD java api用JdbcRDD讀取關系型數據庫

spark 大數據 javaapi rdd jdbcrdd 學習任何的spark技術之前，請先正確理解spark，可以參考：正確理解spark以下是用spark RDD java api實現從關系型數據庫中讀取數據，這裏使用的是derby本地數據庫，當然可以是mysql或者oracle等關

spark2.x由淺入深深到底系列六之RDD 支持java8 lambda表達式

spark lambda java8 老湯 rdd 學習spark任何技術之前，請正確理解spark，可以參考：正確理解spark我們在 http://7639240.blog.51cto.com/7629240/1966131 中已經知道了，一個scala函數其實就是java中的一個接口

spark2.x由淺入深深到底系列五之python開發spark環境配置

spark 大數據 rdd 開發環境 python 學習spark任何的技術前，請先正確理解spark，可以參考: 正確理解spark以下是在mac操作系統上配置用python開發spark的環境一、安裝pythonspark2.2.0需要python的版本是Python2.6+ 或者 P

MySQL系列-優化之explain執行計劃詳解

1.id介紹這個id不是主鍵的意思，他是用來標識select查詢的序列號，包含一組數字，表示查詢中執行select子句或者操作表的順序。會出現以下情況： id相同：按從上到下順序執行 id不同：id值越大，優先順序越高，越先被執行 id相同不同的同時存在：優先執

Node 之 fs模組 API詳解

原文出自：https://www.pandashen.com 本文所有程式碼git地址：https://gitee.com/vr2/node/tree/master/fs fs 概述　　在 NodeJS 中，所有與檔案操作都是通過 fs 核心模組來實現的，包括檔案目錄的建

Android Camera 系列（三）Camera API 詳解

概述 Camera 可能是接下來個人想深入學習的課題，準備新起一個系列，從個人的角度總結闡述自己對於 Android Camera 的研究過程，希望也能夠對其他想學習 Camera 的同學一些幫助。本小節內容為 Android Camera 官方文件的精要

shiro實戰系列(六)之Authorization(授權)

這樣的 card arch 訪問控制 authorize 列表數據 nbsp 測試授權，又稱作為訪問控制，是對資源的訪問管理的過程。換句話說，控制誰有權限在應用程序中做什麽。授權檢查的例子是：該用戶是否被允許訪問這個網頁，編輯此數據，查看此按鈕，或打印到

Spring系列之六：AOP的代理詳解

Aop是面向切片的程式設計，首先先用圖解釋AOP的程式設計這是沒有用aop的情況，程式碼中存在大量的重複的程式碼：使用aop就是採用一個切片，對封裝好的程式進行切開，減少重複的程式碼，對重複的程式碼進行復用：那麼如何實現這種aop的切片程式設計了？就是使用動態代理的方式，為方

Go語言入門系列(六)之再探函式

[Go語言入門系列](https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&album_id=1441283546689404928)前面的文章： - [Go語言入門系列(三)之陣列和切片](https://mp.weixin.qq.com/

Linux系列之SAR命令使用詳解

1. CPU利用率 sar -p （檢視全天） sar -u 1 10 （1：每隔一秒，10：寫入10次） 1.1. CPU輸出項說明輸出項詳細說明 CPU all 表示統計資訊為

linux系列之常用監控命令詳解

1.top命令優點：實時掌握OS整體資訊，每隔幾秒鐘會顯示一下OS的資訊，並整理出活躍的程序，顯示這些程序的資訊。缺點：在實時顯示資訊的情況下，我們不能知道非活躍程序的資訊，如果需要知道非活躍程序，就得用ps命令。 ***load average平均負載：1分

資料結構系列之希爾排序詳解

基於插入排序的希爾排序Java實現 1、先要搞清楚插入排序的原理 public void InsertSort(int data[]){ //插入排序（升序） int temp; int i,j; for(i=1;i<data.length;i++)

axis2系列之services.xml檔案詳解

原文連結（http://beyond-gzz.blog.163.com/blog/static/744735620119935948592/ ）在Axis1中部署服務時，我們使用service.wsdd檔案來配置服務。在Axis2中，不再使用service.wsdd

Spark2.3.2原始碼解析：9.排程系統 DAGScheduler 之 Stage 劃分原始碼詳解

Stage劃分的時候，大家應該都知道是從最後一個stage向根據寬窄依賴，遞迴進行stage劃分。但是程式碼裡面涉及的邏輯複雜。畢竟涉及到相互遞迴呼叫。讓人似懂非懂。反正我是炸毛了 o(╥﹏╥)o 本文專門用一篇文章詳細論述DAGScheduler 的 stage 劃分流程

HBase 系列（六）——HBase Java API 的基本使用

一、簡述截至到目前 (2019.04)，HBase 有兩個主要的版本，分別是 1.x 和 2.x ，兩個版本的 Java API 有所不同，1.x 中某些方法在 2.x 中被標識為 @deprecated 過時。所以下面關於 API 的樣例，我會分別給出 1.x 和 2.x 兩個版本。完整的程式碼見本倉庫：

MVC之Ajax.BeginForm使用詳解之更新列表

分布 use html text col 返回 uno pts scripts 1.首先，請在配置文件設置如下：(該項默認都存在且為true) <add key="UnobtrusiveJavaScriptEnabled" value="true" /> 2

spark2.x由淺入深深到底系列六之RDD java api詳解四

相關推薦