基於spark實現表的join操作

阿新 • • 發佈：2019-01-11

1. 自連線

假設存在如下檔案：

[root@bluejoe0 ~]# cat categories.csv 
1,生活用品,0
2,數碼用品,1
3,手機,2
4,華為Mate7,3

每一行的格式為：類別ID，類別名稱，父類ID

現在欲輸出每個類別的父類別的名稱，類似於SQL的自連線，注意到join的外來鍵其實是父類ID。

首先生成“父類ID->子類ID，子類名稱”

val categories=sc.textFile("/root/categories.csv")

val left = categories.map(_.split(",")).map(x=>(x(2 
)->Map("id"->x(0),"name"->x(1))))

left的內容為：

Array((0,Map(id -> 1, name -> 生活用品)), (1,Map(id -> 2, name -> 數碼用品)), (2,Map(id -> 3, name -> 手機)), (3,Map(id -> 4, name -> 華為Mate7)))

接著生成“父類ID->父類ID，父類名稱”

val right = categories.map(_.split(",")).map(x=>(x(0)->Map("pid" 
->x(0),"pname"->x(1))))

right的內容為：

Array((1,Map(pid -> 1, pname -> 生活用品)), (2,Map(pid -> 2, pname -> 數碼用品)), (3,Map(pid -> 3, pname -> 手機)), (4,Map(pid -> 4, pname -> 華為Mate7)))

接下來，將這兩個RDD進行合併，並按照key（key都是父類ID）進行reduce：

val merged = (left++right).reduceByKey(_ 
++_)

merged的內容為：

Array((4,Map(pid -> 4, pname -> 華為Mate7)), (0,Map(id -> 1, name -> 生活用品)), (1,Map(id -> 2, name -> 數碼用品, pid -> 1, pname -> 生活用品)), (2,Map(id -> 3, name -> 手機, pid -> 2, pname -> 數碼用品)), (3,Map(id -> 4, name -> 華為Mate7, pid -> 3, pname -> 手機)))

搞定！！

可以採用flatMap來簡化以上的寫法：

val merged = categories.map(_.split(",")).flatMap((x)=>Array(x(2)->Map("id"->x(0),"name"->x(1)), x(0)->Map("pid"->x(0),"pname"->x(1)))).reduceByKey(_++_)

結果是一樣一樣的！！當然程式碼的可讀性大打折扣了~~~

2. 兩張表連線

基於spark實現表的join操作

1. 自連線假設存在如下檔案： [root@bluejoe0 ~]# cat categories.csv 1,生活用品,0 2,數碼用品,1 3,手機,2 4,華為Mate7,3 每一行的格式為：類別ID，類別名稱，父類ID 現在欲輸出每個類別

基於JQuery實現表單元素值的回寫

spl sel || etc oos min javascrip odi tar form.jsp: <%@ page language="java" import="java.util.*" pageEncoding="GB2312"%> <!DO

基於jQuery的表單操作

content 瀏覽器 area show legend ins 並不是彌補 span 1，文本框的聚焦和失焦在對文本框進行操作時，通常為了提升用戶體驗，是用戶的操作得到及時的反饋，會在文本框獲得焦點時，讓其顏色改變，然後在失去焦點時恢復為原來的樣式，一般情況下，我們可

基於spark實現並行化Apriori演算法

詳細程式碼我已上傳到github：click me 一、實驗要求在 Spark2.3 平臺上實現 Apriori 頻繁項集挖掘的並行化演算法。要求程式利用 Spark 進行平行計算。二、演算法設計

基於Spark實現推薦演算法-1:推薦演算法簡介

個性化推薦系統簡介個性化推薦系統的定義在 1997 年由 Resnick 和 Varian 提出:利用網際網路向用戶提供信息和建議，幫助使用者選擇產品，或模擬售貨員幫助使用者完成購買行為的系統。通常推薦由三個要素組成:推薦演算法、使用者、候選推薦專案。

如何避免spark dataframe的JOIN操作之後產生重複列（Reference '***' is ambiguous問題解決）

spark datafrme提供了強大的JOIN操作。但是在操作的時候，經常發現會碰到重複列的問題。如下：如分別建立兩個DF，其結果如下： val df = sc.parallelize(Array( ("one", "A", 1), ("one", "B

基於jQuery實現表單提交驗證

html表單程式碼：複製程式碼程式碼如下: <form method="post" action=""> <div class="

基於Spark實現推薦演算法-4:基於物品的協同過濾(實現篇)

演算法設計與實現基於物品的協同過濾又稱Item-Based CF. 基於Spark的Item-Based CF演算法其實現原理和步驟與經典方法基本一致，不同的地方主要在於具體步驟內的並行化計算。相似度演算法在Spark MLlib中提供了餘弦相

MapReduce的兩表join操作優化

注：優化前的分析過程詳見本博的上篇博文案例地址(Address)和人員(Person)的一對多關聯原始資料地址(Address)資料 id AddreName 1 beijing 2 shanghai 3 guangzhou 人員(Person)資料 1 zhan

Spark 實現MySQL update操作

背景目前 spark 對 MySQL 的操作只有 Append,Overwrite,ErrorIfExists,Ignore幾種表級別的模式，有時我們需要對錶進行行級別的操作，比如update。即我們需要構造這樣的語句出來：insert into tb (i

Spark中常見join操作

spark中的連線操作（1）join 如果熟悉sql的同學應該很熟悉join，這裡的join和sql中的inner join操作很相似，返回結果是前面一個集合和後面一個集合中匹配成功的，過濾掉關聯不上的。 def join[W](other: RDD

基於spark實現kmeans的更新聚類中心的關鍵程式碼

/** * 這個方法作用是返回被給樣本的所屬聚類中心的索引，及其到這個聚類中心的距離， * 其中class VectorWithNorm(val vector: Vector, val norm: Double)這是VectorWithNorm

基於JS實現表單的自動驗證功能

注：本文程式碼是在Github上找到的原始碼，在此基礎上進行了修改。表單驗證的功能是通過JS程式碼實現的，在作者的驗證JS程式碼中有已經設定好的資料格式，使用的是正則表示式，如果你想要設定自己的資料格式，可以在js檔案最後找到datatype進行修改。作者的後端程式碼使用

Spark 讀取Hbase表資料並實現類似groupByKey操作

一、概述程式執行環境很重要，本次測試基於： hadoop-2.6.5 spark-1.6.2 hbase-1.2.4 zookeeper-3.4.6 jdk-1.8 廢話不多說了，直接上需求 Andy column=baseINFO:ag

單鏈表實現及其基本操作

rate || == tac rgs 是否 targe param val import java.util.HashMap; import java.util.Scanner; import java.util.Stack; /** * *

基於Solr的多表join查詢加速方法

bit 增量一輪 send 阿裏雲做了 activity 總結周期前言 DT時代對平臺或商家來說最有價值的就是數據了，在大數據時代數據呈現出數據量大，數據的維度多的特點，用戶會使用多維度隨意組合條件快速召回數據。數據處理業務場景需要實時性，需要能夠快速精準的獲得到需

Spark SQL 之 Join 實現

結構很多找到過濾 sql查詢優化 ade read 轉換成分析原文地址：Spark SQL 之 Join 實現 Spark SQL 之 Join 實現塗小剛 2017-07-19 217標簽： spark ，數據庫 Join作為SQL中

順序表基本操作的實現

oid new for fine h+ 基本 delet 輸出 turn 順序表基本操作的實現，主要包括順序表的初始化、建立、輸出、插入、刪除、位置查詢、數據查詢。 #include<iostream.h>#define MAXSIZE 100typedef i

C語言實現線性表基本操作

style eal struct fine fin delete class logs destroy #include <stdio.h> #include <tchar.h> #include <stdlib.h> #define

Spark SQL中Dataframe join操作含null值的列

dataframe util pre table log n-n dram blog between 當在Spark SQL中對兩個Dataframe使用join時，當作為連接的字段的值含有null值。由於null表示的含義是未知，既不知道有沒有，在SQL中null值與任何

基於spark實現表的join操作

1. 自連線

2. 兩張表連線

相關推薦