Scala in Spark 基本操作【未完】

阿新 • • 發佈：2019-01-06

# 建立textFileRDD
val textFile = sc.textFile("README.md")
textFile.first()  #獲取textFile RDD的第一個元素
res3:String = # Apache Spark

# 篩選出包括Spark關鍵字的RDD然後進行行計數
val  linesWithSpark = textFile.filter(line => line.contains("Spark"))
linesWithSpark.count()
res10:Long = 19

# 找出RDD textFile中包含單詞數最多的行
textFile.map 
(line=>line.split(" ").size).reduce((a,b)=>Math.max(a,b))
res12:Int = 14  #第14行是包含單詞最多的行

# 在scala shell中引入Java方法：
import java.lang.Math
textFile.map(line=>line.split(" ").size).reduce((a,b) => Math.max(a,b))

#將RDD linesWithSpark 快取，然後進行計數
linesWithSpark.cache()
res13:linesWithSpark.type 
 = 
MapPartitionsRDD[8] at filter at <console>:23
linesWithSpark.count()
res15:Long = 19

RDD:
makeRDD 和 parallelize是一樣的，不過makeRDD好像只能scala用，parallelize是Python和 R都能用的

# 通過單詞列表集合建立RDD thingsRDD
val thingsRDD = sc.parallelize(List("spoon","fork","plate","cup","bottle"))

# 計算RDD thingsRDD中單詞的個數 

thingsRDD.count()
res16:Long = 5

groupByKey( )轉換操作
這裡寫圖片描述

pairRDD.groupByKey()
#得到：
Banana [Yellow]
Apple  [Red, Green]
Kiwi   [Green]
FIgs   [Black]

collect 或 materialize linesWithSpark RDD中的資料

collect方法返回計算好的數值。？？

linesWithSpark.collect()

快取RDD linesWithSpark

linesWithSpark.cache()

將linesWithSpark從記憶體中刪除

linesWithSpark,unpersist()

RDD的部分轉換操作：

轉換操作	作用
filter()	過濾
map()	將一個RDD中的每個資料項，通過map中的函式對映為一個新的元素，返回集合物件
flatMap()	先map，再將所有的輸出分割槽合併成一個。
distinct()	對RDD中的元素進行去重操作
coalesce()	將RDD進行重新分割槽，使用HashPartitioner
repartition()	coalesce函式第二個引數為true的實現
sample()
union()	將2個RDD合併，不去重
intersection()	返回兩個RDD的交集，並且去重
subtract	類似intersection，返回在RDD中出現，並且不在otherRDD中出現的元素，不去重。
mapPartitions	與map類似，按分割槽進行對映
mapPartitionsWithIndex	同mapPartitions,多提供了2個引數
zip	用於將兩個RDD組合成Key/Value形式的RDD,這裡預設兩個RDD的partition數量以及元素數量都相同，否則會丟擲異常。
zipPartitions	將多個RDD按照partition組合成為新的RDD，該函式需要組合的RDD具有相同的分割槽數，但對於每個分割槽的元素數量沒有要求
partitionBy
mapValues
flatMapValues
combineByKey
foldByKey
groupByKey()
reduceByKey()
reduceByKeyLocally
randomSplit()	根據weights權重，將一個RDD切分成多個RDD

Action操作	說明
first
count
reduce
collect
take
top
takeOrdered
aggregate
fold
lookup
countByKey
foreach
foreachPartition
sortBy
saveAsTextFile
saveAsSequenceFile
saveAsObjectFile

Scala in Spark 基本操作【未完】

# 建立textFileRDD val textFile = sc.textFile("README.md") textFile.first() #獲取textFile RDD的第一個元素 res3:String = # Apache

【unity】鼠標點擊AI尋路【未完】

ima 障礙 mesh 技術分享 ges blog com 創建靜態先創建一個場景，立方體為障礙物，膠囊為玩家。然後創建NavMesh，選擇plane和立方體，並在導航窗口的對象選項卡上選擇導航靜態。然後去轉到烘焙選項卡，點擊烘焙按鈕：【unity】鼠標點擊

【未完】最近公共父節點(LCA)

1.如果只需要求一對，最簡單的方法是使用遞迴查詢。判斷要查詢的結點u,v是否同在左子樹(向下查詢)、右子樹(向下查詢)或左右子樹都有(根節點即為最近公共父節點)。 class Solution { public: TreeNode * lowestCommonAncestor(Tre

redisson分散式鎖redLock原始碼解析【未完】

一、準備階段 1、原理一個客戶端需要做如下操作來獲取鎖： 1.獲取當前時間（單位是毫秒） 2.輪流用相同的key和隨機值在N個節點上請求鎖，在這一步裡，客戶端在每個master上請求鎖時會有一個和總的鎖釋放時間相比小的多的超時

JavaScript實現兩個小球碰撞簡單模型【未完】

var xPos,xpos1;// var timer,timer1; var xSpeed;//黑球移動速度 var interval=50;//間隔時間 var countNum,co

第四章串的基本操作【資料結構】

#include<stdio.h> #include<string.h> #include<stdlib.h> #include<malloc.h> #define ERROR 0 #define OK 1 #define MAXSIZE 1000 type

【線性表基礎】順序表和單鏈表的插入、刪除等基本操作【Java版】

本文表述了線性表及其基本操作的程式碼【Java實現】參考書籍：《資料結構 ——Java語言描述》/劉小晶，杜選主編線性表需要的基本功能有：動態地增長或收縮；對線性表的任何資料元素進行訪問和查詢；線上性表中的任何位置進行資料元素的插入和刪除操作；求線性表中指定資料元素的前驅和後繼等等。首先描述線性表的

Python自動化開發（一）【未完待續】

urn sts dha sel def open entos div 初始 1、創建項目　　 2、創建models from django.db import models # Create your models here. # 主機表 class Host(m

08.SQL Server 基本操作【分離（脫機）、附加（聯機）】

原因 -1 文件的操作刪除方法附加文件技術分享屬性 1、創建、刪除（對準數據庫右鍵）2、分離（脫機）、附加（聯機）關於附加數據庫失敗的處理：原因：對文件的操作權限不夠處理方法：對準mdf文件和ldf文件右鍵屬性安全性將用戶 Users

第四章串的基本操作【數據結構】

scan nta contact can 描述 length return turn 釋放運行截圖。自己太久沒有這樣用過指針了，總是用不好~~ 下次自己申請了一個指針，就得初始化，不然在判斷是否為空的操作下，會導致程序停止運行。（傳說中的敲代碼5分鐘，debug

2018-07-13期 Zookeeper客戶端基本操作【本人親自反復驗證通過分享】

RoCE 分享自動刪除 ast state println await roc 可用說明：本文檔主要給大家介紹ZK客戶端API基本操作一、新建Java工程1、New->Project->Java Project填寫JAVA工程名字，選擇JDK版本等2、為新建

【未完成】Scala 基礎

-s 調用 end 使用 sum 延遲計算 ++ com 1.2 0. 說明 1. 基本概念　　1.0 Scala是什麽　　Scala 是一門多範式的編程語言，設計初衷是要集成面向對象編程和函數式編程的各種特性。　　1.1 變量 &

spark 基本操作整理

textfile park div not 方法版本處理 rds reac 關於spark 的詳細操作請參照spark官網 scala 版本：2.11.8 1.添加spark maven依賴，如需訪問hdfs，則添加hdfs依賴 groupId = org.a

spark 基本操作（二）

select ray oca uil top main taf str afr 1.dataframe 基本操作 def main(args: Array[String]): Unit = { val spark = SparkSession.builde

畢業工作大記事【未完待續持續更新。。。。】

我感覺我從08年畢業到現在也是很長的一段時間了，老是想寫個回憶錄之類的來記錄自己的這段經歷，所以才有了這篇文章。由於老是想不起來定期更新，所以進度老是很慢，寫一步算一步吧。現在csdn上的人好像也沒以前多了。言歸正傳。第一章

opencv--影象的基本操作【2】

1、影象的表示 1.1、數字影象一副尺寸為 M × N 的影象可以用一個 M × N 的矩陣來表示，矩陣元素的值表示這個位置上的畫素的亮度，一般來說畫素值越大表示該點越亮。如圖影象，我們看到的是 Lena 的頭像，但是計算機看來，這副影象只是一堆亮度各異的點。圖中白色圓圈

Measuring Similarity between Clusters (Clusters 之間相似度的測量)【未完待續】

綜述測量clusters(聚類)之間距離的方法一般可以分為四類， single linkage, complete linkage, average linkage , average groups linkage Single linkage 用兩個聚類中相鄰最近的點來做

C語言線性表的操作~（未完）

#include <stdio.h> #include <malloc.h> typedef struct{ int *elem; //基地址 int length; int listsize; }Seqlist;//定義Seq這個新的資料

SQL Server資料庫同步問題分享(二)—操作步驟[未完，待續]

上面的設定自己看著辦資料庫表中如果有些表字段沒有指定釋出，則在篩選的時候是不允許的可以使用釋出資料庫機器作為分發伺服器，一般情況我們也是這麼做的，當然我們也可以使用其他的機器作為分發伺服器，這裡就需要自己配置分發伺服器這裡配置了機器名的對映，可以參考一下 (一) SQLServer服務啟動使用資料庫同步

Scala 開發Spark 基本模板

一、JDK安裝(略) 二、Scala安裝配置 2.1進入scala官網下載對應版本的scala 安裝包。 2.2 新建目錄 mkdir -p /usr/local/scala 2.2解壓 tar -zxvf scala-2.10.4.tar.gz -C /u

Scala in Spark 基本操作【未完】

collect 或 materialize linesWithSpark RDD中的資料

快取RDD linesWithSpark

將linesWithSpark從記憶體中刪除

相關推薦