大資料實時計算Spark學習筆記(8)—— RDD 持久化
1 RDD 持久化
- 跨操作進行RDD的記憶體式儲存;
- 持久化 RDD時,節點上的每個分割槽都會儲存到記憶體中;
- 快取技術是迭代計算和互動式查詢的重要工具;
- 使用
persist()
和cache()
進行 RDD 的持久化,cache()
是perisit()
的一種; - action 第一次操作時會發生
persist()
- spark的
cache
是容錯的,如果RDD的任何一個分割槽丟失了,都可以通過最初建立 的RDD 重新計算; persist
可以使用不同的儲存級別進行持久化;
1.1 刪除持久化資料
rdd.unpersist()
2 Spark累加器,廣播變數
- 啟動叢集
- spark shell 連線到叢集
2.1 資料傳遞
map,filter
等的高階函式中訪問的物件被序列化到各個節點。每個節點都有一份拷貝- 變數值並不會回傳到 driver 程式
2.2 共享變數
- spark 通過廣播變數和累加器實現共享變數
- 累加器
相關推薦
大資料實時計算Spark學習筆記(8)—— RDD 持久化
1 RDD 持久化 跨操作進行RDD的記憶體式儲存; 持久化 RDD時,節點上的每個分割槽都會儲存到記憶體中; 快取技術是迭代計算和互動式查詢的重要工具; 使用 persist() 和 cache() 進行 RDD 的持久化,cache() 是 perisi
大資料實時計算Spark學習筆記(7)—— RDD 資料傾斜處理
1 處理資料傾斜 在 reduceByKey 之前先進行隨機分割槽 package com.bigdataSpark.cn import org.apache.spark.{SparkConf, SparkContext} import scala.util.Ran
大資料實時計算Spark學習筆記(5)—— RDD的 transformation
1 RDD的轉換 1.1 groupByKey (k,v) => (k,Iterable) package com.bigdataSpark.cn import org.apache.spark.{SparkConf, SparkContext} o
大資料實時計算Spark學習筆記(10)—— Spar SQL(2) -JDBC方式操作表
1 Spark SQL 的 JDBC 方式 POM 檔案新增依賴 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connect
大資料實時計算Spark學習筆記(9)—— Spar SQL(1) 讀取 json 檔案
1 Spark SQL 程式設計方式:(1)SQL;(2) DataFrame API scala> case class Customer(id:Int,name:String,age:Int) defined class Customer scala&g
大資料實時計算Spark學習筆記(4)—— Spak核心 API 模組介紹
1 Spark 介紹 1.1 Spark 特點 速度:在記憶體中儲存中間結果 支援多種語言 內建 80+ 的運算元 高階分析:MR,SQL/ Streaming/Mlib/Graph 1.2 Spark 模組 core : 通用執行
大資料實時計算Spark學習筆記(3)—— Spak Maven 編譯外掛
1 Scala Maven 編譯外掛 <build> <sourceDirectory>src/main/java</sourceDirectory> <plugins> <
大資料實時計算Spark學習筆記(2)—— Spak 叢集搭建
1 Spark 叢集模式 local: spark-shell --master local,預設的 standlone 1.複製 spark 目錄到其他主機 2.配置其他主機的環境變數 3.配置 master 節點的 slaves 檔案 4.啟動 spark
大資料實時計算Spark學習筆記(1)—— Spak單詞統計
1 啟動 Spark-shell [[email protected] ~]$ spark-shell Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties Se
大資料實時計算Spark學習筆記(11)—— Spark Streaming
1 Spark Streaming spark core 的擴充套件,針對實時資料處理,具有可擴充套件、高吞吐、容錯; 內部,spark 接受實時資料流,分成 batch 進行處理,最終在每個 batch 產生結果; 1.1 discretized strea
Spark學習筆記(14)——Spark Streaming 資料累加的案例
1 原始碼 package mystreaming import org.apache.spark.{HashPartitioner, SparkConf, SparkContext} import org.apache.spark.streaming.{Seconds, Stre
Spark學習筆記(3)—— Spark計算模型 RDD
1 彈性分散式資料集RDD 1.1 什麼是 RDD RDD(Resilient Distributed Dataset)叫做分散式資料集,是Spark中最基本的資料抽象,它代表一個不可變、可分割槽、裡面的元素可平行計算的集合。RDD具有資料流模型的特點:自動容錯
《資料演算法-Hadoop/Spark大資料處理技巧》讀書筆記(一)——二次排序
寫在前面: 在做直播的時候有同學問Spark不是用Scala語言作為開發語言麼,的確是的,從網上查資料的話也會看到大把大把的用Scala編寫的Spark程式,但是仔細看就會發現這些用Scala寫的文章
《資料演算法-Hadoop/Spark大資料處理技巧》讀書筆記(四)——移動平均
移動平均:對時序序列按週期取其值的平均值,這種運算被稱為移動平均。典型例子是求股票的n天內的平均值。 移動平均的關鍵是如何求這個平均值,可以使用Queue來實現。 public class MovingAverageDriver { public
spark學習筆記(3)spark核心資料結構RDD
一個簡單的例子 /* SimpleApp.scala */ import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.Spar
【筆記篇】最良心的計算幾何學習筆記(一)
變量類型 其他 條件 parallel node ons put 是否 通過 世界以痛吻我, 我卻報之以歌。 開新坑... 雖然不知道這坑要填多久... 文章同步上傳到github... 有想看的可以去看看→_→ *溫馨提示: 看本文之前請務必學習或回顧數學-必修2的解析
【筆記篇】最良心的計算幾何學習筆記(六)
紅色 online src note 不變 比較 基礎知識 cst 分類 半平面交 github傳送門 簡介 Emmmm學完旋轉卡殼感覺自己已經是個廢人了.. 修整了一個周末, 回來接著跟計算幾何勢力硬幹... (這個周末是不是有點長?) 今天就講講半平面交吧. 請自己回顧
【筆記篇】最良心的計算幾何學習筆記(二)
完整 size cos 一道 細節問題 avi 參數 cnblogs 關系 依然放上本文的github地址... 作業QwQ 先來說一下上次留下的例題. poj這道題並沒有實數比較模式.. 所以被精度勢力幹翻. 交上去WA掉竟然是因為-0.00和0.00不相等? 根據對拍
【筆記篇】最良心的計算幾何學習筆記(七)
不一定 source spa hub 掃描 markdown 如何 urn 神奇 動態凸包 本文的github傳送門在這裏~ ====================================================================== 不會凸
Spark學習筆記(19)—— 遊戲日誌分析
1 資料 0 管理員登入 1 首次登入 2 上線 3 下線 1|2016年2月1日,星期一,10:01:08|10.51.4.168|李明剋星|法師|男|1|0|0/800000000 1|2016年2月1日,星期一,10:01:12|10.117.45.20|風道|道士|男