1. 程式人生 > >spark學習-checkpoint和持久化的區別

spark學習-checkpoint和持久化的區別

checkpoint和持久化的區別:

1.持久化只是將資料儲存在BlockManager中,而RDD的lineage是不變的。但是checkpoint執行完後,RDD已經沒有之前所謂的依賴RDD了,而只有一個強行為其設定的checkpointRDD,RDD的lineage改變了。

2.持久化的資料丟失可能性更大,磁碟、記憶體都可能會存在資料丟失的情況。但是checkpoint的資料通常是儲存在如HDFS等容錯、高可用的檔案系統,資料丟失可能性較小。

注:預設情況下,如果某個RDD沒有持久化,但是設定了checkpoint,會存在問題,本來這個job都執行結束了,但是由於中間RDD沒有持久化,checkpoint job想要將RDD的資料寫入外部檔案系統的話,需要全部重新計算一次,再將計算出來的RDD資料checkpoint到外部檔案系統。所以,建議對checkpoint()的RDD使用persist(StorageLevel.DISK_ONLY),該RDD計算之後,就直接持久化到磁碟上。後面進行checkpoint操作時就可以直接從磁碟上讀取RDD的資料,並checkpoint到外部檔案系統。

相關推薦

spark學習-checkpoint持久化區別

checkpoint和持久化的區別:1.持久化只是將資料儲存在BlockManager中,而RDD的lineage是不變的。但是checkpoint執行完後,RDD已經沒有之前所謂的依賴RDD了,而只有一個強行為其設定的checkpointRDD,RDD的lineage改變了

java web基礎學習 ForwardRedirect區別

響應 對象 一次 servlet t對象 資源 http 發的 請求 Forward和Redirect代表了兩種請求轉發方式:直接轉發和間接轉發。對應到代碼裏,分別是RequestDispatcher類的forward()方法和HttpServletRequest類的sen

np.dot學習//rangexrange區別//

之前在最大熵的時候也遇到過,當時就沒搞清楚。 np.dot實現矩陣相乘,數學意義上的,矩陣1的某一行乘以矩陣2的某一列.還有一個函式matmul也能實現相似運算。 而各個元素相乘,是a*b或者是np.multiply   矩陣相乘:dot,matmul 元素相乘:

Spark:RDD操作持久化

建立RDD 進行Spark核心程式設計時,首先要做的第一件事,就是建立一個初始的RDD。該RDD中,通常就代表和包含了Spark應用程式的輸入源資料。然後在建立了初始的RDD之後,才可以通過Spark Core提供的transformation運算元,對該RDD進行轉換,來獲取其他的RD

Spark學習筆記 --- Spark中MapFlatMap轉換的區別

wechat:812716131 ------------------------------------------------------ 技術交流群請聯絡上面wechat ----------------------------------------------

Spark深入學習-11】Spark基本概念運行模式

nmf 磁盤 大數據平臺 並不是 鼠標 .cn 管理系統 大型數據集 spa ----本節內容------- 1.大數據基礎 1.1大數據平臺基本框架 1.2學習大數據的基礎 1.3學習Spark的Hadoop基礎 2.Hadoop生態基本介紹 2.1

java mybatis學習之$#區別,mapper代理接口,動態SQL,在日誌中輸出mybatis的sql語句

except 控制臺 處理方式 ron target 技術分享 需要 prefix job 1.在mybatis中,$和#的區別: #{}:表示一個預處理參數,參數類型不定,是根據傳入的參數類型來設定的。類似於JDBC中的? 特例使用,模糊查詢:(針對oracle): an

Spark 學習筆記之 Standalone與Yarn啟動運行時間測試

span ima 上傳 運行 yarn erl 技術分享 word wordcount Standalone與Yarn啟動和運行時間測試: 寫一個簡單的wordcount: 打包上傳運行: Standalone啟動: 運行時間:

Linux學習-- su - su的區別深入解析

讀取 4.6 用戶 ble 運行 系統 export 非交互 交互 su - 和su 的區別--也即交互式登錄和非交互式登錄一、簡單介紹 交互式: 直接通過終端輸入賬號密碼登錄等 變量,別名等不會繼承上一級shell,都會重新讀取 非交互式:圖形化界面下打

Spark學習之路 (四)Spark的廣播變量累加器

img 還原 變量定義 如果 style 調優 學習之路 park 系統 一、概述 在spark程序中,當一個傳遞給Spark操作(例如map和reduce)的函數在遠程節點上面運行時,Spark操作實際上操作的是這個函數所用變量的一個獨立副本。這些變量會被復制到每臺機器

Spark的StreamingSpark的SQL簡單入門學習

gen 官方文檔 文檔 zed pairs running eas SM from 1、Spark Streaming是什麽? a、Spark Streaming是什麽?  Spark Streaming類似於Apache Storm,用於流式數據的處理。根據其官方文

Redis AOF持久化RDB持久化區別

redis兩種持久化一、redis持久化----兩種方式1、redis提供了兩種持久化的方式,分別是RDB(Redis DataBase)和AOF(Append Only File)。2、RDB,簡而言之,就是在不同的時間點,將redis存儲的數據生成快照並存儲到磁盤等介質上;3、AOF,則是換了一個角度來實

MR的shuffleSpark的shuffle之間的區別

solid combine 大量 數據 文件 分區 小文件 位置 task創建 mr的shuffle mapShuffle 數據存到hdfs中是以塊進行存儲的,每一個塊對應一個分片,maptask就是從分片中獲取數據的 在某個節點上啟動了map Task,map Tas

【轉】HTTP學習---TCPUDP協議的區別與應用

用戶數 prot 發送 smi 處理 層次 實時性 oot user 【原文】https://www.toutiao.com/i6592813624689951239/ 概述 ⊙TCP/IP是個協議組,可分為三個層次:網絡層、傳輸層和應用層。 在網絡層有IP協議、ICMP

.net core學習筆記《sdkruntime區別及使用CLI在Ubuntu上快速搭建Console,WebApi,MVC三大應用模型》

img 裝包 new 來看 tin console bubuko file 接下來 一、需要安裝的軟件 1、虛擬機安裝Ubuntu系統(本人用的是vmware-14.1.12和buntu-18.04) 2、Xshell或 Putty(連接ssh服務) 3、FileZilla

Spark中repartitionpartitionBy的區別

是我 item its alt ive 同時 tint nts exe repartition 和 partitionBy 都是對數據進行重新分區,默認都是使用 HashPartitioner,區別在於partitionBy 只能用於 PairRDD,但是當它們同時都用於

Spark本地除錯程式重啟checkpoint恢復碰到的問題

Spark本地除錯和程式重啟checkpoint恢復碰到的問題 1、產生問題的背景   今天自測Spark程式碰到兩個問題,(1)、啟動流式程式報錯 (2)、重啟Spark程式,同一個物件的部分資料恢復了,一部分沒有恢復   第一個問題的報錯資訊:   第二個問題的結果資訊: 2、排查

spark mapmapPartitions區別

主要區別: map是對rdd中的每一個元素進行操作; mapPartitions則是對rdd中的每個分割槽的迭代器進行操作 MapPartitions的優點: 如果是普通的map,比如一個partition中有1萬條資料。ok,那麼你的function要執行和計算1萬次。 使用M

Spark學習筆記(一) Ubuntu安裝JDKssh

1. Hadoop的必要軟體環境 Java開發環境JDK ssh(安全外殼協議) 1.1 Ubuntu下安裝JDK 系統環境:ubuntu-18.04.1 JDK版本:1.8 1.1.1 從oracle官方下載jdk的包到本機

區別 學習整理1

原文 有些地方還沒有完全理解收藏學習 堆和棧的區別一、預備知識—程式的記憶體分配一個由c/C++編譯的程式佔用的記憶體分為以下幾個部分1、棧區(stack)— 由編譯器自動分配釋放 ,存放函式的引數值,區域性變數的值等。其操作方式類似於資料結構中的棧。2、堆區(heap)