1. 程式人生 > >第7課:實戰解析spark執行原理和rdd解密

第7課:實戰解析spark執行原理和rdd解密

1.spark執行優勢

善於使用記憶體,磁碟,迭代式計算是其核心

2.現在為什麼很多公司都是使用java開發spark

a.scala高手較少,java高手較多

b.專案對接比較容易

c.系統運維方便

3.spark只能取代hive的儲存引擎,不能取代hive的數倉部分

4.資料輸出

可以把資料輸出到hdfs,hive,s3,hbase

5.RDD

彈性表現:

a.rdd分片預設儲存在記憶體,如果資料儲存不了,則放到磁碟中

b.很好的容錯機制

c.test失敗後會自動進行特定次數的重試,預設4次

d.stage如果失敗會自動的進行重試,只計算失敗的任務,預設重試3次