1. 程式人生 > >Spark的簡單介紹(與MapReduce對比)

Spark的簡單介紹(與MapReduce對比)

1.spark計算
引擎:
1.快速 DAG(有向無環圖) Memory
spark架構圖
2.通用 spark sparkSQL、SparkStreaming等相當於在spark平臺上的 jar包 需要時直接以Jar包的方式匯入

2執行模式.
Hadoop、Mesos、standlone。
可以處理任意型別的hadoop資料來源 如hbase、hive等

3.MapReduce與Spark相比,有哪些異同點

1.基本原理上
a。MapReduce:基於磁碟的大資料批量處理系統
b。Spark:基於RDD(彈性分散式資料集)資料處理、顯示的將RDD資料儲存到磁碟和記憶體中

2.模型上:

a.MapReduce:可以處理超大規模資料,適合日誌分析挖掘等較少的迭代的長任務
需求。很好的結合了資料的分散式的儲存和分散式的計算。

b.Spark:資料的挖掘、機器學習等多輪迭代式的計算任務

容錯性:

a。資料的容錯性

b。節點的容錯性

Spark Linage

具體內容
在spark中,一個應用程式中包含多個job任務,在mapreduce中一個job就是一個應用
sc.textFile(“hdfs://hadoop:8020/user/spark/wc.input”).flatMap(line =>line.split(“”)).map(word =>(word,1)).reduceByKey((a,b)=>a+b).collect

sc.textFile(“hdfs://hadoop:8020/user/spark/wc.input”).flatMap(.split(“”)).map((,1)).reduceByKey(+).collect

RDD(彈性分散式資料及)
1.分割槽 partition
2.計算 compute 每個分割槽上都可以計算
3.依賴

這裡寫圖片描述