Spark的簡單介紹（與MapReduce對比）

阿新 • • 發佈：2019-01-26

1.spark計算
引擎：
1.快速 DAG（有向無環圖） Memory
spark架構圖
2.通用 spark sparkSQL、SparkStreaming等相當於在spark平臺上的 jar包需要時直接以Jar包的方式匯入

2執行模式.
Hadoop、Mesos、standlone。
可以處理任意型別的hadoop資料來源如hbase、hive等

3.MapReduce與Spark相比，有哪些異同點

1.基本原理上
a。MapReduce：基於磁碟的大資料批量處理系統
b。Spark:基於RDD（彈性分散式資料集）資料處理、顯示的將RDD資料儲存到磁碟和記憶體中

2.模型上：

a.MapReduce:可以處理超大規模資料，適合日誌分析挖掘等較少的迭代的長任務
需求。很好的結合了資料的分散式的儲存和分散式的計算。

b.Spark:資料的挖掘、機器學習等多輪迭代式的計算任務

容錯性：

a。資料的容錯性

b。節點的容錯性

Spark Linage

具體內容
在spark中，一個應用程式中包含多個job任務，在mapreduce中一個job就是一個應用
sc.textFile(“hdfs://hadoop:8020/user/spark/wc.input”).flatMap(line =>line.split(“”)).map(word =>(word,1)).reduceByKey((a,b)=>a+b).collect

sc.textFile(“hdfs://hadoop:8020/user/spark/wc.input”).flatMap(.split(“”)).map((,1)).reduceByKey(+).collect

RDD（彈性分散式資料及）
1.分割槽 partition
2.計算 compute 每個分割槽上都可以計算
3.依賴

這裡寫圖片描述

Spark的簡單介紹（與MapReduce對比）

Spark的簡單介紹（與MapReduce對比）

NDT 演算法（與ICP對比）和一些常見配准算法

NSURLSession和多執行緒網路之GCD簡單介紹（任務，佇列）

網路裝置簡單介紹（網路基礎知識）

Sqlite3顯示資料庫、顯示錶命令（與mysql對比）

Git 入門知識（與SVN對比）

wireshark怎麼抓包、wireshark抓包詳細圖文教程，簡單介紹（及wireshark與wireshark legacy差別）

Android中基於ServerSocket的實際使用與簡單介紹（內附一個PC端群控多臺手機的訊息傳送和接收Demo）

FreeSWITCH第三方庫（音頻）的簡單介紹（一）

android application類簡單介紹（一）

Android平臺Camera實時濾鏡實現方法探討(十)--代碼地址以及簡單介紹（20160118更新）

差分約束系統簡單介紹（入門）

Java靜態檢測工具/Java代碼規範和質量檢查簡單介紹（轉）

javascript 對象簡單介紹（二）

10-8日上課簡記（簡單資料型別與輸入輸出）

網絡爬蟲簡單介紹（python）

gulp node nvm npm bower 簡單介紹（一）

JVM 結構簡單介紹（分割槽的比喻有點意思）

fiddler的簡單介紹（inspectors-Raw）

Java集合框架詳解--Collection介面簡單介紹（二）

Spark的簡單介紹（與MapReduce對比）

相關推薦