資料計算（大資料）：MapReduce、Spark、Storm概述、特點、原理

阿新 • • 發佈：2019-01-15

MapReduce

MapReduce將複雜的、運行於大規模叢集上的平行計算過程高度地抽象到了兩個函式：Map和Reduce。

特點：程式設計容易；分而治之策略（大規模資料集,會被切成許多獨立分片,分片由多個Map任務）；計算向資料靠攏（設計理念）

函式

輸入

輸出

說明

Map

<k1,v1>如：

<行號,”a b c”>

List(<k2,v2>)

如：

<“a”,1>

<“b”,1>

<“c”,1>

1.將小資料集進一步解析成一批<key,value>對，輸入Map函式中進行處理

2.每一個輸入的<k1,v1>會輸出一批<k2,v2>。<k2,v2>是計算的中間結果

Reduce

<k2,List(v2)>如：<“a”,<1,1,1>>

<k3,v3>

<“a”,3>

輸入的中間結果<k2,List(v2)>中的List(v2)表示是一批屬於同一個k2的value

MapReduce可以很好的應用各類計算問題：關係代數運算（選擇、投影、並、交、差、連線）；分組與聚合運算；矩陣-向量乘法；矩陣乘法。

Spark

spark是基於記憶體計算的大資料平行計算框架，可用於構建大型的、低延遲的資料分析應用程式。支援批處理（MapReduce）、互動式查詢（Impala）和流資料處理（Storm）。Spark

的生態系統主要包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX 等元件。

主要特點：

執行速度快：使用DAG執行引擎以支援迴圈資料流與記憶體計算。

易使用：支援使用Scala、Java、Python和R語言程式設計，通過Spark Shell進行互動式程式設計。

通用性：Spark提供完整而強大的技術棧，包括SQL查詢、流式計算、機器學習和圖演算法元件。

執行模式多樣：可運行於獨立的叢集模式中，可運行於Hadoop中，也可運行於Amazon EC2等雲環境中，並且可以訪問HDFS、Cassandra、HBase、Hive等多種資料來源。

備註：Spark處理中間過程結果儲存在記憶體，而

MapReduce儲存在hdfs中。

Spark執行架構包括叢集資源管理器（Cluster Manager）、執行作業任務的工作節點（Worker Node）、每個應用的任務控制節點（Driver）和每個工作節點上負責具體任務的執行程序（Executor）。

資源管理器可以自帶或Mesos或YARN。

Spark中map與flatmap區別：

（1）map（）：對rdd之中的元素進行逐一進行函式操作對映為另外一個rdd。

map函式會對每一條輸入進行指定的操作，然後為每一條輸入返回一個物件；

（2）Flatmap():將函式應用於rdd之中的每一個元素，將返回的迭代器的所有內容構成新的rdd。返回的型別為可迭代的型別（例如list）而flatMap函式則是兩個操作的集合——正是“先對映後扁平化”：操作1：同map函式一樣：對每一條輸入進行指定的操作，然後為每一條輸入返回一個物件操作2：最後將所有物件合併為一個物件。

Storm

對靜態資料和流資料的處理，對應著兩種截然不同的計算模式：批量計算和流式計算。

流計算（實時計算）：實時獲取來自不同資料來源的海量資料，經過實時分析處理，獲得有價值的資訊。流計算秉承一個基本理念，即資料的價值隨著時間的流逝而降低。

應用場景:Web服務、機器翻譯、廣告投放、自然語言處理、氣候模擬預測等。

原理：Storm叢集採用“Master—Worker”的節點方式，Master節點負責在叢集範圍內分發程式碼、為Worker分配任務和監測故障。Worker節點，負責監聽分配給它所在機器的工作，即Master決定啟動或停止Worker程序，一個Worker節點上同時執行若干個Worker程序。

資料計算（大資料）：MapReduce、Spark、Storm概述、特點、原理

MapReduce

Spark

Storm

資料計算（大資料）：MapReduce、Spark、Storm概述、特點、原理

資料的計算（大資料）

無鎖資料結構（基礎篇）：原子性、原子性原語

hadoop學習筆記（十一）：MapReduce數據類型

資源管理（大資料）：Zookeeper、 Yarn簡介、原理

中國旅遊研究院：2018中日韓旅遊大資料報告（附下載）

大資料（十五）：Hadoop資料壓縮與壓縮/解壓縮例項

大資料（十四）：多job串聯與ReduceTask工作機制

大資料（十二）：自定義OutputFormat與ReduceJoin合併（資料傾斜）

大資料（十八）：Hive元資料配置、常見屬性配置、資料型別與資料轉換

大資料（十七）：Hive簡介、安裝與基本操作

大資料（十六）：Yarn的工作機制、資源排程器、任務的推測執行機制

大資料（二十）：hive分割槽表、修改表語句與資料的匯入匯出

大資料（二十三）：hive優化、表優化

CBNData：2018年輕人租房大資料報告（附下載）

天巡：2018十一黃金週出境自由行大資料報告（附下載）

大資料教程（8.1）mapreduce核心思想

大資料教程（8.5）mapreduce原理之並行度

海量資料處理：十道面試題與十個海量資料處理方法總結（大資料演算法面試題）

大資料（十九）：hive資料庫基本操作與表分類

資料計算（大資料）：MapReduce、Spark、Storm概述、特點、原理

MapReduce

Spark

Storm

相關推薦