《深入理解Spark：核心思想與原始碼分析》一書第一章的內容請看連結《第1章環境準備》

本文主要展示本書的第2章內容：

Spark設計理念與基本架構

“若夫乘天地之正，而御六氣之辯，以遊無窮者，彼且惡乎待哉？”

——《莊子·逍遙遊》

n本章導讀：

上一章，介紹了Spark環境的搭建，為方便讀者學習Spark做好準備。本章首先從Spark產生的背景開始，介紹Spark的主要特點、基本概念、版本變遷。然後簡要說明Spark的主要模組和程式設計模型。最後從Spark的設計理念和基本架構入手，使讀者能夠對Spark有巨集觀的認識，為之後的內容做一些準備工作。

Spark是一個通用的平行計算框架，由加州伯克利大學（

UCBerkeley）的AMP實驗室開發於2009年，並於2010年開源。2013年成長為Apache旗下為大資料領域最活躍的開源專案之一。Spark也是基於map reduce 演算法模式實現的分散式計算框架，擁有Hadoop MapReduce所具有的優點，並且解決了Hadoop MapReduce中的諸多缺陷。

2.1 初識Spark

2.1.1 Hadoop MRv1的侷限

早在Hadoop1.0版本，當時採用的是MRv1版本的MapReduce程式設計模型。MRv1版本的實現都封裝在org.apache.hadoop.mapred包中，MRv1的Map和Reduce是通過介面實現的。MRv1

包括三個部分：

q執行時環境（JobTracker和TaskTracker）；

q程式設計模型（MapReduce）；

q資料處理引擎（Map任務和Reduce任務）。

MRv1存在以下不足：

q可擴充套件性差：在執行時，JobTracker既負責資源管理又負責任務排程，當叢集繁忙時，JobTracker很容易成為瓶頸，最終導致它的可擴充套件性問題。

q可用性差：採用了單節點的Master，沒有備用Master及選舉操作，這導致一旦Master出現故障，整個叢集將不可用。

q資源利用率低：TaskTracker 使用“slot”等量劃分本節點上的資源量。“slot”代表計算資源（

CPU、記憶體等）。一個Task 獲取到一個slot 後才有機會執行，Hadoop 排程器負責將各個TaskTracker 上的空閒slot 分配給Task 使用。一些Task並不能充分利用slot，而其他Task也無法使用這些空閒的資源。slot 分為Map slot 和Reduce slot 兩種，分別供MapTask 和Reduce Task 使用。有時會因為作業剛剛啟動等原因導致MapTask很多，而Reduce Task任務還沒有排程的情況，這時Reduce slot也會被閒置。

q不能支援多種MapReduce框架：無法通過可插拔方式將自身的MapReduce框架替換為其他實現，如Spark、Storm等。

MRv1的示意如圖2-1。

圖2-1 MRv1示意圖[1]

Apache為了解決以上問題，對Hadoop升級改造，MRv2最終誕生了。MRv2中，重用了MRv1中的程式設計模型和資料處理引擎。但是執行時環境被重構了。JobTracker被拆分成了通用的資源排程平臺（ResourceManager，簡稱RM）和負責各個計算框架的任務排程模型（ApplicationMaste，簡稱AM）。MRv2中MapReduce的核心不再是MapReduce框架，而是YARN。在以YARN為核心的MRv2中，MapReduce框架是可插拔的，完全可以替換為其他MapReduce實現，比如Spark、Storm等。MRv2的示意如圖2-2所示。

圖2-2 MRv2示意圖

Hadoop MRv2雖然解決了MRv1中的一些問題，但是由於對HDFS的頻繁操作（包括計算結果持久化、資料備份及shuffle等）導致磁碟I/O成為系統性能的瓶頸，因此只適用於離線資料處理，而不能提供實時資料處理能力。

2.1.2 Spark使用場景

Hadoop常用於解決高吞吐、批量處理的業務場景，例如離線計算結果用於瀏覽量統計。如果需要實時檢視瀏覽量統計資訊，Hadoop顯然不符合這樣的要求。Spark通過記憶體計算能力極大地提高了大資料處理速度，滿足了以上場景的需要。此外，Spark還支援SQL查詢，流式計算，圖計算，機器學習等。通過對Java、Python、Scala、R等語言的支援，極大地方便了使用者的使用。

2.1.3 Spark的特點

Spark看到MRv1的問題，對MapReduce做了大量優化，總結如下：

q快速處理能力。隨著實時大資料應用越來越多，Hadoop作為離線的高吞吐、低響應框架已不能滿足這類需求。Hadoop MapReduce的Job將中間輸出和結果儲存在HDFS中，讀寫HDFS造成磁碟IO成為瓶頸。Spark允許將中間輸出和結果儲存在記憶體中，節省了大量的磁碟IO。同時Spark自身的DAG執行引擎也支援資料在記憶體中的計算。Spark官網聲稱效能比Hadoop快100倍，如圖2-3所示。即便是記憶體不足需要磁碟IO，其速度也是Hadoop的10倍以上。

圖2-3 Hadoop與Spark執行邏輯迴歸時間比較

q易於使用。Spark現在支援Java、Scala、Python和R等語言編寫應用程式，大大降低了使用者的門檻。自帶了80多個高等級操作符，允許在Scala，Python，R的shell中進行互動式查詢。

q支援查詢。Spark支援SQL及Hive SQL對資料查詢。

q支援流式計算。與MapReduce只能處理離線資料相比，Spark還支援實時的流計算。Spark依賴Spark Streaming對資料進行實時的處理，其流式處理能力還要強於Storm。

q可用性高。Spark自身實現了Standalone部署模式，此模式下的Master可以有多個，解決了單點故障問題。此模式完全可以使用其他叢集管理器替換，比如YARN、Mesos、EC2等。

q豐富的資料來源支援。Spark除了可以訪問作業系統自身的檔案系統和HDFS，還可以訪問Cassandra, HBase, Hive, Tachyon以及任何Hadoop的資料來源。這極大地方便了已經使用HDFS、Hbase的使用者順利遷移到Spark。

2.2 Spark基礎知識

1.版本變遷

經過4年多的發展，Spark目前的版本是1.4.1。我們簡單看看它的版本發展過程。

1)Spark誕生於UCBerkeley的AMP實驗室（2009）。

2)Spark正式對外開源（2010）。

3)Spark 0.6.0版本釋出（2012-10-15），大範圍的效能改進，增加了一些新特性，並對Standalone部署模式進行了簡化。

4)Spark 0.6.2版本釋出（2013-02-07），解決了一些bug，並增強了系統的可用性。

5)Spark 0.7.0版本釋出（2013-02-27），增加了更多關鍵特性，例如：Python API、Spark Streaming的alpha版本等。

6)Spark 0.7.2版本釋出（2013-06-02），效能改進並解決了一些bug，新的API使用的例子。

7)Spark接受進入Apache孵化器（2013-06-21）。

8)Spark 0.7.3版本釋出（2013-07-16），一些bug的解決，更新Spark Streaming API等。

9)Spark 0.8.0版本釋出（2013-09-25），一些新功能及可用性改進。

10)Spark 0.8.1版本釋出（2013-12-19），支援Scala 2.9，YARN 2.2，Standalone部署模式下排程的高可用性，shuffle的優化等。

11)Spark 0.9.0版本釋出（2014-02-02），增加了GraphX，機器學習新特性，流式計算新特性，核心引擎優化（外部聚合、加強對YARN的支援）等。

12)Spark 0.9.1版本釋出（2014-04-09），增加使用YARN的穩定性，改進Scala和Python API的奇偶性。

《深入理解Spark：核心思想與原始碼分析》（第2章）

Spark設計理念與基本架構