1. 程式人生 > >第7章 在叢集上執行Spark

第7章 在叢集上執行Spark

7.1 簡介

7.2 Spark執行時架構 分散式環境下,Spark叢集採用的是主/從結構。 驅動器節點:負責中央協調 執行器節點:工作節點 Spark應用通過一個叫做叢集管理器的外部服務在叢集中的機器上啟動。 自帶的稱為獨立叢集管理器,也可以在Hadoop YARN和Apache Mesos兩大開源叢集管理器上。

7.2.1 驅動器節點 1)把使用者程式轉化為任務 2)為執行器節點排程任務

7.2.2 執行器節點 1)負責執行組成Spark應用的任務,並將結果返回給驅動器程式 2)通過自身的塊管理器為使用者程式中要求快取的RDD提供記憶體式儲存

7.2.3 叢集管理器

7.2.4 啟動一個程式 spark-submit

7.2.5 小結 在這裡插入圖片描述

7.3 使用spark-submit部署應用

7.4 打包程式碼和依賴

7.5 Spark應用內與應用間排程

7.6 叢集管理器

7.6.1 獨立叢集管理器

7.6.2 Hadoop YARN

7.6.3 Apache Mesos

7.6.4 Amazon EC2

7.7 選擇合適的叢集管理器

7.8 小結