第7章 在叢集上執行Spark
阿新 • • 發佈:2018-12-11
7.1 簡介
7.2 Spark執行時架構 分散式環境下,Spark叢集採用的是主/從結構。 驅動器節點:負責中央協調 執行器節點:工作節點 Spark應用通過一個叫做叢集管理器的外部服務在叢集中的機器上啟動。 自帶的稱為獨立叢集管理器,也可以在Hadoop YARN和Apache Mesos兩大開源叢集管理器上。
7.2.1 驅動器節點 1)把使用者程式轉化為任務 2)為執行器節點排程任務
7.2.2 執行器節點 1)負責執行組成Spark應用的任務,並將結果返回給驅動器程式 2)通過自身的塊管理器為使用者程式中要求快取的RDD提供記憶體式儲存
7.2.3 叢集管理器
7.2.4 啟動一個程式 spark-submit
7.2.5 小結
7.3 使用spark-submit部署應用
7.4 打包程式碼和依賴
7.5 Spark應用內與應用間排程
7.6 叢集管理器
7.6.1 獨立叢集管理器
7.6.2 Hadoop YARN
7.6.3 Apache Mesos
7.6.4 Amazon EC2
7.7 選擇合適的叢集管理器
7.8 小結