SparkML (一) Spark的環境搭建與執行

阿新 • • 發佈：2018-12-25

做Spark也有段時間了，主要是平臺方面的東西原始碼也改過些。不過總覺得還是應用才是王道，加上現在AI日趨火爆，抽點時間學習下SparkML吧。—前言

我部落格裡SparkML系列的文章是基於Spark機器學習這本書(Nick Pentreath著),把每章重點和自己的一些感悟記錄下。

Spark的環境搭建與執行

Spark支援4中執行模式

本地單機模式: 在本機的一個JVM裡構造的一個多執行緒版本的Spark執行環境，用於開發測試。
叢集單機模式: Spark StandAlone 穩定、搭建簡單，但想同時使用Hadoop MR/hive等不太合適，適合小規模、特定領域的Spark叢集。

Spark on Mesos: 支援細粒度的資源排程，spark原生就支援的調動器，與docker支援好，適合雲。
Spark on Yarn: yarn是最有前途的資源排程器，能同時支援多種計算框架，與資料倉庫容易結合，但目前不支援細粒度的資源排程。適合大資料平臺。

Spark應用程式由兩部分組成

驅動程式(Driver)，有且只有一個，負責資源排程、DAG生成、計算任務排程等也可以進行一些運算。
執行程式(Executors)，預設是2，可以是0，一般有多個。負責拉取資料進行計算、儲存資料等等。

Spark程式設計模型

SparkContext和SparkConf類

SparkContext類是Spark應用程式的入口，也是Driver程式的核心模組。用來初始化各種配置、連線叢集、控制Executor等。SparkContext物件建立時，需要SparkConf類作為引數，如果不用則使用預設配置。

spark-shell

spark支援scala/python版的REPL，分別是spark-shell和pyspark

RDD(彈性分散式資料集)

RDD是Spark最核心的概念，使用者可以暫時理解為分散式的資料。自帶豐富的api，可以進行各種transformation和action計算。詳情參閱其他文件

廣播變數和累加器

這是Spark中最常用且功能強大的兩種變數型別
廣播變數

是隻讀的變數。由sparkcontext建立併發布到所有Executor，從而減少了Executor頻繁讀取同一份資料的開銷。
累加器 非只讀，且可以累加的變數。又可以分為本地累加器(Executor節點建立，只能訪問自己節點的累加器)和全域性累加器(由Driver建立，並且只允許Driver程式訪問)。

Spark程式設計入門

pass (都是程式碼，沒必要貼了)

SparkML (一) Spark的環境搭建與執行

Spark的環境搭建與執行

Spark支援4中執行模式

Spark應用程式由兩部分組成

Spark程式設計模型

SparkContext和SparkConf類

spark-shell

RDD(彈性分散式資料集)

廣播變數和累加器

Spark程式設計入門

SparkML (一) Spark的環境搭建與執行

MongoDB（一）環境搭建與初始配置

Spring4學習筆記一：環境搭建與插件安裝

使用JAVA開發微信公眾平臺（一）——環境搭建與開發接入

Python3與OpenCV3.3 圖像處理（一）--環境搭建與簡單DEMO

JDK+Jmeter+Ant+Jenkins介面自動化持續整合環境搭建與執行

Java開發環境搭建與執行

Python3與OpenCV3.3 影象處理（一）--環境搭建與簡單DEMO

solr4.7 環境搭建與執行(Win7下)

ROS+科大訊飛語音=讓你的機器人能聽會說---（一）環境搭建與準備

Spark部署與開發環境搭建jjar執行

Android 開發：（一）安卓開發環境搭建與配置 (Windows和Mac )以及目錄結構介紹

S2X環境搭建與示例執行

Spark學習記錄（一）Spark 環境搭建以及worldCount示例

Spark本地開發環境搭建與遠端debug設定

那些年，我爬過的北科(一)——爬蟲基礎之環境搭建與入門

Xamarin環境搭建與app各種demo例項 ——Xamarin.forms（一）

Swift3.0服務端開發(一) 完整示例概述及Perfect環境搭建與配置（服務端+iOS端）

Spark叢集搭建與並驗證環境是否搭建成功(三臺機器)

ESP8266與NodeMCU開發（一）環境搭建

SparkML (一) Spark的環境搭建與執行

Spark的環境搭建與執行

Spark支援4中執行模式

Spark應用程式由兩部分組成

Spark程式設計模型

SparkContext和SparkConf類

spark-shell

RDD(彈性分散式資料集)

廣播變數和累加器

Spark程式設計入門

相關推薦