1. 程式人生 > >Scala高級語法-1

Scala高級語法-1

shell 生態圈 登錄 密碼 graphx https 準備工作 submit ive

Spark課堂筆記

Spark生態圈:
Spark Core : RDD(彈性分布式數據集)
Spark SQL
Spark Streaming
Spark MLLib:協同過濾,ALS,邏輯回歸等等 --> 機器學習
Spark Graphx : 圖計算

重點在前三章

-----------------Spark Core------------------------
一、什麽是Spark?特點?
https://spark.apache.org/
Apache Spark™ is a unified analytics engine for large-scale data processing.


特點:快、易用、通用性、兼容性(完全兼容Hadoop)

快:快100倍(Hadoop 3 之前)
易用:支持多種語言開發
通用性:生態系統全。
易用性:兼容Hadoop

spark 取代 Hadoop

二、安裝和部署Spark、Spark 的 HA

1、spark體系結構
Spark的運行方式

Yarn

Standalone:本機調試(demo)

Worker:從節點。每個服務器上,資源和任務的管理者。只負責管理一個節點。

執行過程:
一個Worker 有多個 Executor。 Executor是任務的執行者,按階段(stage)劃分任務。————> RDD


客戶端:Driver Program 提交任務到集群中。

1、spark-submit
2、spark-shell

2、spark的搭建
(1)準備工作:JDK 配置主機名 免密碼登錄
(2)偽分布式模式
在一臺虛擬機上模擬分布式環境(Master和Worker在一個節點上)

export JAVA_HOME=/usr/java/jdk1.8.0_201
export SPARK_MASTER_HOST=node3
export SPARK_MASTER_PORT=7077

Scala高級語法-1