大資料學習之SPARK計算天下

阿新 • • 發佈：2018-11-03

學習大資料技術，SPARK無疑是繞不過去的技術之一，它的重要性不言而喻，本文將通過提問的形式圍繞著SPARK進行介紹，希望對大家有幫助，與此同時，感謝為本文提供素材的科多大資料的武老師。

為了輔助大家更好去了解大資料技術，本文集中討論Spark的一系列技術問題，大家在學習過程中如果遇到困難，可以留言互動，我都將「知無不言，言無不盡」！

//話題1：MapReduce的侷限性有哪些？

回覆：

① MapReduce框架侷限性

它僅支援Map和Reduce兩種操作，而且處理效率低效，具體有這四點：

a. Map中間結果寫磁碟， Reduce寫HDFS，多個MR之間通過HDFS交換資料；

b. 任務排程和啟動開銷大；

c. 無法充分利用記憶體；

d. Map端和Reduce端均需要排序；

而且它不適合迭代計算（如機器學習、圖計算等），互動式處理（資料探勘）和流式處理（點選日誌分析）。

② MapReduce程式設計不夠靈活，最好嘗試scala函數語言程式設計。

//話題2：現有的各種計算框架有哪些？

回覆：

① 批處理有MapReduce、Hive、Pig

② 流式計算有Storm

③ 互動式計算有Impala、Presto

而Spark是一種靈活的框架，可同時進行批處理、流式計算、互動式計算！

//話題3：Spark到底有哪些特點？

回覆：

高效（比MapReduce快10~100倍）性

① 記憶體計算引擎，提供Cache機制來支援需要反覆迭代計算或者多次資料共享，減少資料讀取的IO開銷

② DAG引擎，減少多次計算之間中間結果寫到HDFS的開銷

③ 使用多執行緒池模型來減少task啟動開稍， shuffle過程中避免

④ 不必要的sort操作以及減少磁碟IO操作

易用性

① 提供了豐富的API，支援Java， Scala， Python和R四種語言

② 程式碼量比MapReduce少2~5倍

能與Hadoop整合

① 讀寫HDFS/Hbase

② 與YARN整合

//話題4：Spark中的RDD如何理解？

回覆：

RDD(Resilient Distributed Datasets)，彈性分散式資料集，有以下幾個特點：

① 分佈在叢集中的只讀物件集合（由多個Partition構成）

② 可以儲存在磁碟或記憶體中（多種儲存級別）

③ 通過並行“轉換” 操作構造

④ 失效後自動重構

//話題5：Spark中的RDD有哪些操作？

回覆：

Transformation，可通過程式集合或者Hadoop資料集構造一個新的RDD，通過已有的RDD產生新的RDD，舉例： map，filter，groupBy，reduceBy；

Action，通過RDD計算得到一個或者一組值，舉例：count，reduce，saveAsTextFile；

而它們的介面定義方式不同，Transformation： RDD[X] -> RDD[Y]；Action: RDD[X] -> Z (Z不是一個RDD, 可能是基本型別，陣列等)

同時，對於惰性執行（ Lazy Execution）也有區別，Transformation只會記錄RDD轉化關係，並不會觸發計算；Action是觸發程式執行（分散式）的運算元；

//話題6：Spark提交任務執行的命令？

回覆：

spark-submit\

--masteryarn-cluster\

--class com.xxx.examples.WordCount\

--driver-memory 2g\

--driver-cores 1\

--executor-memory 3g\

--executor-cores 3\

--num-executors 3

//話題7：Spark的執行模式？

回覆：

① local（本地模式），單機執行，通常用於測試。

② standalone（獨立模式），獨立執行在一個叢集中。

③ YARN/mesos，執行在資源管理系統上，比如YARN或mesos。其中Spark On YARN存在兩種模式yarn-client和yarn-cluster。

//話題8：Spark的本地模式怎麼理解？

回覆：

將Spark應用以多執行緒方式，直接執行在本地，便於除錯。本地模式分類如下：

① local：只啟動一個executor

② local[K]：啟動K個executor

③ local[*]：啟動跟cpu數目相同的executor

//話題9：Spark On Yarn模式的執行機制？

回覆：

追蹤一個應用程式執行過程

bin/spark-submit --master yarn-cluster --class …

core/src/main/scala/org/apache/spark/deploy/SparkSubmit.scala

yarn/src/main/scala/org/apache/spark/deploy/yarn/Client.scala

yarn/src/main/scala/org/apache/spark/deploy/yarn/ApplicationMaster.scala

core/src/main/scala/org/apache/spark/SparkContext.scala

core/src/main/scala/org/apache/spark/executor/Executor.scala

大資料學習之SPARK計算天下

學習大資料技術，SPARK無疑是繞不過去的技術之一，它的重要性不言而喻，本文將通過提問的形式圍繞著SPARK進行介紹，希望對大家有幫助，與此同時，感謝為本文提供素材的科多大資料的武老師。為了輔助大家更好去了解大資料技術，本文集中討論Spark的一系列技術問題，大家在學習過程中如果遇到困難，可以

大資料系列之實時計算Spark（十三）機器學習

1.機器學習簡介機器學習可能是當下最火的話題了。之前我們所做的一些工作，比如說java開發，安卓等等，其實無非就是在來回的寫方法，呼叫方法，而機器學習說的通俗一點可能就是找函式。要知道，我們現在面對的是巨大的資料量，對於這麼多的資料量，我們不太可能找到一個描述資料的方法或

大資料學習之路89-sparkSQL自定義函式計算ip歸屬地

使用sparkSQL當遇到業務邏輯相關的時候，就有可能會搞不定。因為業務l邏輯需要寫很多程式碼，呼叫很多介面。這個時候sql就搞不定了。那麼這個時候我們就會想能不能將業務邏輯嵌入到sql中？這種就類似於我們在hive中使用過的自定義函式UDF(user define function使用者

大資料學習之路97-kafka直連方式（spark streaming 整合kafka 0.10版本）

我們之前SparkStreaming整合Kafka的時候用的是傻瓜式的方式-----createStream,但是這種方式的效率很低。而且在kafka 0.10版本之後就不再提供了。接下來我們使用Kafka直連的方式，這種方式其實是呼叫Kafka底層的消費資料的API,我們知道，越底層的東

大資料學習之路106-spark streaming統計結果寫入mysql

我們首先將資料庫的配置資訊寫到配置檔案中。要使用配置檔案的話，首先我們要在pom檔案中匯入配置檔案讀取依賴： <dependency> <groupId>com.typesafe</groupId>

大資料學習之路107-spark streaming基於mysql歷史state統計

package com.test.sparkStreaming import java.sql.{DriverManager, PreparedStatement} import com.typesafe.config.{Config, ConfigFactory} im

大資料系列之實時計算Spark（十八）Python生成圖表

1.啟動pyspark pyspark --master local[2] 2.

大資料系列之實時計算Spark（十七）Python與Hbase整合

1.準備工作（所用到的工具庫會放在最後供下載使用） 1.1.安裝thrift cmd>pip install thrift 我使用的是Anaconda3，下載下來的包會存放到 /Lib/site-packages/目錄下，如果沒有使用Anaconda3，

大資料學習之小白如何學大資料？（詳細篇）

大資料這個話題熱度一直高居不下，不僅是國家政策的扶持，也是科技順應時代的發展。想要學習大資料，我們該怎麼做呢？大資料學習路線是什麼？先帶大家瞭解一下大資料的特徵以及發展方向。大資料的三個發展方向，平臺搭建/優化/運維/監控、大資料開發/設計/架構、資料分析/挖掘。先說一下大資料的4V特徵：資料

大資料學習之HDP SANDBOX開始學習

大資料學習之HDP SANDBOX開始學習 2017年05月07日 17:33:45 三名狂客閱讀數：2167 HDP HDP是什麼？　　HDP全稱叫做Hortonworks Data Platform。　　Hortonworks資料平臺是一款基於Apa

大資料學習之路87-SparkSQL的執行結果以不同方式寫出,及載入

我們可以將我們之前寫的wordcount的結果寫成各種格式： csv格式：程式碼如下： package com.test.SparkSQL import org.apache.avro.generic.GenericData.StringType import org.apach

大資料學習之路91-Hadoop的高可用

我們之前一直沒有配置過hadoop的高可用，今天我們就來配置一下之前我們的namenode只要一掛，則整個hdfs叢集就完蛋。雖然我們可以通過重啟的方式來恢復，可是我們重啟好之前，我們的hdfs叢集就不能提供服務了。所以它存在單點故障問題。我們可以設定兩臺namenode ,一臺為a

大資料學習之路90-sparkSQL自定義聚合函式UDAF

什麼是UDAF？就是輸入N行得到一個結果，屬於聚合類的。接下來我們就寫一個求幾何平均數的一個自定義聚合函式的例子我們從開頭寫起，先來看看需要進行計算的數如何產生： package com.test.SparkSQL import java.lang import org

大資料學習之路95-SparkStreaming寫WordCount

程式如下： package com.test.sparkStreaming import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import org.apache.spark.streaming

大資料學習之路94-kafka叢集安裝

解壓 Kafka 安裝包修改配置檔案 config/server.properties vi server.properties broker.id=0 //為依次增長的：0、1、2、3、4，叢集中唯一id log.dirs=/kafkaData/logs // Kafka

大資料學習之路93-kafka簡介

kafka是實時計算中用來做資料收集的，它是一個訊息佇列。它使用scala開發的。那麼我們就會想我們這裡能不能用hdfs做資料儲存呢？它是分散式的，高可用的。但是它還缺少一些重要的功能：比如說我們往hdfs中寫資料，之後我們需要實時的讀取。當我們讀到某一行的時候斷掉了，假如說這個讀取

大資料學習之路92-sparkSQL整合hive

我們知道sparkSQL跟hive是相容的，他支援hive的元資料庫，sql語法，多種型別的UDF，而且還支援hive的序列化和反序列化方式，意思就是hive寫的自定義函式，spark拿過來就能用。最重要的就是MetaStore元資料庫，以後一旦我們使用hive的Meta

大資料學習之路98-Zookeeper管理Kafka的OffSet

我們之前的OffSet都是交給broker自己管理的，現在我們希望自己管理。我們可以通過zookeeper進行管理。我們在程式中想要使用zookeeper,那麼就肯定會有api允許我們操作。 new ZKGroupTopicDirs() 注意：這裡使用客戶端的時候導包為：

大資料學習之路96-SparkStreaming整合Kafka

我們前面SparkStreaming獲取資料的來源是TCP,但是平常是不會這麼用的，我們通常用的是Kafka。 SparkStreamingContext是不直接提供對Kafka的訪問的。這個時候就有KafkaUtils 這裡有兩個方法 1.createDirectStream

大資料學習之路103-redis的分片代理

哨兵的出現是為了實現主節點的HA,那麼從節點會不會出現問題呢？假如所有的讀取操作都在從節點6380上，那麼6380節點就會很累，而6381節點就會很清閒。這個時候就需要負載均衡，我們這裡的負載均衡需要通過代理伺服器來實現。我們可以將需要訪問的從節點的位置配置在代理伺服器上。

大資料學習之SPARK計算天下

相關推薦