大資料基礎之Spark

阿新 • • 發佈：2018-11-17

一背景
在這裡插入圖片描述

Spark 是 2010 年由 UC Berkeley AMPLab 開源的一款基於記憶體的分散式計算框架，2013 年被Apache 基金會接管，是當前大資料領域最為活躍的開源專案之一

Spark 在 MapReduce 計算框架的基礎上，支援計算物件資料可以直接快取到記憶體中，大大提高了整體計算效率。特別適合於資料探勘與機器學習等需要反覆迭代計算的場景。

二特性

高效：Spark提供 Cache 機制，支援需要反覆迭代的計算或者多次資料共享，基於Spark 的記憶體計算比 Hadoop MapReduce 快100倍。

易用：Spark提供 20 多種資料集操作型別，並支援使用 Python 和 Scala 指令碼開發應用。

先進架構：Spark採用 Scala 語言編寫，基於 DAG 圖的執行引擎，減少多次計算之間中間結果寫到 HDFS 的開銷。

三應用場景
在這裡插入圖片描述

Spark之上有四種應用工具庫。

Spark Streaming: 用於流式計算。

MLlib：用於機器學習（聚類、協同過濾等）。

Spark SQL：用於處理結構化資料。

GraphX：用於圖和圖平行計算的API。

目前主要應用在廣告精準投放系統、日誌報表即時查詢、以及推薦系統等業務場景。這些應用場景的共同特點是計算量大且效率要求高。

四部署模式

Spark有三種部署模式。

Standalone：使用Spark自帶的叢集管理器。

Spark on Mesos：使用 Mesos 管理資源。

Spark on YARN：使用 YARN 管理資源。

五任務流程

Spark重要元件包括 Driver Program（Driver）和Executor。以 Standalone（Driver 執行在 Client）模式為例介紹任務執行流程。
在這裡插入圖片描述

客戶端執行使用者程式，啟動 Driver。
Driver將作業轉換為DAG圖(類似資料處理的流程圖)，根據策略將DAG圖劃分為多個Stage，最終生成一系列最小可執行的Task。
Driver根據Task的需求，向Master申請執行Task所需的資源。
Master為Task排程分配滿足需求的Worker節點，在Worker節點啟動Exeuctor。
Exeuctor啟動後向Driver註冊。
Driver將Task排程到Exeuctor執行。
Executor執行結果寫入檔案或返回Driver。

很多初學者，對大資料的概念都是模糊不清的，大資料是什麼，能做什麼，學的時候，該按照什麼線路去學習，學完往哪方面發展，想深入瞭解，想學習的同學歡迎加入大資料學習qq群：458345782，有大量乾貨（零基礎以及進階的經典實戰）分享給大家，並且有清華大學畢業的資深大資料講師給大家免費授課，給大家分享目前國內最完整的大資料高階實戰實用學習流程體系。

大資料基礎之Spark（1）Spark Submit即Spark任務提交過程

Spark版本2.1.1 一 Spark Submit本地解析 1.1 現象提交命令： spark-submit --master local[10] --driver-memory 30g --class app.package.AppClass app-1

分分鐘理解大資料基礎之Spark

一背景 Spark 是 2010 年由 UC Berkeley AMPLab 開源的一款基於記憶體的分散式計算框架，2013 年被Apache 基金會接管，是當前大資料領域最為活躍的開源專案之一 Spark 在 MapReduce 計算框架的基礎上，支援計算物件資料可以直接快取到記憶體中，大大提高了整體

大資料基礎之Spark

一背景 Spark 是 2010 年由 UC Berkeley AMPLab 開源的一款基於記憶體的分散式計算框架，2013 年被Apache 基金會接管，是當前大資料領域最為活躍的開源專案之一 Spark 在 MapReduce 計算框架的基礎上，支援計算物件資料可以直接快取到

【原創】大資料基礎之Spark（4）RDD原理及程式碼解析

一簡介 spark核心是RDD，官方文件地址：https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds官方描述如下：重點是可容錯，可並行處理 Spark r

【原創】大資料基礎之Spark（5）Shuffle實現原理及程式碼解析

一簡介 Shuffle，簡而言之，就是對資料進行重新分割槽，其中會涉及大量的網路io和磁碟io，為什麼需要shuffle，以詞頻統計reduceByKey過程為例， serverA：partition1: (hello, 1), (word, 1)serverB：partition2: (hell

【原創】大資料基礎之Spark（6）rdd sort實現原理

spark 2.1.1 spark中可以通過RDD.sortBy來對分散式資料進行排序，具體是如何實現的？來看程式碼： org.apache.spark.rdd.RDD /** * Return this RDD sorted by the given key function.

【原創】大資料基礎之Spark（7）spark讀取檔案split過程（即RDD分割槽數量）

spark 2.1.1 spark初始化rdd的時候，需要讀取檔案，通常是hdfs檔案，在讀檔案的時候可以指定最小partition數量，這裡只是建議的數量，實際可能比這個要大（比如檔案特別多或者特別大時），也可能比這個要小（比如檔案只有一個而且很小時），如果沒有指定最小partition數量，初始化完成的

大資料基礎之Oozie vs Azkaban

概括： Azkaban是一個非常輕量的開源排程框架，適合二次開發，但是無法直接用於生產環境，存在致命缺陷（比如AzkabanWebServer是單點，1年多時間沒有修復），在一些情景下的行為簡單粗暴（比如重啟AzkabanExecutorServer會導致該server上正在執行的所有流程fail），很多時

大資料基礎之Quartz（1）簡介、原始碼解析

一簡介官網 http://www.quartz-scheduler.org/ What is the Quartz Job Scheduling Library? Quartz is a richly featured, open source job scheduling libra

大資料學習之SPARK計算天下

學習大資料技術，SPARK無疑是繞不過去的技術之一，它的重要性不言而喻，本文將通過提問的形式圍繞著SPARK進行介紹，希望對大家有幫助，與此同時，感謝為本文提供素材的科多大資料的武老師。為了輔助大家更好去了解大資料技術，本文集中討論Spark的一系列技術問題，大家在學習過程中如果遇到困難，可以

大資料基礎之Kafka（1）簡介、安裝及使用

http://kafka.apache.org 一簡介 Kafka® is used for building real-time data pipelines and streaming apps. It is horizontally scalable,&nb

大資料基礎之如何匯出jar包並放在hdfs上執行

我口才不好，文字描述也不行，但是基本邏輯是通的。匯出jar包1.首先完成mapper和reducer還有main方法的編碼2。右鍵點選peopleinfo的包，選擇export-》Java-》JAR file，點選NEXT3.輸入jar包名稱以及匯出地址,點選next->next4.點選Browse

大資料基礎之詞頻統計Word Count

對檔案進行詞頻統計，是一個大資料領域的hello word級別的應用，來看下實現有多簡單： 1 Linux單機處理 egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10 2 Spark分散式處理（Sca

【原創】大資料基礎之Hive（1）Hive SQL執行過程

hive 2.1 hive執行sql有兩種方式：執行hive命令，又細分為hive -e，hive -f，hive互動式；執行beeline命令，beeline會連線遠端thrift server；下面分別看這些場景下sql是怎樣被執行的： 1 hive命令啟動

大資料入門之Spark快速入門及匯入資料，求平均值

執行環境本文的具體執行環境如下： CentOS 7.6 Spark 2.4 Hadoop 2.6.0 Java JDK 1.8 Scala 2.10.5 一、下載安裝首先在官網 https://spark.apache.org/downloads.html 下載對應版

零基礎學習大資料怎樣入門Spark

1.什麼是Spark Apache Spark是一個圍繞速度、易用性和複雜分析構建的大資料處理框架。最初在2009年由加州大學伯克利分校的AMPLab開發，並於2010年成為Apache的開源專案之一。與Hadoop和Storm等其他大資料和MapReduce技術相比，Spark有如下優勢

大資料學習之路97-kafka直連方式（spark streaming 整合kafka 0.10版本）

我們之前SparkStreaming整合Kafka的時候用的是傻瓜式的方式-----createStream,但是這種方式的效率很低。而且在kafka 0.10版本之後就不再提供了。接下來我們使用Kafka直連的方式，這種方式其實是呼叫Kafka底層的消費資料的API,我們知道，越底層的東

大資料學習之路106-spark streaming統計結果寫入mysql

我們首先將資料庫的配置資訊寫到配置檔案中。要使用配置檔案的話，首先我們要在pom檔案中匯入配置檔案讀取依賴： <dependency> <groupId>com.typesafe</groupId>

大資料晉級之路（5）Hadoop，Spark，Storm綜合比較

大資料框架：Spark vs Hadoop vs Storm 目錄 Hadoop Spark Storm 大資料時代，TB級甚至PB級資料已經超過單機尺度的資料處理，分散式處理系統應運而生。知識預熱「專治不明覺厲」之“大資料

大資料技術之 Linux 基礎

一、Linux 入門概述概述 Linux 核心最初只是由芬蘭人林納斯·託瓦茲（Linus Torvalds）在赫爾辛基大學上學時出於個人愛好而編寫的。 Linux 是一套免費使用和自由傳播的類 Unix 作業系統，是一個基於 P

大資料基礎之Spark

相關推薦