spark 初體驗

阿新 • • 發佈：2018-12-06

一、spark的產生背景

（1）MapReduce的發展：

MRv1的缺點：

早在 Hadoop1.x 版本，當時採用的是 MRv1 版本的 MapReduce 程式設計模型。MRv1 版本的實現都封裝在 org.apache.hadoop.mapred 包中，MRv1 的 Map 和 Reduce 是通過介面實現的。
MRv1 只有三個部分： 執行時環境（JobTracker 和 TaskTracker）、程式設計模型（MapReduce）、 資料處理引擎（MapTask 和 ReduceTask）。

可擴充套件性差：在執行時，JobTracker 既負責資源管理

又負責任務排程，當叢集繁忙時， JobTracker 很容易成為瓶頸，最終導致它的可擴充套件性問題。

可用性差：採用了單節點的 Master，沒有備用 Master 及選舉操作，這導致一旦 Master 出現故障，整個叢集將不可用。（單點故障）

資源利用率低：TaskTracker 使用“slot”等量劃分本節點上的資源量。slot 分為 Map slot 和 Reduce slot 兩種，分別供 MapTask 和 ReduceTask 使用。有時會因為作業剛剛啟動等原因導致 MapTask 很多，而 Reduce Task 任務還沒有排程的情況，這時 Reduce slot 也會被閒置。

不能支援多種MapReduce框架：無法通過可插拔方式將自身的 MapReduce 框架替換為其他實現，如 Spark、Storm 等。

2. MRv2的缺點：

MRv2中，重用了 MRv1 中的程式設計模型和資料處理引擎。但是執行時環境被重構了。JobTracker 被拆分成了通用的：資源排程平臺（ResourceManager，簡稱 RM）、節點管理器（NodeManager）、負責各個計算框架的任務排程模型（ApplicationMaster，簡稱 AM）。但是由於對 HDFS 的頻繁操作（包括計算結果持久化、資料備份、資源下載及 Shuffle 等）導致磁碟 I/O 成為系統性能的瓶頸

，因此只適用於離線資料處理或批處理，而不能支援對迭代式、互動式、流式資料的處理。

（2）Spark的優勢：

減少了磁碟的I/O：Spark 允許將 map 端的中間輸出和結果儲存在記憶體中，reduce 端在拉取中間結果時避免了大量的磁碟 I/O。Spark 將應用程式上傳的資原始檔緩衝到 Driver 本地檔案服務的記憶體中，當 Executor 執行任務時直接從 Driver 的記憶體中讀取，也節省了大量的磁碟 I/O。

增加並行度：park 把不同的環節抽象為 Stage，允許多個 Stage 既可以序列執行，又可以並行執行。

避免重複計算：當 Stage 中某個分割槽的 Task 執行失敗後，會重新對此 Stage 排程，但在重新排程的時候會過濾已經執行成功的分割槽任務，所以不會造成重複計算和資源浪費。

可選擇的shuffle：Spark 可以根據不同場景選擇在 map 端排序或者 reduce 端排序。

靈活的記憶體管理策略：Spark 將記憶體分為堆上的儲存記憶體、堆外的儲存記憶體、堆上的執行記憶體、堆外的執行記憶體 4 個部分。Spark 既提供了執行記憶體和儲存記憶體之間是固定邊界的實現，又提供了執行記憶體和儲存記憶體之間是“軟”邊界的實現。Spark 預設使用“軟”邊界的實現，執行記憶體或儲存記憶體中的任意一方在資源不足時都可以借用另一方的記憶體，最大限度的提高資源的利用率，減少對資源的浪費。。Spark 由於對記憶體使用的偏好，記憶體資源的多寡和使用率就顯得尤為重要，為此 Spark 的記憶體管理器提供的 Tungsten 實現了一種與作業系統的記憶體 Page 非常相似的資料結構，用於直接操作作業系統記憶體，節省了建立的 Java 物件在堆中佔用的記憶體，使得 Spark 對記憶體的使用效率更加接近硬體。Spark 會給每個 Task 分配一個配套的任務記憶體管理器，對 Task 粒度的記憶體進行管理。Task 的記憶體可以被多個內部的消費者消費，任務記憶體管理器對每個消費者進行 Task 記憶體的分配與管理，因此 Spark 對記憶體有著更細粒度的管理

（3）spark生態：

Spark 生態圈以 SparkCore 為核心，從 HDFS、Amazon S3 或者 HBase 等持久層讀取資料，以 MESOS、YARN 和自身攜帶的 Standalone 為資源管理器排程 Job 完成 Spark 應用程式的計算。

SparkShell/SparkSubmit 的批處理

SparkStreaming 的實時處理應用

SparkSQL 的結構化資料處理/即席查詢

BlinkDB 的權衡查詢

MLlib/MLbase的機器學習、GraphX的圖處理和PySpark的數學/科學計算和SparkR的資料分析。

（4）spark特點：

Seed快速高效：Spark 允許將中間輸出和結果儲存在記憶體中，節省了大量的磁碟 IO。Apache Spark 使用最先進的 DAG 排程程式，查詢優化程式和物理執行引擎，實現批量和流式資料的高效能。同時 Spark 自身的 DAG 執行引擎也支援資料在記憶體中的計算。Spark 官網聲稱效能比 Hadoop 快 100 倍。即便是記憶體不足需要磁碟 IO，其速度也是 Hadoop 的 10 倍以上

- Ease of Use 簡潔易用：Spark 現在支援 Java、Scala、Python 和 R 等程式語言編寫應用程式，大大降低了使用者的門檻。自帶了 80 多個高等級操作符（運算元），允許在 Scala，Python，R 的 shell 中進行互動式查詢，可以非常方便的在這些 Shell 中使用 Spark 叢集來驗證解決問題的方法。
- Generality：全棧式資料處理：支援批處理、支援互動式查詢、支援互動式查詢、支援機器學習、支援圖計算。

- 可用性高：Spark 也可以不依賴於第三方的資源管理和排程器，它實現了 Standalone 作為其內建的資源管理和排程框架，這樣進一步降低了 Spark 的使用門檻，使得所有人都可以非常容易地部署和使用 Spark，此模式下的 Master 可以有多個，解決了單點故障問題。當然，此模式也完全可以使用其他叢集管理器替換，比如 YARN、Mesos、Kubernetes、EC2 等。
- 豐富的資料來源支援：Spark 除了可以訪問作業系統自身的本地檔案系統和 HDFS 之外，還可以訪問 Cassandra、HBase、Hive、Tachyon（基於記憶體儲存） 以及任何 Hadoop 的資料來源。這極大地方便了已經使用 HDFS、HBase 的使用者順利遷移到 Spark。

（5）spark的應用場景：

① Yahoo 將 Spark 用在 Audience Expansion 中的應用，進行點選預測和即席查詢等
② 淘寶技術團隊使用了 Spark 來解決多次迭代的機器學習演算法、高計算複雜度的演算法等。應用於內容推薦、社群發現等
③ 騰訊大資料精準推薦藉助 Spark 快速迭代的優勢，實現了在“資料實時採集、演算法實時訓練、系統實時預測”的全流程實時並行高維演算法，最終成功應用於廣點通 PCTR 投放系統上。
優酷土豆將 Spark 應用於視訊推薦(圖計算)、廣告業務，主要實現機器學習、圖計算等迭代計算。

spark 初體驗

一、spark的產生背景（1）MapReduce的發展： MRv1的缺點：早在 Hadoop1.x 版本，當時採用的是 MRv1 版本的 MapReduce 程式設計模型。MRv1 版本的實現都封裝在 org.apache.hadoop.mapred

CDH5 Apache Spark初體驗

Apache Spark是一個通用的分散式計算框架，為大規模資料處理提供了一個高效、可擴充套件的計算引擎。由於效能、介面、功能的那個多種原因，Spark正處於“風頭浪尖”，熱度也超過了MapReduce。在這片博文中，你將學習到如何在CDH5上使用Maven編譯、執行一個S

Spark2.1.0——Spark初體驗

學習一個工具的最好途徑，就是使用它。這就好比《極品飛車》玩得好的同學，未必真的會開車，要學習車的駕駛技能，就必須用手觸控方向盤、用腳感受剎車與油門的力道。在IT領域，在深入瞭解一個系統的原理、實現細節之前，應當先準備好它的執行環境或者原始碼閱讀環境。如果能在實際環境下安裝和執行Spark，顯然能夠

【Spark深入學習 -15】Spark Streaming前奏-Kafka初體驗

rod htm 新的 callback tails 包括 -c 舉例清理 ----本節內容------- 1.Kafka基礎概念 1.1 出世背景 1.2 基本原理 1.2.1.前置知識 1.2.2.架構和原理 1.2.

第24課：使用MAT動態分析Spark應用程式初體驗

內容： 1.如何使用MAT直接分析執行的Spark程式 2.用MAT直接分析執行的Spark執行初步體驗一、如何使用MAT直接分析執行的Spark程式 1.啟動MAT 2.啟動需要檢測分析的程式 import org.apache

Spark原始碼系列（九）Spark SQL初體驗之解析過程詳解

首先宣告一下這個版本的程式碼是1.1的，之前講的都是1.0的。 Spark支援兩種模式，一種是在spark裡面直接寫sql，可以通過sql來查詢物件，類似.net的LINQ一樣，另外一種支援hive的HQL。不管是哪種方式，下面提到的步驟都會有，不同的是具體的執行過程。下面

小程序初體驗：手把手教你寫出第一個小程序（一）

輸入框個人創建公測快速 nsh 成功 too 調用本文筆者將根據quick start中的範例代碼，帶大家簡單地剖析一下小程序的運行方式，並介紹小程序開發中一些通用的特性，帶著大家一步步寫出自己的小程序。適用對象：前端初學者，對小程序開發感興趣者 tip

vue.js2.0 自定義組件初體驗

最新解綁然而 blog bool template 警告 rem 組件理解組件（Component）是 Vue.js 最強大的功能之一。組件可以擴展 HTML 元素，封裝可重用的代碼。在較高層面上，組件是自定義元素， Vue.js 的編譯器為它添加特殊功能。在有些

weblogic初體驗

xsd 體驗 target java語言註意 true 中間件鼠標使用之前一直是用的tomcat，由於業務需要，需要使用weblogic部署項目，在這裏大概的記錄一下 weblogic是oracle出品的WEB容器，確切的說是一個基於JavaEE架構的中間件，使用

python初體驗

list python 字典 python初體驗:1.python種類 CPython 代碼 -> C字節碼 -> 機器碼（一行一行） pypy 代碼 -> C字節碼 -> 機器碼全部轉換完 -> 執行其他Python 代碼 -&g

Android逆向分析初體驗

目錄搜索比較 .com -1 動態調試總結為我修改一、準備知識 1. 懂Java Android開發。 2. 懂NDK ，C 語言 Android 動態鏈接庫.SO開發。 3.

vue.js 初體驗— Chrome 插件開發實錄

原創控件 https ext 方案程序實現瀏覽器中 display 博客歡迎大家關註騰訊雲技術社區-博客園官方主頁，我們將持續在博客園為大家推薦技術精品文章哦~ 作者：陳緯傑背景對於經常和動畫開發打交道的開發者對於Animate.css這個動畫庫不

1Python全棧之路系列之Django初體驗

編寫程序 online 網絡開發程序員堪薩斯 Python全棧之路系列之Django初體驗Django不得不說在Python中是一個非常強大的全棧框架，而且入門也比較簡單，只要你學完了基本的Django知識，接著再做一兩個項目，不大不小就成，然後你再去學其它的框架你會發現，在那些小而美

flask+jsonp跨域前後臺交互（接口初體驗）

script keys 返回 == 方法 png 前後臺 true run 1 # -*- coding: utf-8 -*- 2 from flask import Flask, jsonify 3 import psutil, time,json 4 5

Hibernate_01_初體驗

基礎上 font cal close mysq getprop build nec address Hibernate的一個小例子（慕課網教程整理的代碼）：首先在eclipse--help--Eclipse MarketPlace中搜索“jboss Tool” 導入hi

zTree初體驗（一）——小試牛刀

插件 root tracking per margin 接受 dsm 獲取實現 zTree 是一個依靠 jQuery 實現的多功能 “樹插件”。優異的性能、靈活的配置、多種功能的組合是 zTree 最大長處。 ——zTree官網 zTree v3

Git初體驗——git項目開發流程

創建目錄管理文本目錄 ria 遠程歷史 zookeepe clas 眾所周知，Git是一款版本控制軟件，之前總是習慣把每次修改後的代碼打包並且標註好時間等信息加以區分，使用git之後就完全不需要這麽做了。 1.安裝git：官網下載安裝即可，沒什麽復雜的步驟 2.新

phantomjs2.1 初體驗

http dom canvas ima 行為 pen 廣告自動 str 上次看了一下scrapy1.1的新手指南決定寫個小爬蟲實驗一下目標網站是http://www.dm5.com/manhua-huofengliaoyuan準備爬取漫畫火鳳燎原的已有章節，將圖片保存

Maven項目搭建（一）：Maven初體驗

測試類 java平臺存在 ack 做的 rar cli maven2 試用今天給大家介紹一個項目管理和綜合工具：Maven。 Maven: maven讀作 [‘meivin]，本意是指可以被信任的領域專家，致力於傳播知識(來自於http://en.wikip

python的初體驗

多行註釋導致 passwd 判斷語句 swd pytho 對齊輸入 tab 最近由於畢業答辯，導致一些博客沒有更新，見諒，今天我們開始一些新的內容　　1.python的註釋　　　　單行註釋:# 　　　　多行註釋: 　　　　　　‘‘‘ 　　　　　　　這是多行註釋　　

spark 初體驗

一、spark的產生背景

相關推薦