Spark和Hadoop的架構區別解讀

阿新 • • 發佈：2018-12-09

總的來說，Spark採用更先進的架構，使得靈活性、易用性、效能等方面都比Hadoop更有優勢，有取代Hadoop的趨勢，但其穩定性有待進一步提高。我總結，具體表現在如下幾個方面：

框架：

Hadoop:MapRedcue由Map和Reduce兩個階段，並通過shuffle將兩個階段連線起來的。但是套用MapReduce模型解決問題，不得不將問題分解為若干個有依賴關係的子問題，每個子問題對應一個MapReduce作業，最終所有這些作業形成一個DAG。
Spark:是通用的DAG框架，可以將多個有依賴關係的作業轉換為一個大的DAG。核心思想是將Map和Reduce兩個操作進一步拆分為多個元操作，這些元操作可以靈活組合，產生新的操作，並經過一些控制程式組裝後形成一個大的DAG作業。

中間計算結果處理：

Hadoop:在DAG中，由於有多個MapReduce作業組成，每個作業都會從HDFS上讀取一次資料和寫一次資料（預設寫三份），即使這些MapReduce作業產生的資料是中間資料也需要寫HDFS。這種表達作業依賴關係的方式比較低效，會浪費大量不必要的磁碟和網路IO，根本原因是作業之間產生的資料不是直接流動的，而是藉助HDFS作為共享資料儲存系統。
Spark：在Spark中，使用記憶體（記憶體不夠使用本地磁碟）替代了使用HDFS儲存中間結果。對於迭代運算效率更高。

操作模型：

Hadoop：只提供了Map和Reduce兩種操作所有的作業都得轉換成Map和Reduce的操作。

Spark：提供很多種的資料集操作型別比如Transformations 包括map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues,sort,partionBy等多種操作型別，還提供actions操作包括Count,collect, reduce, lookup, save等多種。這些多種多樣的資料集操作型別，給開發上層應用的使用者提供了方便。

大資料中的Spark和Hadoop的區別

大資料開發中Spark和Hadoop作為輔助模組受到了很大的歡迎，但是Spark和Hadoop區別在哪？哪種更適合我們呢，一起了解一下它們之間的區別。 Hadoop還會索引和跟蹤這些資料，讓大資料處理和分析效率達到前所未有的高度。Spark，則是那麼一個專門用來

Spark和Hadoop的架構區別解讀

總的來說，Spark採用更先進的架構，使得靈活性、易用性、效能等方面都比Hadoop更有優勢，有取代Hadoop的趨勢，但其穩定性有待進一步提高。我總結，具體表現在如下幾個方面：框架： Hadoo

Spark和Hadoop作業之間的區別

Spark目前被越來越多的企業使用，和Hadoop一樣，Spark也是以作業的形式向叢集提交任務，那麼在內部實現Spark和Hadoop作業模型都一樣嗎？答案是不對的。　　熟悉Hadoop的人應該都知道，使用者先編寫好一個程式，我們稱為Mapreduce程式，一個Mapreduce程式就是一個Jo

白話大資料 | Spark和Hadoop到底誰更厲害？

要想搞清楚spark跟Hadoop到底誰更厲害，首先得明白spark到底是什麼鬼。經過之前的介紹大家應該非常瞭解什麼是Hadoop了（不瞭解的點選這裡：白話大資料 | hadoop究竟是什麼鬼），簡單的說：Hadoop是由HDFS分散式檔案系統和MapReduce程式設計模型等部分組成的分散式系統架構。而Sp

spark是什麼？spark和MapReduce的區別？spark為什麼比hive速度快？

spark是什麼？ spark是針對於大規模資料處理的統一分析引擎，通俗點說就是基於記憶體計算的框架 spark和hive的區別？ 1.spark的job輸出結果可儲存在記憶體中，而MapReduce的job輸出結果只能儲存在磁碟中，io讀取速度要比記憶體中慢； 2.

Spark和Hadoop書籍、學習視訊網站推薦

1.Spark （1）Spark快速大資料分析介紹：由spark開發者編寫，無過多實現細節，注重基礎理念，適合小白版可以讓資料科學家和工程師即刻上手。你能學到如何使用簡短的程式碼實現複雜的並行作業，還能瞭解從簡單的批處理作業到流處理以及機器學習等應用。

Spark和Hadoop之間的關係

Spark是一個計算框架 Hadoop是包含計算框架MapReducehe分散式檔案系統HDFS。 Spark是MapReduce的替代方案，而且相容HDFS、Hive等分散式儲存系統，可融入Hadoop生態。 Spark與Hadoop MapReduce優勢如下 1 中間結果輸出 M

spark 和hadoop的 hdfs 整合（spark sql 找不到檔案）

初學spark 的時候在 spark shell視窗類裡面操作以下程式碼對hdfs 的檔案進行操作的時候會出現找不到檔案的錯誤val lineRDD= sc.textFile("/person.txt").map(_.split(" "))【此處不配圖了】原因是spark 沒

NUMA和SMP 架構區別以及對SWAP的影響

必須得承認，即使看完了MySQL如何避免使用swap和MySQL如何避免使用swap（二），swap仍然可能頑固地在主機上覆現。不過幸運的是，最近一年來眾多swap問題的受害者們通過不懈的努力找到了終極原因——NUMA。下面站在巨人的肩膀上，為大家簡單講解一下NUMA的原理和優化方法。一、NUMA和SMPNU

解析spark和mapReduce的區別和優劣

首先大資料涉及兩個方面：分散式儲存系統和分散式計算框架。前者的理論基礎是GFS。後者的理論基礎為MapReduce。MapReduce框架有兩個步驟（MapReduce 框架其實包含5 個步驟：Map、Sort、Combine、Shuffle 以及Reduc

Hadoop和Spark之間有什麼區別，現工業界都在使用何種技術?

談到大資料，相信大家對hadoop和Apache Spark這兩個名字並不陌生。然而，最近業界有一些人正在大張旗鼓的宣揚Hadoop將死，Spark將立。談到大資料，相信大家對hadoop和Apache Spark這兩個名字並不陌生。然而，最近業界有一些人正在大張旗鼓

BS架構和CS架構的區別

修改 mar sock winsock 本地 margin 只需要後臺 tps C/S架構的優缺點： *優點： 1.客戶端因為是獨立設計，所以可以實現個性化 2.因為客戶端是需要進行安裝的，可以不需要重復安裝和加載 3.因為客戶端是獨立開發的，所以有能力對客戶端進

C/S和B/S兩種架構區別與優缺點分析

iis 持久化數據邏輯刷新 lamp 滿足 tle 擴展區別 C/S和B/S，是再普通不過的兩種軟件架構方式，都可以進行同樣的業務處理，甚至也可以用相同的方式實現共同的邏輯。既然如此，為何還要區分彼此呢？那我們就來看看二者的區別和聯系。一、C/S 架構

架構和框架的區別

必須成了分而治之專用系列半成品框架目的關於 http://blog.csdn.net/liuguobo/article/details/43451129 人們對軟件架構存在非常多的誤解，其中一個最為普遍的誤解就是：將架構（Architecture）和框架（F

微服務和單體架構的區別以及springClould版本的說明

img fan nbsp 技術分享單體 cloud bsp class clas 一、單體架構和微服務特點二、springcloud與dubbo比較三、版本規劃微服務和單體架構的區別以及springClould版本的說明

Spark中repartition和partitionBy的區別

是我 item its alt ive 同時 tint nts exe repartition 和 partitionBy 都是對數據進行重新分區，默認都是使用 HashPartitioner，區別在於partitionBy 只能用於 PairRDD，但是當它們同時都用於

解讀PMP考點：快速跟進和趕工的區別

解讀PMP考點：快速跟進和趕工的區別趕工和快速跟進都是進度壓縮技術。進度壓縮技術是指在不縮減專案範圍的前提下，通過縮短或加快進度工期，以滿足進度制約因素、強制日期或者其他進度目標。趕工和進度壓縮的區別解釋

三層架構和MVC的區別

三層架構和MVC是有明顯區別的,MVC應該是展現模式(三個加起來以後才是三層架構中的UI層) 三層架構(3-tier application) 通常意義上的三層架構就是將整個業務應用劃分為：表現層（UI）、業務邏輯層（BLL）、資料訪問層（DAL）。區分層次的目的即為了“高內聚，低耦合”的思想。 1

Spark SQL 筆記(2)——Spark 生態圈和 Hadoop 生態圈對比

1 Spark 產生的背景 1.1 MapReduce 的侷限性程式碼繁瑣只能夠支援map 和 reduce 方法；執行效率低；不適合多次迭代、互動式、流式的處理； 1.2 框架多樣化批處理（離線）：MapReduce,H

MVC設計模式和MVC架構的區別

mvc設計模式和mvc框架的區別一組概念需要先理解，因為後面需要用： **架構：**簡單的說架構就是一個藍圖，是一種設計方案，將客戶的不同需求抽象成為抽象元件，並且能夠描述這些抽象元件之間的通訊和呼叫。 **框架：**軟體框架是專案軟體開發過程中提取特定領域軟體的共性部分形成的體系結構，不

Spark和Hadoop的架構區別解讀

相關推薦