spark和hive storm mapreduce的比較

阿新 • • 發佈：2018-04-28

大數據

Spark Streaming與Storm都可以用於進行實時流計算。但是他們兩者的區別是非常大的。其中區別之一
就是，Spank Streaming和Stom的計算模型完全不一樣，Spark Streaming是基於RDD的，因此需要將一小段時間內的，比如1秒內的數據，收集起來，作為一個RDD.然後再針對這個batch的數據進行處理。而Storm卻可以做到每來一條數據，都可以立即進行處理和計算。因此，Spark Streaming實際上嚴格意義上來說，只能稱作準實時的流計算框架，而Storm是真正意義上的實時計算框架。
此外，Storm支持的一項高級特性，是Spark Streamng暫時不具備的，即Storm支持在分布式流式計算程序(Topology) 在運行過程中，可以動態地調整並行度。從而動態提高並發處理能力。而SparkSreaming是無法動態調整並行度的。

但是Spark Streaming也有其優點，首先Spark Streaming由於是基Fbatch進行處理的，因此相較於Stom基於單條數據進行處理，具有數倍甚至效十倍的吞吐量。
此外，Spark Streaming由於也身處於Spark生態圈內，因此Spark Streaming可以與Spark Core.SparkSQl.甚至是Spark MLuib Spark GraphX進行無維整合.流式處理完的數據，可以立即進行各種購Bmap. reduce轉換操作，可以立即使用sqi進行查詢，甚至可以立即使用machne laming或者圖計算算法進行處理。這種一站式的大數據處理功能和優勢，是Slorm無法匹敵的。

因此，綜合上述來看，通常在對實時性要求特別高、而且實時數據量不穩定，比如在白天有高峰期的情況下，可以選擇使用Storm.但是如果是對實時性要求一般，允許1秒的準實時處理，而且不要求動態調被並行度的話，選擇Spark Streamng是更好的選擇。

Spark SQL實際上並不能完全替代Hive.因為Hive是一種基FHDFS的數據倉庫，並且提供了基於QL模型的，針對存儲了大數據的數據倉庫，進行分布式交互查詢的查詢引擎。
嚴格的來說，Spark SQL能夠替代的，是Hive的查詢引擎，而不是Hive本身，實際上即使在生產環境Spark SQL也是針對Hive數據倉庫中的數據進行查詢，Spark本身自己是不提供存儲的，自然也不可能參代Hive作為數據倉庫的這個功能。

Spark SQL的一個優點，相較於Hive查詢引擎來說，就是速度快，同樣的SQL語句，可能使用Hive的量詢引擎，由於其底層基於MapReduce. 必須經過shutfhe過程走進盤，因此速度是非常緩慢的。很多復雜的SQL語句。在hive中執行都需要一個小時以上的時間。而SparkSQL由於其底層基幹Spak自身的基於內存的特點，因此速度達到了Hive查詢引擎的數倍以上。
但是Spark SQL由於與Spark一樣。是大數據領域的新起的新秀，因此還不夠完善，有少量的Hive支持的高級特性，Spark SQL還不支持，導致Spark SQL暫時還不能完全替代Hive的查詢引擎。而只能在部分Spark SQL功能特性可以滿足需求的場景下，進行使用。
而Spark SQL相較於Hive的另外一個優點，就是支持大量不同的數據源，包括hive.json. parquet、 jdbc等等。此外，Spark SQL由於身處Spark技術堆棧內，也是基於RDD來工作，因此可以與Spark的其他組件無縫整合使用，配合起來實現許多復雜的功能。比如. Spark SQL支持可以直接針對hdts文件執行sql語句!

MapReduce能夠完成的各種離線批處理功能，以及常見算法(比如二次排序、topn等)，基於Spark RDD的核心編程，都可以實現，並且可以更好地、更容易地實現。而且基於Spark RDD編寫的高線批處理程序，運行速度是MapReduce的數倍。速度上有非常明顯的優勢。
Spark相較於MapReduce速度快的最主要原因就在於，MapReduce的計算模型太死板，必須是mapreduce模式，有時候即使完成一些諸如過減之類的操作，也必須經過map reduce過程，這樣就必須經過shufle過程。而MapReduce的shffle過程是最消耗性能的，因為shuffe中間的過程必須基於進盤來讀寫。而Spark的shuthe雖然也要基於磁盤，但是其大量ransformation操作，比如單純的map或者hiter等操作，可以直接基於內存進行pipeline操作，速度性能自然大大提升。
但是Spark也有其劣勢。由於Spark基於內存進行計算，雖然開發容易，但是真正面對大數據的時候(比如一次操作針對10億以上級別)，在沒有進行調優的情況下，可能會出現各種各樣的問題，比如OOM內存溢出等等。導致Spark程序可能都無法完全運行起來，就報惜掛掉了，而MapReduce即使是運行緩慢，但是至少可以慢慢運行完。
此外，Spark由於是新崛起的技術新秀，因此在大數據領域的完善程度，肯定不如MapReduce.比如基於HBase、Hive作為離線批處理程序的輸入輸出，Spark就遠設有MapReduce來的完善。實現起來非常麻煩。

spark和hive storm mapreduce的比較

大數據Spark Streaming與Storm都可以用於進行實時流計算。但是他們兩者的區別是非常大的。其中區別之一就是，Spank Streaming和Stom的計算模型完全不一樣，Spark Streaming是基於RDD的，因此需要將一小段時間內的，比如1秒內的數據，收集起來，作為一個RDD.然後再針對

基於Spark和Hive進行的豆瓣電影資料分析

寫在前邊的話：算是自己做的一個小課題吧，自己搭建平臺，自己爬取資料，自己進行資料清洗和分析，自己進行視覺化展示，寫這篇部落格不為別的，只是記錄下自己做這個課題的整個過程，大神們勿噴

spark和 mapreduce的比較

需要刷新線程池情況下一次生態好處流式處理結果網上查閱一些資料，收集整理如下： 1、通用性 spark更加通用，spark提供了transformation和action這兩大類的多個功能api，另外還有流式處理sparkstreaming模塊、圖計算Gr

大資料培訓之核心知識點Hbase、Hive、Spark和MapReduce的概念理解、特點及機制等

今天，上海尚學堂大資料培訓班畢業的一位學生去參加易普軟體公司面試，應聘的職位是大資料開發。面試官問了他10個問題，主要集中在Hbase、Spark、Hive和MapReduce上，基礎概念、特點、應用場景等問得多。看來，還是非常注重基礎的牢固。整個大資料開發技術，這幾個技術知識點佔了很大一部分。那本

Spark技術體系與MapReduce，Hive，Storm幾種技術的關係與區別

大資料體系架構： Spark記憶體計算與傳統MapReduce區別： SparkSQL與Hive的區別: SparkSQL替換的是Hive的查詢引擎，Hive是一種基於HDFS的資料倉庫，並且提供了基於SQL模型的，針對存了大資料的資料倉庫，進行分散式互動查

spark是什麼？spark和MapReduce的區別？spark為什麼比hive速度快？

spark是什麼？ spark是針對於大規模資料處理的統一分析引擎，通俗點說就是基於記憶體計算的框架 spark和hive的區別？ 1.spark的job輸出結果可儲存在記憶體中，而MapReduce的job輸出結果只能儲存在磁碟中，io讀取速度要比記憶體中慢； 2.

處理大數據流常用的三種Apache框架：Storm、Spark和Samza。(主要介紹Storm)

領導 hdf 客戶端 orm 至少 per yar 持續性 apache 處理實時的大數據流最常用的就是分布式計算系統，下面分別介紹Apache中處理大數據流的三大框架: Apache Storm 這是一個分布式實時大數據處理系統。Storm設計用於在容錯和

大資料之Spark（八）--- Spark閉包處理，部署模式和叢集模式，SparkOnYarn模式，高可用，Spark整合Hive訪問hbase類載入等異常解決，使用spark下的thriftserv

一、Spark閉包處理 ------------------------------------------------------------ RDD,resilient distributed dataset,彈性(容錯)分散式資料集。分割槽列表,function,dep Op

大資料晉級之路（5）Hadoop，Spark，Storm綜合比較

大資料框架：Spark vs Hadoop vs Storm 目錄 Hadoop Spark Storm 大資料時代，TB級甚至PB級資料已經超過單機尺度的資料處理，分散式處理系統應運而生。知識預熱「專治不明覺厲」之“大資料

HBase 和 Hive 的比較

1、相同點 1、HBase 和 Hive 都是架構在 Hadoop 之上，用 HDFS 做底層的資料儲存，用 MapReduce 做資料計算 2、不同點 1、Hive 是建立在 Hadoop 之上為了降低 MapReduce 程式設計複雜度的 ETL 工具。

SparkSQL和hive on Spark

SparkSQL簡介 SparkSQL的前身是Shark，給熟悉RDBMS但又不理解MapReduce的技術人員提供快速上手的工具，hive應運而生，它是當時唯一執行在Hadoop上的SQL-on-hadoop工具。但是MapReduce計算過程中大量的中間磁碟落地過程消耗了大量的I/O，降低的執行效率，為

spark的hive操作和常見的bug

package hive import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession object HiveDome { def fun1(): Unit = { val conf = new Sp

從原始碼看Spark讀取Hive表資料小檔案和分塊的問題

原文連結：https://mp.csdn.net/postedit/82423831 使用Spark進行資料分析和計算早已成趨勢，你是否關注過讀取一張Hive表時Task數為什麼是那麼多呢?它跟什麼有關係呢? 最近剛好碰到這個問題，而之前對此有些模糊，所以做了些整理，希望大家拍磚探討

Spark四大特性以及與MapReduce比較

一、速度面向磁碟的MapReduce受限於磁碟讀/寫效能和網路I/O效能的約束，在處理迭代計算、實時計算、互動式資料查詢等方面並不高效，但是這些卻在圖計算、資料探勘和機器學習等相關應用領域中非常常見。針對這一不足，將資料儲存在記憶體中並基於記憶體進行計算是一個

大資料開發面試：Impala和hive的比較（最全版）

Impala和hive的比較 Impala是Cloudera公司主導開發的新型查詢系統，它提供SQL語義，能查詢儲存在Hadoop的HDFS和HBase中的PB級大資料。已有的Hive系統雖然也提供了SQL語義，但由於Hive底層執行使用的是MapReduce引擎，仍然是一

Spark生態之Alluxio學習25--spark從HDFS和Alluxio讀取時間比較

Spark生態之Alluxio學習版本：alluxio-1.3.0（tachyon），spark-1.5.2,hadoop-2.6.0 1.解釋想要分析alluxio加速效果，發現alluxio會出現長尾效應，導致有些task特別耗時，相對於HD

Spark2.2(三十八)：Spark Structured Streaming2.4之前版本使用agg和dropduplication消耗記憶體比較多的問題（Memory issue with spark structured streaming）調研

在spark中《Memory usage of state in Spark Structured Streaming》講解Spark記憶體分配情況，以及提到了HDFSBackedStateStoreProvider儲存多個版本的影響；從stackoverflow上也可以看到別人遇到了structured s

spark和hive storm mapreduce的比較

spark和hive storm mapreduce的比較

基於Spark和Hive進行的豆瓣電影資料分析

spark和 mapreduce的比較

大資料培訓之核心知識點Hbase、Hive、Spark和MapReduce的概念理解、特點及機制等

Spark技術體系與MapReduce，Hive，Storm幾種技術的關係與區別

spark是什麼？spark和MapReduce的區別？spark為什麼比hive速度快？

處理大數據流常用的三種Apache框架：Storm、Spark和Samza。(主要介紹Storm)

大資料之Spark（八）--- Spark閉包處理，部署模式和叢集模式，SparkOnYarn模式，高可用，Spark整合Hive訪問hbase類載入等異常解決，使用spark下的thriftserv

大資料晉級之路（5）Hadoop，Spark，Storm綜合比較

HBase 和 Hive 的比較

SparkSQL和hive on Spark

spark的hive操作和常見的bug

從原始碼看Spark讀取Hive表資料小檔案和分塊的問題

Spark四大特性以及與MapReduce比較

大資料開發面試：Impala和hive的比較（最全版）

Spark生態之Alluxio學習25--spark從HDFS和Alluxio讀取時間比較

Spark2.2(三十八)：Spark Structured Streaming2.4之前版本使用agg和dropduplication消耗記憶體比較多的問題（Memory issue with spark structured streaming）調研

Hive over HBase和Hive over HDFS效能比較分析

spark連線hive（spark-shell和eclipse兩種方式）

【專治不明覺厲】之“大資料” Hadoop，Spark和Storm

spark和hive storm mapreduce的比較

相關推薦