spark是什麼?

spark是針對於大規模資料處理的統一分析引擎,通俗點說就是基於記憶體計算的框架

spark和hive的區別?

1.spark的job輸出結果可儲存在記憶體中,而MapReduce的job輸出結果只能儲存在磁碟中,io讀取速度要比記憶體中慢;

2.spark以執行緒方式執行,MapReduce以程序的方式執行,程序要比執行緒耗費時間和資源;

3.spark提供了更為豐富的運算元操作;

4.spark提供了更容易的api,支援python,java,scala;

spark為什麼比hive速度快?

1.spark底層不需要呼叫MapReduce,而hive底層呼叫的是MapReduce;

2.spark基於記憶體計算,而hive基於磁碟計算,記憶體的讀取速度遠超過磁碟讀取速度;

3.spark以執行緒方式進行執行,而hive以程序方式執行,一個程序中可以跑多個執行緒,程序要比執行緒耗費資源和時間;