第74課：Hive on Spark大揭祕完整版

阿新 • • 發佈：2018-12-26

內容：

1.Hive On Spark內幕
2.Hive on Spark實戰

一、Hive On Spark內幕

   1.Hive on spark 是hive 的一個子專案，它是指不通過mapReduce 作為唯一的查詢引擎，而是將spark 作為底層的查詢引擎。hive on spark 只適用於hive 在可預見的未來，很有可能Hive預設的底層引擎就從MapReduce 切換到Spark 了。使用於將原來有的Hive 資料倉庫以及資料統計分析替換為spark 引擎，作為全公司通用的大資料統計分析引擎。
   2. 將Hive 表作為SparkRDD 來進行操作
   3. 使用hive 原語：對於一些針對於RDD的操作，比如groupByKey,sortedByKey等不使用Spark的transformation操作和原語。如果那樣的話，那麼就需要重新實現一套Hive 的原語，而且如果Hive 增加了新功能，那麼又要實現新的spark 原語。因此選擇將hive 的原語包裝為針對於RDD的操作即可。
   4.新的執行計劃生成機制：使用SparkCompiler 將邏輯執行計劃，即可Operator Tree ,轉換為Task Tree ,提交Spark Task 給 Spark 進行執行。sparkTask 包裝了DAG ，DAG 包裝為SparkWork，SparkTask 根據SparkWork 表示的DAG 計算。
   5. SparkContext生命週期：hive on Spark會為每個使用者建立自己的會話，比如說執行一次Sql建立一個SparkContext，但是Spark不允許在一個JVM內穿概念多個SparkContext。因此需要在單獨的JVM中啟動每個會話的Sparkcontext，然後通過RPC與遠端JVM中的Spark Context進行通訊。
   6.本地和遠端執行模式：Hive on spark 提供兩種執行模式，本地和遠端。如果將SparkMaster這是為local，比如set.spark.master=local 那麼就是本地模式，sparkContext 與客戶端執行在一個JVM中。否則如果將sparkMaster設定為master的地址，那麼就是遠端模式，sparkcontext會在遠端JVM中啟動，遠端模式下每個使用者session 都會建立一個sparkClient，sparkClient啟動RemoveDriver，RemoveDriver負責建立SparkContext。
   7.Map join Spark Sql預設對join是支援使用BroatCast機制，將小表廣播到各個節點上，以進行join，但是問題是這會driver和worker帶來很大的記憶體開銷。因為廣播的資料要一直報訊在Driver中，所以目前採取的措施是類似於MapReduce的Distribuesd cache機制，即提高HDFS replication factor 的賦值因子，讓資料在每一個計算節點上都有一個備份，從而可以在本地進行讀取資料。
   8.cache table：對於某些需要對一張表執行多次操作的場景，hive on spark 內部做了優化，即將要多次操作的表cache 到記憶體中以便於提升效能。但是這裡要注意並不是所有的情況都會自動進行cache 所以說hive on spark 很有很多需要完善的地方。

二、Hive on Spark實戰

由於版本問題，測試沒有成功

第74課：Hive on Spark大揭祕完整版

內容：

一、Hive On Spark內幕

二、Hive on Spark實戰

第74課：Hive on Spark大揭祕完整版

第7課：實戰解析spark執行原理和rdd解密

javaweb基礎第十課：jsp的9大隱式物件

面試題：Hive on Spark與SparkSql的區別

Hive：Hive on Spark和SparkSQL區別

Spark定製班第29課：深入理解Spark 2.x中的Structured Streaming內幕

第76課：Spark SQL實戰使用者日誌的輸入匯入Hive及SQL計算PV實戰

第69課：Spark SQL通過Hive資料來源實戰

Spark商業案例與效能調優實戰100課》第3課：商業案例之通過RDD分析大資料電影點評系各種型別的最喜愛電影TopN及效能優化技巧

大資料IMF傳奇行動絕密課程第87課：Flume推送資料到Spark Streaming案例實戰和內幕原始碼解密

大資料Spark “蘑菇雲”行動補充內容第70課： Spark SQL程式碼實戰和效能調優 4個spark sql調優技巧有用！！！！

大資料IMF傳奇行動絕密課程第54課：Spark效能優化第十季之Spark統一記憶體管理

大資料IMF傳奇行動絕密課程第63課：Spark SQL下Parquet內幕深度解密

大資料IMF傳奇行動絕密課程第64課：Spark SQL下Parquet的資料切分和壓縮內幕詳解

Scala實戰高手****第4課：零基礎徹底實戰Scala控制結構及Spark原始碼解析

Scala實戰高手****第7課：零基礎實戰Scala面向物件程式設計及Spark原始碼解析

Scala實戰高手****第7課：零基礎實戰Scala面向對象編程及Spark源碼解析

Scala實戰高手****第6課：零基礎實戰Scala集合操作及Spark源碼解析

Scala實戰高手****第16課：Scala implicits程式設計徹底實戰及Spark原始碼鑑賞

第四天 -- Accumulator累加器 -- Spark SQL -- DataFrame -- Hive on Spark

第74課：Hive on Spark大揭祕 完整版

內容：

一、Hive On Spark內幕

二、Hive on Spark實戰

相關推薦

第74課：Hive on Spark大揭祕完整版