SparkSQL（一）SQLContext/HiveContext/SparkSession使用和區別

阿新 • • 發佈：2018-12-12

一、SQLContext

1.適用spark版本：spark1.x

2.新增依賴

    <dependency>
      <groupId>org.scala-lang</groupId>
      <artifactId>scala-library</artifactId>
      <version>2.11.8</version>
    </dependency>
    
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.11</artifactId>
      <version>2.1.0</version>
      <scope>compile</scope>
    </dependency>

3.程式碼

（1）建立Context

（2）進行相關處理（載入資料）

（3）關閉連線

package MoocSparkSQL

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SQLContext

/**
  * spark context的使用
  */
object SQLContextApp {
  def main(args: Array[String]): Unit = {

    val path=args(0)

    //1）建立相應的Context
    val sparkConf=new SparkConf()
        .setAppName("SQLContextApp").setMaster("local[2]")

    val sc =new SparkContext(sparkConf)
    val sqlContext=new SQLContext(sc)

    //2）進行相關處理
    val people=sqlContext.read.format("json").load(path)
    people.printSchema()
    people.show()

    //3）關閉資源
    //每個sparkContext關閉
    sc.stop()

  }

}

二、HiveContext

1.適用spark版本：spark1.x

2.前提：

（1）不需要hive環境

（2）需要hive-site.xml

將hive-site.xml拷貝到專案的資源目錄下面：...\src\sources\hive-site.xml

3.引入依賴包

<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>2.1.0</version> </dependency>

4.程式碼

package SparkSQL

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.hive.HiveContext

/**
  * Hive Comtext 的使用
  */
object HiveContextApp {
  def main(args: Array[String]): Unit = {

//    val path=args(0)

    //1）建立相應的Context
    val sparkConf=new SparkConf()
    //生產環境把下面的註釋掉
            .setAppName("HiveContextApp").setMaster("local[2]")

    val sc =new SparkContext(sparkConf)
    val hiveContext=new HiveContext(sc)

    //2）進行相關處理
    hiveContext.table("emp").show() //這個是可以的


    //3)關閉context
    sc.stop()
  }
}

三、SparkSession

1.適用spark版本：spark2.x

2.程式碼

package SparkSQL

import org.apache.spark.sql.SparkSession

/**
  * sparksession
  */
object SparkSessionApp {
  def main(args: Array[String]): Unit = {

    val spark = SparkSession
      .builder()
      .appName("SparkSessionApp")
      .master("local[2]")
      .getOrCreate()

    val people=spark.read.json("datas/people.json")
    people.show()

    spark.stop()

  }
}

四、三者區別

1.對於spark1.x，SQLContext和HiveContext的使用是需要區分的

2.對於spark2.x，統一使用SparkSession

SparkSQL（一）SQLContext/HiveContext/SparkSession使用和區別

一、SQLContext 1.適用spark版本：spark1.x 2.新增依賴 <dependency> <groupId>org.scala-lang</groupId> <artifactI

KBEngine warring項目源碼閱讀（一）項目簡介和註冊登錄

urn 創建 ges input alt 接下來 F12 .com name 首先介紹下warring項目，是kbe自帶的一個演示示例，大部分人了解kbe引擎也是從warring項目開始的。項目地址：https://github.com/kbengine/kbengine

vue系列（一）子組件和父組件

top parent sage too msg pro 工具 light java 父組件傳遞數據到子組件props 父組件 <template> <div class="main"> <div class="top">

JSP學習筆記（一）：JSP語法和指令

沒有文件的 encoding 引入 2.0 .cn name blog .get 一、語法 1、腳本程序的語法格式：　　腳本程序可以包含任意量的Java語句、變量、方法或表達式，只要它們在腳本語言中是有效的。 <% 代碼片段 %> 2、中文編碼問題　　

JavaScript 從入門到放棄（一）事件委托和使用innerHTML添加元素

ont ntb innerhtml col 添加元素 pan div 基本開發一、使用事件委托一個簡單的需求，比如想給ul下面的li加上點擊事件，點擊哪個li，就顯示那個li的innerHTML。這個貌似很簡單！代碼如下！ <!DOCTYPE html>

Linux系統管理（一）Linux設備和內核管理

linux設備和內核管理一. 設備管理概述1．Linux設備的分類字符設備（c）：以字符為單位，傳輸速率較低，無需緩沖區。塊設備(b)：以數據塊為單位組織和傳輸數據,需要建立緩沖區網絡設備（s）：一種通過SOCKET接口進行主機通信的設備2．設備文件（1）功能用於用戶訪問設備進行輸入和輸出操作（2）常見的設

（一）Fiddler的介紹和安裝

chm 瀏覽器中 tool nec clas 技術分享 strong HR str 一、Fiddler的介紹和安裝 Fildder是一款免費的web調試代理工具，支持任何瀏覽器、系統或平臺。官網地址：https://www.telerik.com/fiddler Fidd

機器學習之數學基礎（一）-微積分，概率論和矩陣

系列學習 python 機器學習自然語言處理圖片 clas 數學基礎記錄學習python快一年了，因為之前學習python全棧時，沒有記錄學習筆記想回顧發現沒有好的記錄，目前主攻python自然語言處理方面，把每天的學習記錄記錄下來，以供以後查看，和交流分享。~~

Jacoco（一）簡析原理和改造新增代碼覆蓋率標識進入報告

element ssp fff scounter except div clas ioe ntop 首先從註入方式開始： On-the-fly插樁： JVM中通過-javaagent參數指定特定的jar文件啟動Instrumentation的代理程序，代理程序在通過

J3001.JavaFX組件擴展（一）——IntegerField、DecimalField和CurrencyField

rep copyright 返回 edit ldr size 兩個 lse 如果我們在處理界面展現時，對於整型、浮點型、金額類型的數據時，希望界面組件至少已經處理了以下事項： 1、不接受非法輸入。如對於整型來說，只能輸入數字、負號，並且不允許超過當前平臺上整形數值的最大值

算法學習筆記（一）：插入排序和線性查找

插入排序算法學習 AS 獲取 ear array import 右移創建（一）插入排序看下面這張圖片：把打牌時手上的牌抽象為一個列表A，j表示當前最新抓的牌的索引（先放到手上最右邊）索引 j =0 時 A[j] = 3 j >= 1時， 1、我們拿到

【Java】 Spring 框架初步學習總結（一）簡單實現 IoC 和 AOP

1.0 其中表示只需要第一篇否則 info fin pojo 　　Spring 是一個開源的設計層面的輕量級框架，Spring 的好處網上有太多，這裏就不在贅述。　　IoC 控制反轉和 AOP 面向切面編程是 Spring 的兩個重要特性。　　IoC（Inver

windows環境下搭建Java開發環境（一）：jdk安裝和配置

變量 win jns jdk安裝分享 tool 直接 www. 技術一、資源下載　　官網：http://www.oracle.com/technetwork/java/javase/downloads/index.html 　　本人安裝的是jdk1.8，百度雲資源：鏈

Android內存優化（一）Dalvik虛擬機和ART虛擬機對比

參考 -a 會有 font google 都是 http -s 轉換成 1.概述　　Android4.4以上開始使用ART虛擬機，在此之前我們一直使用的Dalvik虛擬機，那麽為什麽Google突然換了Android運行的虛擬機呢？答案只有一個：ART虛擬機更優秀。 2.D

Redis學習（一）、安裝Redis和客戶端

arguments edi 1.5 roc tex ado host ges unknown Redis學習（一）、安裝Redis和客戶端一、Windows安裝Redis 1、下載安裝包Redis-x64-3.0.504.zip到本地 2、解壓 3、打開CMD，切換到解

SQL Server進階（一）T-SQL查詢和編程的背景

.com src 編程 server 分享 bubuko 進階分享圖片 img SQL Server進階（一）T-SQL查詢和編程的背景

微服務分散式事務實戰（一）專案需求描述和實現步驟

本文通過一個具體例項如何實施springCloud 分散式事務，不對分散式事務理論做探索。由於內容較多，分多個小節來說明案例需求：建立2個基於springCloud的微服務，分別訪問不同的資料庫；然後建立一個整合服務，呼叫微服務實現資料的儲存到2個不同的資料庫，要求採用分散式事務，要麼都

docker學習（一）：docker安裝和架構

本筆記根據51CTO的CloudMan博主的部落格而記錄的。本節主要學習 docker安裝和解除安裝 docker的架構一、Docker的安裝和解除安裝　　Docker的安裝　　1、安裝之前，要先把舊版的Docker給解除安裝了，以下是Docker官網上的安裝前解除安裝Dock

VUE學習筆記（一）—安裝vue-cli和建立專案

Github：https://github.com/sueRimn 1.cmd開啟控制檯進行建立專案（1）全域性安裝腳手架在命令列輸入：npm install vue-cli -g （2）初始化專案繼續輸入：vue init webpack myvue(myvue是我取的專案名，

深入淺出maven系列（一）---maven的安裝和配置

window環境下，maven安裝配置過程。一共只需要4個步驟。以前配置過，但記憶模糊的同學可以檢視文字教程文字教程一：【檢查】確認已經安裝jdk，已經環境變數中配置JAVA_HOME，已經修改Path 二：【下載】從http://maven.apache.org/download

SparkSQL（一）SQLContext/HiveContext/SparkSession使用和區別

一、SQLContext

1.適用spark版本：spark1.x

2.新增依賴

3.程式碼

（1）建立Context

（2）進行相關處理（載入資料）

（3）關閉連線

二、HiveContext

1.適用spark版本：spark1.x

2.前提：

（1）不需要hive環境

（2）需要hive-site.xml

3.引入依賴包

4.程式碼

三、SparkSession

1.適用spark版本：spark2.x

2.程式碼

四、三者區別

1.對於spark1.x，SQLContext和HiveContext的使用是需要區分的

2.對於spark2.x，統一使用SparkSession

相關推薦