spark讀取hive表資料實操

阿新 • • 發佈：2019-01-24

環境:spark1.6 hive1.2.1 hadoop2.6.4
1.新增一下依賴包
spark-hive_2.10的新增為了能建立hivecontext物件

    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-hive_2.10</artifactId>
      <version>1.6.1</version>
    </dependency>

mysql驅動連結元資料

    <dependency>
      <groupId>mysql</groupId>
      <artifactId>mysql-connector-java</artifactId>
      <version>5.1.38</version>
      <scope>compile</scope>
    </dependency>

2.新增hive-site.xml檔案內容如下
其中mysql中hive庫是hive的元資料庫

<?xml version="1.0" encoding="UTF-8"?> 

<!--Autogenerated by Cloudera Manager-->
<configuration>
    <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://master:3306/hive?createDatabaseIfNotExist=true</value>
    </property>
    <property>
        <name 
>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.jdbc.Driver</value>
    </property>

    <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>hive</value>
    </property>

    <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>hive</value>
    </property>
</configuration>

3.開始讀取hive表的資料了，程式碼如下

object App {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("test").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val sqlContext = new HiveContext(sc)
    sqlContext.table("test.person") // 庫名.表名 的格式
              .registerTempTable("person")  // 註冊成臨時表
    sqlContext.sql(
      """
        | select *
        |   from person
        |  limit 10
      """.stripMargin).show()
    sc.stop()
  }
}

spark讀取hive表資料實操

環境:spark1.6 hive1.2.1 hadoop2.6.4 1.新增一下依賴包 spark-hive_2.10的新增為了能建立hivecontext物件 <dep

從原始碼看Spark讀取Hive表資料小檔案和分塊的問題

原文連結：https://mp.csdn.net/postedit/82423831 使用Spark進行資料分析和計算早已成趨勢，你是否關注過讀取一張Hive表時Task數為什麼是那麼多呢?它跟什麼有關係呢? 最近剛好碰到這個問題，而之前對此有些模糊，所以做了些整理，希望大家拍磚探討

spark用scala讀取hive表資料

spark1.6寫法： val conf = new SparkConf() val sc = new SparkContext(conf) val hiveContext = new HiveContext(sc) // 指定hive中

Spark 讀取Hbase表資料並實現類似groupByKey操作

一、概述程式執行環境很重要，本次測試基於： hadoop-2.6.5 spark-1.6.2 hbase-1.2.4 zookeeper-3.4.6 jdk-1.8 廢話不多說了，直接上需求 Andy column=baseINFO:ag

spark讀取hive資料-java

需求：將hive中的資料讀取出來，寫入es中。環境：spark 2.0.2 1. SparkSession裡設定enableHiveSupport() SparkConf conf = new SparkConf().setAppName("appName").setMast

在cm安裝的大資料管理平臺中整合impala之後讀取hive表中的資料的設定（hue當中執行impala的資料查詢）

今天裝了CM叢集，在叢集當中集成了impala，hive。然後一直覺得認為impala自動共享hive的元資料，最後發現好像並不是這樣的，需要經過一個同步元資料的操作才能實現資料的同步。具體的做法如下：（1）安裝好hive和impala，然後在hive當中建立目標資料庫，建立一張表

使用spark對hive表中的多列數據判重

個數 stack duplicate house transient this dataframe except cti 本文處理的場景如下，hive表中的數據，對其中的多列進行判重deduplicate。 1、先解決依賴，spark相關的所有包，pom.xml spa

Java API 讀取HBase表資料

Java API 讀取HBase表資料 1. 在使用java api 去獲取資料的時候，先用 hbase shell 展示一下 hbase 中的表。 hbase(main):005:0> scan 'tsdb-uid' ROW

NPOI 讀取Excel 表資料資料裡面帶日期時的處理方法

將ExcelToDataTable 方法下的 //if (row.GetCell(j) != null) //同理，沒有資料的單元格都預設是null // dataRow[j] = row.GetCell(j).ToString(); 替換為 if (row.Ge

在cm安裝的大數據管理平臺中集成impala之後讀取hive表中的數據的設置（hue當中執行impala的數據查詢）

數據庫自動 shell bubuko div 裏的界面行操作 .com 今天裝了CM集群，在集群當中集成了impala，hive。然後一直覺得認為impala自動共享hive的元數據，最後發現好像並不是這樣的，需要經過一個同步元數據的操作才能實現數據的同步。具體的做

Hive表資料匯入匯出的不同方式和自定義列分隔符

資料來源： hive> select * from test1; OK Tom 24.0 NanJing Nanjing University Jack

匯出hive表資料的5種方法

下面介紹一下hive 匯出的幾種方式本地檔案直接匯出 insert overwrite local directory '/data/hive/export/student_info' select * from default.student 修改分

spark讀取多個資料夾(巢狀)下的多個檔案

在正常呼叫過程中，難免需要對多個資料夾下的多個檔案進行讀取，然而之前只是明確了Spark具備讀取多個檔案的能力。針對多個資料夾下的多個檔案，以前的做法是先進行資料夾的遍歷，然後再進行各個資料夾目錄的讀取。今天在做測試的時候，居然發現spark原生就支援這樣的能力。

CDH安裝配置zeppelin-0.7.3以及配置spark查詢hive表

1.下載zeppelin http://zeppelin.apache.org/download.html 我下載的是796MB的那個已經編譯好的，如果需要自己按照環境編譯也可以，但是要很長時間編譯，這個版本包含了很多外掛，我雖然是CDH環境但是這個也可以使用。 2.修改

基於Spark的公安大資料實時運維技術實踐

宣告：本文為《程式設計師》原創文章，未經允許不得轉載，更多精彩文章請訂閱2017年《程式設計師》。作者：秦海龍，杭州以數科技有限公司大資料工程師。Java及Scala語言，Hadoop生態、Spark大資料處理技術愛好者。責編：郭芮，關注大資料領域，尋求報道或投稿

arcengine 讀取屬性表資料

static public DataTable GetLayerData(IFeatureLayer layer) { DataTable dt = new DataTable(); Dict

spark 讀取elasticsearch中資料不完整問題

使用spark讀取elasticsearch中的資料，使用es提供的api來進行， sc.esRDD("logstash").values 官方網站也是這種方式讀取資料的，但是我測試的時候有時候會出現讀取資料不完整的情況，比如本來讀取的資料是這樣的 Map(msg ->

hive 表資料載入、表刪除試驗

1. 非分割槽表（1）load 載入資料本地文字檔案a.txt中有一行'aaa'，執行下面的命令。CREATE TABLE t1 (name STRING); LOAD DATA LOCAL INPATH '/home/grid/a.txt' INTO TABLE t1

通過MapReduce把Hive表資料匯入到HBase

由於Hive查詢速度比較慢，進行了表分割槽使用Impala也是很滿意，所以為了公司業務展示，需要測試使用HBase的查詢速度怎麼樣，頭一件事就是把HIVE的資料匯入到HBase中，搜了半天也沒搜到到底該怎麼搞，也有說能用Sqoop的，可是沒找到資料，只好自己用M

程式碼 | Spark讀取mongoDB資料寫入Hive普通表和分割槽表

版本： spark 2.2.0 hive 1.1.0 scala 2.11.8 hadoop-2.6.0-cdh5.7.0 jdk 1.8 MongoDB 3.6.4 一原始資料及Hive表 MongoDB資

spark讀取hive表資料實操

相關推薦