spark讀取hive資料-java

阿新 • • 發佈：2018-11-08

需求：將hive中的資料讀取出來，寫入es中。

環境：spark 2.0.2

1. SparkSession裡設定enableHiveSupport()

		SparkConf conf = new SparkConf().setAppName("appName").setMaster("local[*]");

		SparkSession spark = SparkSession
                .builder()
                .appName("Java Spark SQL basic example hive")
                .config(conf)
                .enableHiveSupport()  //支援hive
                .getOrCreate();

2. pom 新增依賴 ( 對hive版本沒要求 )

		<dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-hive_2.10</artifactId>
            <version>1.2.1</version>
        </dependency>

或者

		<dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-hive_2.11</artifactId>
            <version>2.3.0</version>
        </dependency>

3. 將配置檔案放在spark的conf下

參考官方文件

Configuration of Hive is done by placing your hive-site.xml, core-site.xml (for security configuration), and hdfs-site.xml (for HDFS configuration) file in conf/.

4. spark.sql讀取資料

		SparkSession spark = ESMysqlSpark.getSession();
		String querySql = "SELECT * FROM test.table";
		spark.sql(querySql);

5. hive sql 語句

需求：合併兩個欄位，組成一個新的字串。

可以先用udf註冊一個函式

		spark.udf().register("mode", new UDF2<String, Long, String>() {
                public String call(String types, Long time) throws Exception {
                    return types.replace(".", "") + String.valueOf(time);
                }}, DataTypes.StringType);

求某欄位的平均值（輸出為int型）、某欄位的最大/最小值、日期欄位格式化輸出等等。這種需求則都可以在hive語句中實現。

			String querySql = String.format("SELECT mode(ip, unix_timestamp()) id," +
                    " ip, " +
                    "cast(avg(t1) as bigint) f1, " +
                    "cast(avg(t2) as bigint) f2, " +
                    "min(t3) minSpeed, " +
                    "max(t4) maxSpeed, " +
                    "from_unixtime(unix_timestamp(),'yyyy-MM-dd HH:mm:ss') time " +
                    "FROM test.table " +
                    "where time > %s " +
                    "group by ip ", timeLimit);

unix_timestamp 獲取當前時間戳
cast(expression AS data_type) 資料型別轉換
from_unixtime(unix_timestamp(),‘yyyy-MM-dd HH:mm:ss’) 日期格式化輸出

6. 寫es

通過 ds.show()檢視資料是否正確

			Dataset ds = spark.sql(querySql);
            EsSparkSQL.saveToEs(ds, "sha_parking/t_speedInformation");

專案打包

mvn package 普通打包
mvn assembly:assembly 包含依賴包

遇到的問題

如果讀取不到資料。先確認以下配置：

在 /etc/hosts中確保 127.0.0.1 hostname 已新增
檢視 $SPARK_HOME/conf/spark-env.sh，確保ip地址是否正確

問題: Hive Schema version 2.1.0 does not match metastore

mysql -uroot -p  
use hive;
select * from VERSION;
update VERSION set SCHEMA_VERSION='2.1.1' where  VER_ID=1;

spark讀取hive資料-java

需求：將hive中的資料讀取出來，寫入es中。環境：spark 2.0.2 1. SparkSession裡設定enableHiveSupport() SparkConf conf = new SparkConf().setAppName("appName").setMast

從原始碼看Spark讀取Hive表資料小檔案和分塊的問題

原文連結：https://mp.csdn.net/postedit/82423831 使用Spark進行資料分析和計算早已成趨勢，你是否關注過讀取一張Hive表時Task數為什麼是那麼多呢?它跟什麼有關係呢? 最近剛好碰到這個問題，而之前對此有些模糊，所以做了些整理，希望大家拍磚探討

程式碼 | Spark讀取mongoDB資料寫入Hive普通表和分割槽表

版本： spark 2.2.0 hive 1.1.0 scala 2.11.8 hadoop-2.6.0-cdh5.7.0 jdk 1.8 MongoDB 3.6.4 一原始資料及Hive表 MongoDB資

Java實現SparkSQL Thrift 方式讀取Hive資料

wechat:812716131 ------------------------------------------------------ 技術交流群請聯絡上面wechat ----------------------------------------------

spark讀取redis資料（互動式，scala單機版，java單機版）

互動式第一步：向redis中新增資料第二步：將jedis jar包放入~/lib目錄下，開啟spark服務第三步：通過spark-shell讀取redis資料，並做相應處理

spark讀取hive表資料實操

環境:spark1.6 hive1.2.1 hadoop2.6.4 1.新增一下依賴包 spark-hive_2.10的新增為了能建立hivecontext物件 <dep

Spark學習-SparkSQL--06-spark讀取HBase資料報異常java.io.NotSerializableException

1.準備工作，安裝好HABSE之後，執行Hbase shell create ‘表名稱’, ‘列名稱1’,’列名稱2’,’列名稱N’ create ‘表名稱’,’列族名稱’ 在hbase中列是可以動態新增的，只需要有個列族就可以了 create

spark讀取es資料

spark-2.0.2 scala-2.11.8  <dependency> <groupId>org.apa

0016-Avro序列化&反序列化和Spark讀取Avro資料

溫馨提示：要看高清無碼套圖，請使用手機開啟並單擊圖片放大檢視。 1.簡介本篇文章主要講如何使用java生成Avro格式資料以及如何通過spark將Avro資料檔案轉換成DataSet和DataFrame進行操作。 1.1Apache Arvo是什麼？ Apache Avro 是一個數據序列

spark 讀取 hdfs 資料分割槽規則

下文以讀取 parquet 檔案 / parquet hive table 為例： hive metastore 和 parquet 轉化的方式通過 spark.sql.hive.convertMetastoreParquet 控制，預設為 true。如果設定為 true ，會

spark讀取kafka資料（兩種方式比較及flume配置檔案）

a1.sources = r1 a1.channels = c1 a1.sinks = k1 a1.sources.r1.channels = c1 a1.sinks.k1.channel = c1 a1.channels.c1.type = memory a1.channels.c1.capacity

scala實戰之spark讀取mysql資料表並存放到mysql庫中程式設計例項

今天簡單講解一下應用spark1.5.2相關讀取mysql資料到DataFrame的介面以及將DF資料存放到mysql中介面實現例項同樣我們的程式設計開發環境是不需要安裝spark的，但是需要一臺安裝了mysql的伺服器，我這裡直接在本機安裝了一個mysql，還有就是sc

spark讀取kafka資料寫入hbase

package com.prince.demo.test import java.util.UUID import com.typesafe.config.{Config, ConfigFactory} import org.apache.hadoop.hbase.HBa

spark讀取mongodb資料

spark2.x向mongodb中讀取寫入資料，讀取寫入相關引數參考https://docs.mongodb.com/spark-connector/current/configuration/#cache-configuration 從mongodb中讀取資料時指

通過spark-sql快速讀取hive中的資料

1 配置並啟動 1.1 建立並配置hive-site.xml 在執行Spark SQL CLI中需要使用到Hive Metastore，故需要在Spark中新增其uris。具體方法是將HIVE_CONF/hive-site.xml複製到SPARK_CONF目錄下，然後在該配置檔案中，新增hive.metast

spark用scala讀取hive表資料

spark1.6寫法： val conf = new SparkConf() val sc = new SparkContext(conf) val hiveContext = new HiveContext(sc) // 指定hive中

Spark記錄-Spark-Shell客戶端操作讀取Hive數據

osi scrip shuff gist onf his serial rpc tab 1.拷貝hive-site.xml到spark/conf下，拷貝mysql-connector-java-xxx-bin.jar到hive/lib下 2.開啟hive元數據服務：hive

mongo-spark-讀取不同的庫資料和寫入不同的庫中

mongo-spark-讀取不同的庫資料和寫入不同的庫中 package com.example.app import com.mongodb.spark.config.{ReadConfig, WriteConfig} import com.mongodb.spark.sql._ object

使用spark將hive中的資料匯入到mongodb

import com.huinong.truffle.push.process.domain.common.constant.Constants; import com.mongodb.spark.MongoSpark; import com.mongodb.spark.config.WriteConf

Java-讀取指定資料夾下檔名

兩種返回方式 1. 陣列 2.集合 import java.io.File; import java.util.ArrayList; public class Test { /** * 陣列 */ public static String[] getFileNa

spark讀取hive資料-java

1. SparkSession裡設定enableHiveSupport()

2. pom 新增依賴 ( 對hive版本沒要求 )

3. 將配置檔案放在spark的conf下

4. spark.sql讀取資料

5. hive sql 語句

6. 寫es

專案打包

遇到的問題

問題: Hive Schema version 2.1.0 does not match metastore

相關推薦