Spark實現HIVE統計結果匯入到HBase操作

阿新 • • 發佈：2018-12-30

由於HIVE更新的機制極其不適應SPARK環境，於是利用HBase來執行HIVE中某些統計結果的更新。首先要做的是實現Spark + Hive訪問，得到RDD，再將這個RDD匯入到HBase中操作。

然而網上關於這一塊目前資料還真很少。但是其原理總體上來說是非常簡單的。

步驟主要是兩步：

(1)開啟hive聯結器，實現spark + hive的訪問，得到dataframe物件。

(2)對dataframe進行RDD轉換，進行hbase的批量匯入bulkput函式來實現。

hbaseContext.bulkPut[Row](rddFromSql.rdd,
      tableName,
      (putRecord) => {
        val put = new Put(Bytes.toBytes(putRecord.getString(0)))
        put.add(Bytes.toBytes(columnFamily1),Bytes.toBytes("receiver"),Bytes.toBytes(putRecord.getString(1)))
        put.add(Bytes.toBytes(columnFamily1),Bytes.toBytes("count"),Bytes.toBytes(putRecord.getLong(2)))
        put
      },
      true);

執行成功,成功匯入600W資料.

Spark實現HIVE統計結果匯入到HBase操作

由於HIVE更新的機制極其不適應SPARK環境，於是利用HBase來執行HIVE中某些統計結果的更新。首先要做的是實現Spark + Hive訪問，得到RDD，再將這個RDD匯入到HBase中操作。

創建function實現hive表結果導出到mysql

臨時 pre con output sql apach creat 名稱 reat 1. 創建臨時function （這裏兩個包都是hive自帶到，不需要自己開發的，可以根據名稱查找對應的版本） add jar /opt/local/hive/lib/hive-con

建立function實現hive表結果匯出到mysql

1. 建立臨時function （這裡兩個包都是hive自帶到，不需要自己開發的，可以根據名稱查詢對應的版本） add jar /opt/local/hive/lib/hive-contrib-2.3.3.jar; add jar /opt/local/hive/lib/mysql-connecto

用spark實現hive中的collect_set函式的功能

import org.apache.spark.SparkContext._ import org.apache.spark._ /** * Created by xiaojun on 2015/3/9. */ object SparkDemo2 { def ma

大資料叢集遇到的問題（Hadoop、Spark、Hive、kafka、Hbase、Phoenix）

大資料平臺中遇到的實際問題，整理了一下，使用CDH5.8版本，包括Hadoop、Spark、Hive、kafka、Hbase、Phoenix、Impala、Sqoop、CDH等問題，初步整理下最近遇到的問題，不定期更新。啟動nodemanager失敗 2016-09-07

使用Sqoop實現HIve分析結果資料入mysql庫

1.將hive作業中的結果，使用sqoop 匯入mysql資料庫。建立stock表並匯入資料建立stock_result表來存放stock的查詢結果自定義jar包並建立相應的函式（這一

基於C實現Word Count 將字符數、單詞數、行數，統計結果以指定格式輸出到默認文件中

計算具體實現 post 及其 sp2 註釋程序設計 cnblogs 基本基於C實現Word Count ---系統分析與設計課程個人項目作業 1. 項目地址： [gitee地址] (https://gitee.com/little-baby/WordCount-by-

使用spark將hive中的資料匯入到mongodb

import com.huinong.truffle.push.process.domain.common.constant.Constants; import com.mongodb.spark.MongoSpark; import com.mongodb.spark.config.WriteConf

大資料學習之路106-spark streaming統計結果寫入mysql

我們首先將資料庫的配置資訊寫到配置檔案中。要使用配置檔案的話，首先我們要在pom檔案中匯入配置檔案讀取依賴： <dependency> <groupId>com.typesafe</groupId>

大資料之Spark（八）--- Spark閉包處理，部署模式和叢集模式，SparkOnYarn模式，高可用，Spark整合Hive訪問hbase類載入等異常解決，使用spark下的thriftserv

一、Spark閉包處理 ------------------------------------------------------------ RDD,resilient distributed dataset,彈性(容錯)分散式資料集。分割槽列表,function,dep Op

Hive連線Hbase操作資料

Hive連線Hbase操作資料版權宣告：本文為博主原創文章，未經博主允許不得轉載。轉載請註明來自http://blog.csdn.net/lr131425 https://blog.csdn.net/lr131425/article/details/72722932 Hi

spark的hive操作和常見的bug

package hive import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession object HiveDome { def fun1(): Unit = { val conf = new Sp

Spark實現提前中斷正在執行的運算元，並回到driver程式進行操作

Spark實現提前中斷正在執行的運算元，並回到driver程式進行操作讓執行到一半的spark運算元（如map，combineByKey等）在出現某些條件時可以中斷運算，回到driver程式讓執行到一半的spark運算元（如map，combineB

同一個sql 在Hive和spark-sql 跑出結果不一樣記錄

表Schema hive> desc gdm.dim_category; name string 分類名稱

Spark SQL 筆記(11)——實戰網站日誌分析（2）統計結果入庫

1 統計結果入庫使用 DataFrame API 完成統計分析使用 SQL API 完成統計分析將結果寫入 MySQL 資料庫 1.1 調優點分割槽欄位的資料型別的調整 https://

Hive SQL視窗函式實現頁面統計(以騰雲天下頁面訪問為例)

埋點資料欄位為: userid,at,sid,pid分別表示使用者id,訪問時間,sessionId(區分一次啟動),頁面id 表名為beacon 所有資料均為模擬資料 2018-07-04 11:46:37 2856 efda26adec1c3eb8 h_01 20

基於spark實現表的join操作

1. 自連線假設存在如下檔案： [root@bluejoe0 ~]# cat categories.csv 1,生活用品,0 2,數碼用品,1 3,手機,2 4,華為Mate7,3 每一行的格式為：類別ID，類別名稱，父類ID 現在欲輸出每個類別

hive over hbase方式將文字庫資料匯入hbase

1，建立hbase表Corpus >> create 'Corpus','CF' 2，建立hive->hbase外表logic_Corpus,並對應hbase中的Corpus表 >> CREATE EXTERNAL TABLE logic_Co

spark批量匯入hbase

方法1 使用hbase put方式，這種方式效率不高 import org.apache.spark._ import org.apache.spark.rdd.NewHadoopRDD import org.apache.hadoop.hbase.{HBaseConfig

spark運算結果寫入hbase及優化

在Spark中利用map-reduce或者spark sql分析了資料之後，我們需要將結果寫入外部檔案系統。本文，以向Hbase中寫資料，為例，說一下，Spark怎麼向Hbase中寫資料。首先，