spark生成HFile匯入到hbase

阿新 • • 發佈：2019-01-23

原文地址：http://www.cnblogs.com/luckuan/p/5142203.html

import java.util.Date

import org.apache.hadoop.fs.Path
import org.apache.hadoop.hbase.client.{HTable, Table, _}
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.{HFileOutputFormat2, LoadIncrementalHFiles}
import org.apache.hadoop.hbase.util.Bytes
import org.apache.hadoop.hbase.{HBaseConfiguration, KeyValue, TableName}
import org.apache.hadoop.mapreduce.Job
import org.apache.spark.{SparkConf, SparkContext}


object App7 {
  def main(args: Array[String]) {
    //建立sparkcontext,用預設的配置
    val sc = new SparkContext(new SparkConf())
    //hbase的列族
    val columnFamily1 = "f1"
    //hbase的預設配置檔案
    val conf = HBaseConfiguration.create()
    //當前時間
    val date = new Date().getTime
    //初始化RDD,用 sc.parallelize 生成一個RDD
    val sourceRDD = sc.parallelize(Array(
      (Bytes.toBytes("41"), //41是rowkey
        (Bytes.toBytes(columnFamily1), Bytes.toBytes("a"), Bytes.toBytes("foo1"))), //分別設定family  colum  和 value
      (Bytes.toBytes("41"),
        (Bytes.toBytes(columnFamily1), Bytes.toBytes("b"), Bytes.toBytes("foo2.b"))),
      (Bytes.toBytes("42"),
        (Bytes.toBytes(columnFamily1), Bytes.toBytes("a"), Bytes.toBytes("foo2.a"))),
      (Bytes.toBytes("42"),
        (Bytes.toBytes(columnFamily1), Bytes.toBytes("c"), Bytes.toBytes("foo2.c"))),
      (Bytes.toBytes("43"),
        (Bytes.toBytes(columnFamily1), Bytes.toBytes("a"), Bytes.toBytes("foo3"))),
      (Bytes.toBytes("44"),
        (Bytes.toBytes(columnFamily1), Bytes.toBytes("a"), Bytes.toBytes("foo.1"))),
      (Bytes.toBytes("44"),
        (Bytes.toBytes(columnFamily1), Bytes.toBytes("b"), Bytes.toBytes("foo.2"))),
      (Bytes.toBytes("45"),
        (Bytes.toBytes(columnFamily1), Bytes.toBytes("a"), Bytes.toBytes("bar.1"))),
      (Bytes.toBytes("45"),
        (Bytes.toBytes(columnFamily1), Bytes.toBytes("d"), Bytes.toBytes("bar.2")))))

    val rdd = sourceRDD.map(x => {
      //將rdd轉換成HFile需要的格式,我們上面定義了Hfile的key是ImmutableBytesWritable,那麼我們定義的RDD也是要以ImmutableBytesWritable的例項為key
      //KeyValue的例項為value
      //rowkey
      val rowKey = x._1
      val family = x._2._1
      val colum = x._2._2
      val value = x._2._3
      (new ImmutableBytesWritable(rowKey), new KeyValue(rowKey, family, colum, date, value))
    })

    //生成的HFile的臨時儲存路徑
    val stagingFolder = "/user/hbase/spark/"
    //將日誌儲存到指定目錄
    rdd.saveAsNewAPIHadoopFile(stagingFolder,
      classOf[ImmutableBytesWritable],
      classOf[KeyValue],
      classOf[HFileOutputFormat2],
      conf)
    //此處執行完成之後,在stagingFolder會有我們生成的Hfile檔案


    //開始即那個HFile匯入到Hbase,此處都是hbase的api操作
    val load = new LoadIncrementalHFiles(conf)
    //hbase的表名
    val tableName = "output_table"
    //建立hbase的連結,利用預設的配置檔案,實際上讀取的hbase的master地址
    val conn = ConnectionFactory.createConnection(conf)
    //根據表名獲取表
    val table: Table = conn.getTable(TableName.valueOf(tableName))
    try {
      //獲取hbase表的region分佈
      val regionLocator = conn.getRegionLocator(TableName.valueOf(tableName))
      //建立一個hadoop的mapreduce的job
      val job = Job.getInstance(conf)
      //設定job名稱
      job.setJobName("DumpFile")
      //此處最重要,需要設定檔案輸出的key,因為我們要生成HFil,所以outkey要用ImmutableBytesWritable
      job.setMapOutputKeyClass(classOf[ImmutableBytesWritable])
      //輸出檔案的內容KeyValue
      job.setMapOutputValueClass(classOf[KeyValue])
      //配置HFileOutputFormat2的資訊
      HFileOutputFormat2.configureIncrementalLoad(job, table, regionLocator)

      //開始匯入
      load.doBulkLoad(new Path(stagingFolder), table.asInstanceOf[HTable])
    } finally {
      table.close()
      conn.close()
    }
  }
}

spark生成HFile匯入到hbase

原文地址：http://www.cnblogs.com/luckuan/p/5142203.html import java.util.Date import org.apache.hadoop.fs.Path import org.apache.hadoop.hbase

MapReduce生成HFile檔案,再使用BulkLoad匯入HBase中(完全分散式執行)

宣告: 若要轉載, 請標明出處. 前提: 在對於大量的資料匯入到HBase中, 如果一條一條進行插入, 則太耗時了, 所以可以先採用MapReduce生成HFile檔案, 然後使用BulkLoad匯入HBase中. 引用: 一、這種方式有很多的優點： 1. 如果我們一次性

spark批量匯入hbase

方法1 使用hbase put方式，這種方式效率不高 import org.apache.spark._ import org.apache.spark.rdd.NewHadoopRDD import org.apache.hadoop.hbase.{HBaseConfig

Hadoop生成HFile直接入庫HBase心得

轉載請標明出處：http://blackwing.iteye.com/blog/1991380 hbase自帶了ImportTsv類，可以直接把tsv格式（官方教材顯示，是\t分割各個欄位的文字格式）生成HFile，並且使用另外一個類org.apache.hadoop.hb

大資料之Spark（八）--- Spark閉包處理，部署模式和叢集模式，SparkOnYarn模式，高可用，Spark整合Hive訪問hbase類載入等異常解決，使用spark下的thriftserv

一、Spark閉包處理 ------------------------------------------------------------ RDD,resilient distributed dataset,彈性(容錯)分散式資料集。分割槽列表,function,dep Op

NodeJs實現以太坊錢包keystore生成，匯入私鑰，匯出私鑰，匯入keystore，匯出Keystore，簽名，轉賬，轉賬確認

Keythereum是一個用於生成，匯入和匯出以太坊金鑰的JavaScript工具。這提供了一種在本地和Web錢包中使用同一帳戶的簡單方法。它可用於可驗證和儲存錢包。 Keythereum使用相同的金鑰派生函式（PBKDF2-SHA256或scrypt），對稱密碼（AES-128

Mysql 資料匯入 Hbase

目錄一、前言一、前言在大資料專案中需要做資料遷移時，我們第一時間總會想到sqoop。sqoop是apache 旗下一款“Hadoop 和關係資料庫伺服器之間傳送資料”的工具，

(Java) ---- Eclipse快捷鍵、文件註釋和製作、生成和匯入jar包

【Eclipse快捷鍵】（1）ctrl+T 檢視類的繼承樹。（2）Ctrl+點選類名或者方法名，來檢視原始碼。 JDK （JRE(JVM，執行時所需要的核心類庫)，開發工具(javac...)）【Java中文件的註釋和製作】 /** + 回車（Enter

Spark SQL與hive hbase mysql整合

虛擬機器環境：centos7 一、Spark SQL 與Hive整合（spark-shell） 1.需要配置的專案 1）將hive的配置檔案hive-site.xml拷貝到spark conf目錄，同時新增metastore的url配置。執行

使用spark寫資料到Hbase的三種方式

方式一：直接使用HBase Table的PUT方法 import org.apache.hadoop.hbase.{HBaseConfiguration, TableName} import org.apache.hadoop.hbase.client.{Connect

使用spark將資料寫入Hbase

--------------組裝xml並捕獲異常------------------- package wondersgroup_0628.com import java.io.{IOException, PrintWriter, StringReader, StringWriter} imp

將sqlserver的資料匯入hbase中

將sqlserver的資料匯入hbase中 1.解壓sqoop-sqlserver-1.0.tar.gz，並改名（可以不改） tar -zxvf sqoop- sql

flume將資料匯入hbase

1 將hbase的lib目錄下jar拷貝到flume的lib目錄下；2 在hbase中建立儲存資料的表hbase(main):002:0> create 'test_idoall_org','uid','name'3 建立flume配置檔案 vi.confa1.sour

通過sqoop將MySQL資料庫中的資料匯入Hbase

從接觸到大資料到成功的實現一個功能期間走了不少彎路也踩了不少坑，這裡作為我的學習筆記也可以作為小白們的前車之鑑，少走彎路，有不正確之處，望指出環境準備： hadoop、hbase、sqoop、mys

spark使用hbasefilter訪問hbase表資料（封裝）

自己嘗試實現的類，本類的作用：呼叫內部方法根據輸入的表名，列族，列名，篩選需要展示的列根據輸入的列族，列名，列值，篩選條件，是用過濾器過濾資料返回值：SQLContext 已完成表的註冊，可以直接操作sql方法，使用sql語言查詢處理程式碼如下 package

用sqoop將oracle資料匯入Hbase 使用筆記

網上已經有很多關於這方面的資料，但是我在使用過程中也遇見了不少問題 1. sqoop 的環境我沒有自己搭建直接用的公司的 2. oracle 小白怕把公司環境弄壞了，自己用容器搭建了一個 docker pull docker.io/wnameless/oracle-xe

spark從mongodb匯入資料到hive

1、首先新增mongo-spark依賴，官網地址 https://docs.mongodb.com/spark-connector/ <dependency> <groupId>org.mongodb.spar

kafka資料匯入hbase

我們在使用kafka處理資料的過程中會使用kafka跟一下資料庫進行互動，Hbase就是其中的一種。下面給大家介紹一下kafka中的資料是如何匯入Hbase的。本文的思路是通過consumers把資料消費到Hbase中。首先在Hbase中建立表，建立表可以在H

大資料-05-Spark之讀寫HBase資料

準備工作一：建立一個HBase表這裡依然是以student表為例進行演示。這裡假設你已經成功安裝了HBase資料庫，如果你還沒有安裝，可以參考大資料-04-Hbase入門,進行安裝，安裝好以後，不要建立資料庫和表，只要跟著本節後面的內容操作即可。因為hbase依賴於hadoop，因此啟動和停止都是需要按

txt檔案匯入HBase

create 'aipai', {NAME=>'info'}：建立表 describe 'aipai' ：查看錶結構 scan 'aipai' ,{LIMIT=>20} ：查看錶

spark生成HFile匯入到hbase

相關推薦