Spark將資料寫入Hbase以及從Hbase讀取資料

阿新 • • 發佈：2019-02-12

本文將介紹

1、spark如何利用saveAsHadoopDataset和saveAsNewAPIHadoopDataset將RDD寫入hbase

2、spark從hbase中讀取資料並轉化為RDD

操作方式為在eclipse本地執行spark連線到遠端的hbase。

java版本：1.7.0

scala版本：2.10.4

zookeeper版本：3.4.5（禁用了hbase自帶zookeeper，選擇自己部署的）

hadoop版本：2.4.1

spark版本：1.6.1

hbase版本：1.2.3

叢集：centos6.5_x64

將RDD寫入hbase

注意點：

依賴：

將lib目錄下的hadoop開頭jar包、hbase開頭jar包新增至classpath

此外還有lib目錄下的：zookeeper-3.4.6.jar、metrics-core-2.2.0.jar（缺少會提示hbase RpcRetryingCaller: Call exception不斷嘗試重連hbase，不報錯）、htrace-core-3.1.0-incubating.jar、guava-12.0.1.jar

$SPARK_HOME/lib目錄下的 spark-assembly-1.6.1-hadoop2.4.0.jar

不同的package中可能會有相同名稱的類，不要導錯

連線叢集：

spark應用需要連線到zookeeper叢集，然後藉助zookeeper訪問hbase。一般可以通過兩種方式連線到zookeeper：

第一種是將hbase-site.xml檔案加入classpath

第二種是在HBaseConfiguration例項中設定

如果不設定，預設連線的是localhost:2181會報錯：connection refused

本文使用的是第二種方式。

hbase建立表：

雖然可以在spark應用中建立hbase表，但是不建議這樣做，最好在hbase shell中建立表，spark寫或讀資料

使用saveAsHadoopDataset寫入資料

    import org.apache.hadoop.hbase.HBaseConfiguration  
    import org.apache.hadoop.hbase.client.Put  
    import org.apache.hadoop.hbase.io.ImmutableBytesWritable  
    import org.apache.hadoop.hbase.mapred.TableOutputFormat  
    import org.apache.hadoop.hbase.util.Bytes  
    import org.apache.hadoop.mapred.JobConf  
    import org.apache.spark.{SparkContext, SparkConf}  
      
    /** 
     * User:leen 
     * Date:2017/12/20 0020 
     * Time:16:51 
     */  
    object HbaseTest1 {  
      def main(args: Array[String]): Unit = {  
        val sparkConf = new SparkConf().setAppName("HBaseTest1").setMaster("local")  
        val sc = new SparkContext(sparkConf)  
      
        val conf = HBaseConfiguration.create()  
        //設定zooKeeper叢集地址，也可以通過將hbase-site.xml匯入classpath，但是建議在程式裡這樣設定  
        conf.set("hbase.zookeeper.quorum","slave1,slave2,slave3")  
        //設定zookeeper連線埠，預設2181  
        conf.set("hbase.zookeeper.property.clientPort", "2181")  
      
        val tablename = "account"  
      
        //初始化jobconf，TableOutputFormat必須是org.apache.hadoop.hbase.mapred包下的  
        val jobConf = new JobConf(conf)  
        jobConf.setOutputFormat(classOf[TableOutputFormat])  
        jobConf.set(TableOutputFormat.OUTPUT_TABLE, tablename)  
      
        val indataRDD = sc.makeRDD(Array("1,jack,15","2,Lily,16","3,mike,16"))  
      
        val rdd = indataRDD.map(_.split(',')).map{arr=>{  
          
          // 一個Put物件就是一行記錄，在構造方法中指定主鍵  
          // 所有插入的資料必須用org.apache.hadoop.hbase.util.Bytes.toBytes方法轉換  
          // Put.add方法接收三個引數：列族，列名，資料  
          val put = new Put(Bytes.toBytes(arr(0).toInt))  
          put.addColumn(Bytes.toBytes("cf"),Bytes.toBytes("name"),Bytes.toBytes(arr(1)))  
          put.addColumn(Bytes.toBytes("cf"),Bytes.toBytes("age"),Bytes.toBytes(arr(2).toInt))  
          //轉化成RDD[(ImmutableBytesWritable,Put)]型別才能呼叫saveAsHadoopDataset  
          (new ImmutableBytesWritable, put)  
        }}  
      
        rdd.saveAsHadoopDataset(jobConf)  
      
        sc.stop()  
      }  
    }

使用saveAsNewAPIHadoopDataset寫入資料

    import org.apache.hadoop.hbase.client.Put  
    import org.apache.hadoop.hbase.io.ImmutableBytesWritable  
    import org.apache.hadoop.hbase.mapreduce.TableOutputFormat  
    import org.apache.hadoop.hbase.client.Result  
    import org.apache.hadoop.hbase.util.Bytes  
    import org.apache.hadoop.mapreduce.Job  
    import org.apache.spark.{SparkContext, SparkConf}  
      
    /** 
     * User:leen 
     * Date:2017/12/20 0020 
     * Time:17:34 
     */  
    object HbaseTest2 {  
      
      def main(args: Array[String]): Unit = {  
        val sparkConf = new SparkConf().setAppName("HBaseTest").setMaster("local")  
        val sc = new SparkContext(sparkConf)  
      
        val tablename = "account"  
      
        sc.hadoopConfiguration.set("hbase.zookeeper.quorum","slave1,slave2,slave3")  
        sc.hadoopConfiguration.set("hbase.zookeeper.property.clientPort", "2181")  
        sc.hadoopConfiguration.set(TableOutputFormat.OUTPUT_TABLE, tablename)  
      
        val job = Job.getInstance(sc.hadoopConfiguration)  
        job.setOutputKeyClass(classOf[ImmutableBytesWritable])  
        job.setOutputValueClass(classOf[Result])  
        job.setOutputFormatClass(classOf[TableOutputFormat[ImmutableBytesWritable]])  
      
        val indataRDD = sc.makeRDD(Array("1,jack,15","2,Lily,16","3,mike,16"))  
          
        val rdd = indataRDD.map(_.split(',')).map{arr=>{  
          val put = new Put(Bytes.toBytes(arr(0)))  
          put.addColumn(Bytes.toBytes("cf"),Bytes.toBytes("name"),Bytes.toBytes(arr(1)))  
          put.addColumn(Bytes.toBytes("cf"),Bytes.toBytes("age"),Bytes.toBytes(arr(2).toInt))  
          (new ImmutableBytesWritable, put)  
        }}  
      
        rdd.saveAsNewAPIHadoopDataset(job.getConfiguration())  
          
        sc.stop()  
      }  
    }

從hbase讀取資料轉化成RDD

本例基於官方提供的例子

    package com.test  
      
    import org.apache.hadoop.hbase.{HBaseConfiguration, HTableDescriptor, TableName}  
    import org.apache.hadoop.hbase.client.HBaseAdmin  
    import org.apache.hadoop.hbase.mapreduce.TableInputFormat  
    import org.apache.spark._  
    import org.apache.hadoop.hbase.client.HTable  
    import org.apache.hadoop.hbase.client.Put  
    import org.apache.hadoop.hbase.util.Bytes  
    import org.apache.hadoop.hbase.io.ImmutableBytesWritable  
    import org.apache.hadoop.hbase.mapreduce.TableOutputFormat  
    import org.apache.hadoop.mapred.JobConf  
    import org.apache.hadoop.io._  
      
    object TestHBase2 {  
      
      def main(args: Array[String]): Unit = {  
        val sparkConf = new SparkConf().setAppName("HBaseTest").setMaster("local")  
        val sc = new SparkContext(sparkConf)  
          
        val tablename = "account"  
        val conf = HBaseConfiguration.create()  
        //設定zooKeeper叢集地址，也可以通過將hbase-site.xml匯入classpath，但是建議在程式裡這樣設定  
        conf.set("hbase.zookeeper.quorum","slave1,slave2,slave3")  
        //設定zookeeper連線埠，預設2181  
        conf.set("hbase.zookeeper.property.clientPort", "2181")  
        conf.set(TableInputFormat.INPUT_TABLE, tablename)  
      
        // 如果表不存在則建立表  
        val admin = new HBaseAdmin(conf)  
        if (!admin.isTableAvailable(tablename)) {  
          val tableDesc = new HTableDescriptor(TableName.valueOf(tablename))  
          admin.createTable(tableDesc)  
        }  
      
        //讀取資料並轉化成rdd  
        val hBaseRDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat],  
          classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],  
          classOf[org.apache.hadoop.hbase.client.Result])  
      
        val count = hBaseRDD.count()  
        println(count)  
        hBaseRDD.foreach{case (_,result) =>{  
          //獲取行鍵  
          val key = Bytes.toString(result.getRow)  
          //通過列族和列名獲取列  
          val name = Bytes.toString(result.getValue("cf".getBytes,"name".getBytes))  
          val age = Bytes.toInt(result.getValue("cf".getBytes,"age".getBytes))  
          println("Row key:"+key+" Name:"+name+" Age:"+age)  
        }}  
      
        sc.stop()  
        admin.close()  
      }  
    }

Spark將資料寫入Hbase以及從Hbase讀取資料

本文將介紹 1、spark如何利用saveAsHadoopDataset和saveAsNewAPIHadoopDataset將RDD寫入hbase 2、spark從hbase中讀取資料並轉化為RDD 操作方式為在eclipse本地執行spark連線到遠端的hbase。 ja

簡單實現將介面返回的資料寫入文字，從文字讀取引數，實現介面引數自動化

import requestsimport jsonimport datetimeimport re# 需要測試的環境api_host = "192.168.10.XX:XXXX"#發貨寶登入 15023621999headers_null = { 'Content-Type' : 'applicati

spark從mysql讀取資料（redis/mongdb/hbase等類似，換成各自RDD即可）

package com.ws.jdbc import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, SparkCont

從hbase表1中讀取資料，最終結果寫入到hbase表2 ，如何通過MapReduce實現？

需要一：將hbase中‘student’表中的info：name和info：age兩列資料取出並寫入到hbase中‘user’表中的basic：XM和basic：NL class ReadStudentMapper extends Table

MapReduce中，從HDFS讀取資料計算後寫入HBase

基於上個例子。做一下簡單的改造。在原本的例子中，從HDFS中讀取資料計算之後再寫會HDFS裡，現在講Reducer類改造一下，把計算後的資料。寫入到HBase當中，寫完之後我們會使用HBase的命令查詢一下寫入資料。開啟原有的Reducer類，程式碼如下：import org

Spark:將DataFrame寫入Mysql

normal avi sqlt getc height serve saveas ecif access Spark將DataFrame進行一些列處理後，需要將之寫入mysql，下面是實現過程 1.mysql的信息 mysql的信息我保存在了外部的配置文件，這樣方便後續的配

mysql安裝，以及從csv插入資料

1.mysql安裝用管理員身份開啟cmd命令列工具，cd到解壓檔案的bin目錄：・MySql的Windows服務安裝：　mysqld install　回車　・生成無密碼的root使用者：　mysqld --initialize-insecure　

Spark---WC---Spark從外部讀取資料之textFile

測試資料 hello spark hello hadoop csdn hadoop csdn csdn hello world 結果 (spark,1) (hadoop,2) (csdn,3) (hello,3) (world,1) import org.

STM32操作訪問flash，包括寫入資料到flash和從flash讀取資料

STM32中儲存區分為：隨機存取儲存器RAM和只讀儲存器ROM。其中： RAM為常說的記憶體，比如手機的2G記憶體4G記憶體等，就是程式跑起來的時候所佔用的儲存空間，特點是掉電資料丟失。 ROM為常說的硬碟，比如手機的64G和128G等，可以簡單的理解為

第一篇部落格：java從資料庫讀取資料，並寫入到excel表格中

今天，組長分配了查詢資料庫記錄，並把這些記錄寫入到excel表格中，以前沒有嘗試過，借鑑了一些別人的程式碼，最終實現了功能，寫一篇部落格，總結一下這個過程。1.準備需要用到的jar包 1.jxl.jar 2.mysql-connector-java-5.1.

uiimage 轉換為畫素資料以及從畫素資料生成為uiimage

http://www.cnspirit.com/2011/04/uiimage-uiimage.html 生成RGBABitmapContext CGContextRef CreateRGBABitmapContext (CGImageRef inImage){

spark部分json從檔案讀取資料【java純程式碼】

package com.bjsxt; import org.apache.hadoop.hdfs.server.namenode.dfsclusterhealth_jsp; import org.apache.spark.SparkConf; import org.apac

xml應用以及從資料庫讀出資料形成XML，XML的查詢,xpath

1.配置檔案，如QQ的配置檔案，在java中使用的非常多 2.資料傳輸比如webserivice 網站開放的AP，如土豆網的視訊資訊I 3.小型資料庫通過mysql_fetch_assoc函式 while($row = mysq_fetch_assoc($rs)){

Flume從Kafka讀取資料，並寫入到Hdfs上

需求：kafka有五個主題 topic topic-app-startuptopic topic-app-errortopic topic-app-eventtopic topic-app-usagetopic topic-app-pageflume讀取Kafka 5個主題

tensorflow--從檔案讀取資料

讀取資料-csv tensorflow讀取資料流程構造檔案佇列讀取佇列內容 reader = tf.TextLineReader() 解析成一個樣本資料 example, label = tf.decode_csv(value, record_defaults

jQueryAjax++servlet+json實現頁面載入時從後臺讀取資料

在eclipse中新建一個專案，我起名為Demo 新建一個html檔案，在其中引入外部jQuery和自定義的js檔案 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <sc

Kafka——Kafka消費者（從Kafka讀取資料）

KafkaConsumer概念消費者和消費者群組假設我們有一個應用程式需要從一個Kafka 主題讀取訊息並驗證這些訊息，然後再把它們儲存起來。應用程式需要建立一個消費者物件，訂閱主題並開始接收訊息，然後驗證訊息井儲存結果。過了一陣子，生產者往主題寫入訊息的速度超過了應用程式驗證資料的

學習筆記:從0開始學習大資料-28. solr儲存資料在hdfs並從mysql匯入資料

環境 centos7 hadoop2.6.0 solr-7.5.0 一、建立hdfs為儲存的core 1.在hdfs建立索引資料目錄 [[email protected] bin]# hadoop fs -mkdir /user/solr/ [[email&

pandas從excel讀取資料處理的注意事項

##excel中支援的資料型別較pandas多的多因為從excel讀取的資料型別很多預設是object，資料處理前建議轉換成str等。pandas中當多列同為object時，實際資料不相同。如merge時 ggg=pd.merge(cs,c,how="inner",lef

Kafka消費者——從 Kafka讀取資料

應用程式使用 KafkaConsumer向 Kafka 訂閱主題，並從訂閱的主題上接收訊息。從 Kafka 讀取資料不同於從其他悄息系統讀取資料，它涉及一些獨特的概念和想法。如果不先理解這些概念，就難以理解如何使用消費者 API。所以我們接下來先解釋這些重要的概念，然

Spark將資料寫入Hbase以及從Hbase讀取資料

將RDD寫入hbase

從hbase讀取資料轉化成RDD

相關推薦