spark使用hbasefilter訪問hbase表資料（封裝）

阿新 • • 發佈：2019-01-06

自己嘗試實現的類，

本類的作用：呼叫內部方法

根據輸入的表名，列族，列名，篩選需要展示的列

根據輸入的列族，列名，列值，篩選條件，是用過濾器過濾資料

返回值：SQLContext

已完成表的註冊，可以直接操作sql方法，使用sql語言查詢處理

程式碼如下

package cn.deppon.Tool

import java.util

import scala.collection.JavaConverters._
import org.apache.hadoop.hbase.HBaseConfiguration
import org.apache.hadoop.hbase.client.{HTable, ResultScanner, Scan}
import org.apache.hadoop.hbase.filter._
import org.apache.hadoop.hbase.mapreduce.TableInputFormat
import org.apache.hadoop.hbase.protobuf.ProtobufUtil
import org.apache.hadoop.hbase.util.{Base64, Bytes}
import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.{Row, SQLContext}
import org.apache.spark.sql.types._
import org.apache.spark.{SparkConf, SparkContext}

/**
  * Created by DreamBoy on 2017/5/12.
  */
object SparkHbaseTool {

  /**
    * 利用主構造器構造需要的環境的基本條件
    */
  Logger.getLogger("org.apache.spark").setLevel(Level.ERROR)
  //設定spark引數
  val conf = new SparkConf().setMaster("local[2]")
    .setAppName("HbaseTest")
  conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
  val sc = new SparkContext(conf)
  val hbaseConf = HBaseConfiguration.create()
  val sqlContext = new SQLContext(sc)

  //配置HBase
  hbaseConf.set("hbase.rootdir", "hdfs://http://192.168.10.228/hbase")
  hbaseConf.set("hbase.zookeeper.quorum", "192.168.10.228,192.168.10.229,192.168.10.230,192.168.10.231,192.168.10.232")
  hbaseConf.set("hbase.zookeeper.property.clientPort", "2181")
  hbaseConf.set("hbase.master", "192.168.10.230")

  def convertScanToString(scan: Scan) = {
    val proto = ProtobufUtil.toScan(scan)
    Base64.encodeBytes(proto.toByteArray)
  }

  /**
    *
    * @param tbl_nm     表名
    * @param show_col   _1 列族  _2列名  _3 列型別(String,Int,Double,Timestamp...)
    * @param filter_col _1 列族  _2列名  _3 篩選值  _4 篩選型別(=,<,>,!=...)
    * @return sqlcontext
    */
  def getTableNm(tbl_nm: String, show_col: Array[(String, String, String)], filter_col: Array[(String, String, String, String)]): (SQLContext) = {

    hbaseConf.set(TableInputFormat.INPUT_TABLE, tbl_nm)
    val table = new HTable(hbaseConf, tbl_nm)
    val scan = new Scan()

    /**
      * 指定列族和需要顯示的列名
      * 新增多個需要用到的列
      */
    /*
    val length = show_col.length
    for(i <- show_col){
      scan.addColumn(Bytes.toBytes(i._1),Bytes.toBytes(i._2))
    }
    */
    //設定rowkey的範圍，啟示和結束
    //scan.setStartRow(Bytes.toBytes(""))
    //scan.setStopRow(Bytes.toBytes(""))
    val fil_len = filter_col.length
    println("------>>>>" + fil_len)
    //如果沒有新增過濾器，就給過濾器新增空
    if (fil_len > 0) {
      val filter_arr = new util.ArrayList[Filter](fil_len)

      for (i <- filter_col) {
        i._4 match {
          case "=" => {
            val filter1 = new SingleColumnValueFilter(Bytes.toBytes(i._1),
              Bytes.toBytes(i._2), CompareFilter.CompareOp.EQUAL, new BinaryComparator(Bytes.toBytes(i._3)))
            filter1.setFilterIfMissing(true)
            filter_arr.add(filter1)
          }
          case "<" => {
            val filter1 = new SingleColumnValueFilter(Bytes.toBytes(i._1),
              Bytes.toBytes(i._2), CompareFilter.CompareOp.LESS, new BinaryComparator(Bytes.toBytes(i._3)))
            filter1.setFilterIfMissing(true)
            filter_arr.add(filter1)
          }
          case "<=" => {
            val filter1 = new SingleColumnValueFilter(Bytes.toBytes(i._1),
              Bytes.toBytes(i._2), CompareFilter.CompareOp.LESS_OR_EQUAL, new BinaryComparator(Bytes.toBytes(i._3)))
            filter1.setFilterIfMissing(true)
            filter_arr.add(filter1)
          }
          case ">" => {
            val filter1 = new SingleColumnValueFilter(Bytes.toBytes(i._1),
              Bytes.toBytes(i._2), CompareFilter.CompareOp.GREATER, new BinaryComparator(Bytes.toBytes(i._3)))
            filter1.setFilterIfMissing(true)
            filter_arr.add(filter1)
          }
          case ">=" => {
            val filter1 = new SingleColumnValueFilter(Bytes.toBytes(i._1),
              Bytes.toBytes(i._2), CompareFilter.CompareOp.GREATER_OR_EQUAL, new BinaryComparator(Bytes.toBytes(i._3)))
            //filter1.setFilterIfMissing(true)
            filter_arr.add(filter1)
          }
          case "!=" => {
            val filter1 = new SingleColumnValueFilter(Bytes.toBytes(i._1),
              Bytes.toBytes(i._2), CompareFilter.CompareOp.NOT_EQUAL, new BinaryComparator(Bytes.toBytes(i._3)))
            filter1.setFilterIfMissing(true)
            filter_arr.add(filter1)
          }
          case _ => {}
        }
      }
      /**
        * 通過使用filterlist可以載入多個過濾器
        * 設定多個過濾器
        */
      val filterList = new FilterList(FilterList.Operator.MUST_PASS_ALL, filter_arr)
      scan.setFilter(filterList)
    } else {
      scan.setFilter(null)
    }

    //hbaseConf.set(TableInputFormat.SCAN,convertScanToString(scan))
    //獲取表的掃描
    val ColumnValueScanner = table.getScanner(scan)
    //構建structtype需要的list  根據傳入的型別引數構建表
    /*var list_col = show_col.map{x=>{
     /* x._3 match {
        case "String" => StructField(x._2,StringType,true)
        case "Int" => StructField(x._2,StringType,true)
        case "Double" => StructField(x._2,StringType,true)
        case "Timestamp" => StructField(x._2,StringType,true)
        case _ => StructField(x._2,StringType,true)
      }*/
      StructField(x._2,StringType,true)
    }
    }*/
    /**
      * structType構造的目的：為在後面產生dataframe的時候指定每個值的列名
      * 在註冊成表的時候可以使用
      */
    var list_col: List[StructField] = List()
    list_col :+= StructField("id", StringType, true)
    
    for (i <- show_col) {
      list_col :+= StructField(i._2, StringType, true)
    }

    
    //構建表的structType
    val schema = StructType(list_col)

    val tbl_rdd = ColumnValueScanner.iterator().asScala
    //把過濾器載入到hbaseconf中
    hbaseConf.set(TableInputFormat.SCAN, convertScanToString(scan))
    //構建RDD
    val hbaseRDD = sc.newAPIHadoopRDD(
      hbaseConf,
      classOf[TableInputFormat],
      classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],
      classOf[org.apache.hadoop.hbase.client.Result])
    //構建rdd的結果集
    val rowRDD = hbaseRDD.map { case (_, result) => {
      var valueSeq: Seq[String] = Seq()
      //獲取行鍵
      val key = Bytes.toString(result.getRow)

      //通過列族和列名獲取列  不加rowkey方法
      //      for(column <- columns) {
      //        valueSeq :+= Bytes.toString(result.getValue(family.getBytes, column.getBytes))
      //      }
      //加rowkey方法，Array第一列必須是"rowkey"
      valueSeq :+= key
      for (row <- show_col) {
        valueSeq :+= Bytes.toString(result.getValue(row._1.getBytes, row._2.getBytes))
      }
      Row.fromSeq(valueSeq)
    }
    }
    val hbasedataframe = sqlContext.createDataFrame(rowRDD, schema)

    hbasedataframe.registerTempTable(tbl_nm)
    sqlContext
  }
}

spark使用hbasefilter訪問hbase表資料（封裝）

自己嘗試實現的類，本類的作用：呼叫內部方法根據輸入的表名，列族，列名，篩選需要展示的列根據輸入的列族，列名，列值，篩選條件，是用過濾器過濾資料返回值：SQLContext 已完成表的註冊，可以直接操作sql方法，使用sql語言查詢處理程式碼如下 package

oracle誤刪表資料（delete）

轉：http://www.cnblogs.com/hqbhonker/p/3977200.html 1.開啟Flash儲存的許可權ALTER TABLE tableName ENABLE row movement ; 2.找到這個表在這個時間點的資料 select * from tabl

1008-Hive訪問HBase表資料

hbase(main):012:0> get 'UserVisitInfo','20150706_3037487029517069460000' COLUMN CELL

朱有鵬C語言高階---4.9.2--單鏈表--訪問單鏈表中各個節點的資料（1）

朱有鵬C語言高階---4.9.2--單鏈表--訪問單鏈表中各個節點的資料（1）朱有鵬C語言高階---4.9.3--單鏈表--將建立節點的程式碼封裝成一個函式（2）構建一個簡單的單鏈表目標：構建一個連結串列，然後將一些資料（譬如1,2,3三個數字）儲存在連結串列中，

HBase概念學習（八）開發一個類twitter系統之表設計

至少創建用戶列表 ase wke long 少包 mali 。。這邊文章先將可能的需求分析一下，設計出HBase表，下一步再開始編寫client代碼。 TwiBase系統 1、背景為了加深HBase基本概念的學習，參考HBase實戰這本書實際動手做了這個樣

獲取表單資料（二）

<%@ page contentType="text/html;charset=gb2312"%> <%! public String codeToString(String str) {//處理中文字串的函式 String s=str;

同步訪問共享的可變資料（66）

關鍵字synchronized 保證同一時刻，只有一個執行緒執行某一個方法或程式碼塊當一個物件被一個執行緒修改時，可以阻止其他執行緒看到其內部的不一致狀態正確的使用同步可以避免任何物件看到其不一致狀態不僅於此，沒有同步，各個執行緒之間物件的變化是相互不感知的進入的各個執

vue v-model 繫結表單元素的資料（1）基礎用法

用法：可以用 v-model 指令在表單 <input>、<textarea> 及 <select> 元素上建立雙向資料繫結。它會根據控制元件型別自動選取正確的方法來更新元素。儘管有些神奇，但 v-model 本質上不過是語

大資料儲存---HBase常用介紹（中）

我們這裡主要介紹HBase的API 基礎API 封裝工具類基礎API 建立表新增資料查詢資料的三種方式掃描查詢 get方式執行查詢過濾查詢 PS:刪除表請通過shell命令進入客戶端刪除。 package com.hbase; imp

資料結構之基本查詢與樹表查詢（上）

只要你開啟電腦，就會涉及到查詢技術。如炒股軟體中查股票資訊、硬碟檔案中找照片、在光碟中搜DVD，甚至玩遊戲時在記憶體中查詢攻擊力、魅力值等資料修改用來作弊等，都要涉及到查詢。當然，在網際網路上查詢資訊就更加是家常便飯。查詢是計算機應用中最常用的操作之一，也是許多程

資料訪問方式之EntityFramework（2）

新增控制器在控制器中例項化資料上下文：private readonly DBContext _db = new DBContext(); 列表return View(_db.Product.T

資料結構篇：鄰接表基礎（C#）

今天突發奇想利用C#實現鄰接表（供參考），基本思想是把C++/C語言中的結構體改成類，基本思路一致，參考C++版 https://blog.csdn.net/qq_15020543/article/details/84178417 還是以這張圖為例，我們在C#裡面實現

《常見演算法與資料結構》符號表ST（4）——二叉查詢樹刪除（附動畫）

符號表ST（4）——二叉查詢樹刪除（附動畫）本系列文章主要介紹常用的演算法和資料結構的知識，記錄的是《Algorithms I/II》課程的內容，採用的是“演算法（第4版）”這本紅寶書作為

《常見演算法與資料結構》符號表ST（1）——基本介紹

符號表（Symbol Table) 本系列文章主要介紹常用的演算法和資料結構的知識，記錄的是《Algorithms I/II》課程的內容，採用的是“演算法（第4版）”這本紅寶書作為學習教材的，語言是java。這本書的名氣我不用多說吧？豆瓣評分9.4，我自

java後臺封裝json資料（一）

資料封裝 1. List集合轉換成json程式碼　　List list = new ArrayList();　　list.add( "first" );　　list.add( "second" );　　JSONArray jsonArray2 = JSONArray.f

linux核心分析--核心中使用的資料結構之雜湊表hlist（三）

前言： 1.基本概念：散列表（Hash　table，也叫雜湊表），是根據關鍵碼值(Key　value)而直接進行訪問的資料結構。也就是說，它通過把關鍵碼值對映到表中一個位置來訪問記錄，以加快查詢的速度。這個對映函式叫做雜湊函式，存放記錄的陣列叫做散列表。 2. 常用的構造雜湊函式的方法

多執行緒訪問共享資料（1）

多執行緒訪問共享資料解決方案：一，什麼是多執行緒執行緒是程式中一個單一的順序控制流程.在單個程式中同時執行多個執行緒完成不同的工作,稱為多執行緒. 所有的執行緒雖然在微觀上是序列執行的，但是在巨集觀上你完全可以認為它們在並行執行二，多執行緒訪問共享資料解決方

hibernate基於annotation（註解）的方式建立資料庫表以及儲存資料到資料庫表中（重要）

在這裡建立專案後要把相關jar包與資料庫相關的jar包引入，並且配置好hibernate.cfg.xml檔案，這個專案採用的資料庫名稱是hibernate_anno.再建立一個實體類User，我們用的是註解的方式，所以不用像上篇文章中建立一個實體類的配置檔案，可以直接在實體類

《常見演算法與資料結構》符號表ST（2）——初等實現分析和有序符號表

符號表（Symbol Table) (2) 本系列文章主要介紹常用的演算法和資料結構的知識，記錄的是《Algorithms I/II》課程的內容，採用的是“演算法（第4版）”這本紅寶書作為學習教材的，語言是java。這本書的名氣我不用多說吧？豆瓣評分9.

BW 建立資料來源（包括表/資料結構/函式）

用到的TCODE: SE37/SE80函式構建器 SE11 ABAP字典（包括資料庫表/檢視/資料型別等） SE16 資料瀏覽器 RSA6 資料來源目錄 RSO2 維護一般資料來源（事務資料/主資料屬性/文字） RSA3 提取器檢驗程式（資料來源測試） Step1:TC

spark使用hbasefilter訪問hbase表資料（封裝）

相關推薦