Hbase Java API簡單實踐（附原始碼解釋）

阿新 • • 發佈：2019-01-27

註釋
- 標註1
- 標註2
- 標註3
- 標註4
- 執行截圖：
參考資源

詳細程式碼及連結

maven依賴：hbase-client，slf4j-api，slf4j-nop（不需要hbase-server包）

resource中加入hdfs-site.xml配置檔案（不需要core-site.xml）

resource中放置log4j.properties檔案(HBase安裝目錄下conf檔案中的log4j.properties)

完整程式碼如下（SomeHbaseAPI類與APITest類）

SomeHbaseAPI.java

import org.apache.hadoop.hbase.*;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.util.Bytes;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

/**
 * @author 王海
 * @version V1.0
 * @package 
 per.wanghai
 * @Description
 * @Date 2017/10/29 23:23
 */
public class SomeHbaseAPI {
    private final Logger logger = LoggerFactory.getLogger(SomeHbaseAPI.class);

    protected void listTable(Admin admin) throws IOException {
        // 獲得HTableDescriptors
        // （所有namespace的表，相當於scan META）
        HTableDescriptor[] tableDescriptor = admin.listTables();
        System.out.println("您的HBase有以下表:" 
);
        for (int i = 0; i < tableDescriptor.length; i++) {
            System.out.println("表" + i + ":" + tableDescriptor[i].getNameAsString());
        }
    }

    /**
     * @param columnFamilies（這是一個變長引數，“Varargs”機制只允許一個變長引數，且必須放在最後）詳見參考2
     * @throws IOException
     * @Description 該方法建立一個table例項
     */
    protected void createTable(Admin admin, TableName tableName, String... columnFamilies) throws IOException {
        try {
            if (admin.tableExists(tableName)) {
                // "{}"是slf4j的佔位符（其一大特色）
                // DEBUG < INFO < WARN < ERROR < FATAL
                logger.warn("表:{}已經存在!", tableName.getNameAsString());
            } else {
                // 標註2：關於HTableDescriptor：
                HTableDescriptor tableDescriptor = new HTableDescriptor(tableName);
                for (String columnFamily : columnFamilies) {
                    tableDescriptor.addFamily(new HColumnDescriptor(columnFamily));
                }
                admin.createTable(tableDescriptor);
                logger.info("表:{}建立成功!", tableName.getNameAsString());
            }
        } finally {
            if (admin != null) {
                admin.close();
            }
        }
    }

    /**
     * @throws IOException
     * @Description 一行一行的插入資料
     * TODO：批量插入可以使用 Table.put(List<Put> list)
     */
    protected void putOneByOne(Connection connection, TableName tableName,
                               byte[] rowKey, String columnFamily, String column, String data) throws IOException {
        Table table = null;
        try {
            // 建立一個table例項
            table = connection.getTable(tableName);
            // HBase中所有的資料最終都被轉化為byte[]
            // (rowKey已經在testCurd方法中轉換為byte[])
            Put p = new Put(rowKey);
            // 檢視原始碼知：put的add方法已經被棄用
            p.addColumn(Bytes.toBytes(columnFamily), Bytes.toBytes(column), Bytes.toBytes(data));
            table.put(p);
            logger.info("表:{}已更新！！！", tableName.getNameAsString());
        } finally {
            if (table != null) {
                table.close();
            }
        }
    }

    /**
     * @param connection
     * @param tableName
     * @param str:一個字串陣列（rowkey,family,qualifier,value.迴圈）
     * @throws IOException
     */
    protected void putList(Connection connection, TableName tableName, String[] str) throws IOException {
        // 每個put操作，我們放入四個資料
        int count = str.length / 4;
        // 我們希望資料量是4的倍數，因為剩下的我們將不會寫入
        int remainder = str.length % 4;
        if (remainder > 0) {
            logger.warn("資料可能並不會像您預期的那樣完全寫入，如有必要，請檢查下您的資料量！");
        }
        Table table = null;
        try {
            // 建立一個table例項
            table = connection.getTable(tableName);
            List<Put> puts = new ArrayList<>();
            for (int i = 0; i < count; i++) {
                Put put = new Put(Bytes.toBytes(str[4 * i]));
                put.addColumn(Bytes.toBytes(str[4 * i + 1]), Bytes.toBytes(str[4 * i + 2]), Bytes.toBytes(str[4 * i + 3]));
                puts.add(put);
            }
            table.put(puts);
            logger.info("表:{}已使用putList方法更新！！！", tableName.getNameAsString());
        } finally {
            if (table != null) {
                table.close();
            }
        }
    }

    /**
     * @throws IOException
     * @Description 掃描表
     * 想獲取部分行的資料，與putList方法類似，用List<Get>即可
     */
    protected void scan(Connection connection, TableName tableName) throws IOException {
        Table table = null;
        try {
            table = connection.getTable(tableName);
            /*
            行的數目很大時，同時在一次請求中傳送大量資料，會佔用大量的系統資源並消耗很長時間，
            所以ResultScanner類把掃描操作轉換為類似的get操作，它將每一行資料封裝成一個Result例項，
            並將所有的Result例項放入一個迭代器中
             */
            ResultScanner rsScan1;
            ResultScanner rsScan2;

            // 這次操作返回表中所有的資料
            Scan scan1 = new Scan();
            rsScan1 = table.getScanner(scan1);
            for (Result r : rsScan1) {
                System.out.println(r);
                // 打印出來的Value是bytes型別
            }
            rsScan1.close();
            // 注：掃描器也使用同樣的租約超時機制，保護其不被失效的客戶單阻塞太久
            // 超時時間配置:hbase.regionserver.lease.period

            // 同樣，也可以addfamily：
            Scan scan2 = new Scan();
            scan2.addFamily(Bytes.toBytes("commonInfo"));
            rsScan2 = table.getScanner(scan2);
            for (Result r : rsScan2) {
                System.out.println(r);
            }
            rsScan2.close();
        } finally {
            if (table != null) {
                table.close();
            }
        }
    }

    /**
     * @throws IOException
     * @Description 根據row key獲取表中的該行資料
     */
    protected void getOneRow(Connection connection, TableName tableName, byte[] rowKey) throws IOException {
        Table table = null;
        try {
            table = connection.getTable(tableName);
            // 這種方法獲取指定rowkey的所有資訊(然後可以使用不同的方法獲取指定資訊)
            // 用rowKey來例項化get物件，
            Get all = new Get(rowKey);
            // Result類不是執行緒安全的
            // 更多的使用方法見標註4
            Result result = table.get(all);

            // 可以使用addColumn指定columnFamily與qualifier
            // 標註3：更多縮小獲取範圍的方法

            /* 這裡使用addFamily獲取指定列族的所有列的資訊（一行）
            Get part = new Get(rowKey);
            part.addFamily(Bytes.toBytes("commonInfo"));
            Result result = table.get(part);
            ...
            ...
            */

            /*通過getValue獲取指定資訊
            不推薦用字串拼接的方式，字串拼接會不斷的建立新的物件，
            而原來的物件就會變為垃圾被GC回收掉，如果拼接得次數多，這樣執行效率會很低底。
            （見下方Cell中使用StringBuffer）
            String city = Bytes.toString(result.getValue(Bytes.toBytes("commonInfo"),Bytes.toBytes("city")));
            String age = Bytes.toString(result.getValue(Bytes.toBytes("concelInfo"),Bytes.toBytes("age")));
            System.out.println("city: " + city + "\t" + "age: " + age);
            */

            // rawCells()返回cell[];注意：Cell介面中的getFamily、getValue等方法已經被廢棄

            // 推薦：使用CellUtil中的一些列方法
            for (Cell cell : result.rawCells()) {
                /* 與上方的String拼接不同，這樣的String拼接不會建立多個String物件
                System.out.println(
                "RowNum : " + "\t" + Bytes.toString(CellUtil.cloneRow(cell))
               + ", Family : " + "\t" + Bytes.toString(CellUtil.cloneFamily(cell))
               + ", Qualifier : " + "\t" + Bytes.toString(CellUtil.cloneQualifier(cell))
               + ", Value : " + "\t" + Bytes.toString(CellUtil.cloneValue(cell))
                );
                */

                // 採用StringBuffer：（因為其是可變的字串物件，所以不會再建立新變數）
                StringBuffer sbuffer = new StringBuffer()
                        .append("RowNum : \t")
                        .append(Bytes.toString(CellUtil.cloneRow(cell)))
                        .append(", Family : \t")
                        .append(Bytes.toString(CellUtil.cloneFamily(cell)))
                        .append(", Qualifier : \t")
                        .append(Bytes.toString(CellUtil.cloneQualifier(cell)))
                        .append(", Value : \t")
                        .append(Bytes.toString(CellUtil.cloneValue(cell)));
                System.out.println(sbuffer);
            }
        } finally {
            if (table != null) {
                table.close();
            }
        }
    }

    /**
     * @throws IOException
     * @Description 刪除表中的資料
     */
    protected void myDeleteTable(Admin admin, TableName tableName) throws IOException {
        try {
            if (admin.tableExists(tableName)) {
                // 必須先disable, 再delete
                myDisableTable(admin, tableName);
                // admin的很多方法在子類HBaseAdmin中實現
                // TODO：沒看出該父類通過何種方式呼叫的子類方法
                admin.deleteTable(tableName);
                logger.info("表:{}已刪除！！！", tableName.getNameAsString());
            } else {
                logger.info("表:{}並不存在！！！", tableName.getNameAsString());
            }
        } finally {
            if (admin != null) {
                admin.close();
            }
        }
    }

    protected void myDisableTable(Admin admin, TableName tableName) throws IOException {
        try {
            // admin的很多方法在子類HBaseAdmin中實現
            if (admin.tableExists(tableName)) {
                admin.disableTable(tableName);
                logger.info("表:{}已禁用！！！", tableName.getNameAsString());
            }
        } finally {
            if (admin != null) {
                admin.close();
            }
        }
    }
}

APITest.java

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.util.Bytes;

import java.io.IOException;

/**
 * @author 王海[https://github.com/AtTops]
 * @version V1.0
 * @package PACKAGE_NAME
 * @Description
 * @Date 2017/10/31 11:43
 */
public class APITest {
    public static void main(String[] args) {
        new APITest().testCrud();
    }

    private void testCrud() {
        SomeHbaseAPI caller = new SomeHbaseAPI();
        /*
         * 標註1：詳解HBaseConfiguration
         */
        // 建立一個configuration物件 —— 告訴客戶端必要的配置資訊
        Configuration config = HBaseConfiguration.create();
        // 建立一個連線到叢集的connection
        Connection connection = null;
        /* Admin是一個介面類，其很多方法在子類HBaseAdmin中實現
         0.99版本開始:HBaseAdmin不再是客戶端API。它被標記為InterfaceAudience.Private，
         表示是一個HBase內部類。
         使用Connection.getAdmin（）獲取Admin的例項，而不是直接構建一個HBaseAdmin。
         可以用來create、drop、list、enabl、disable表；add、drop 表的column families，以及一些其他的管理操作。*/
        try {
            connection = ConnectionFactory.createConnection(config);
            //
            Admin admin = connection.getAdmin();
            // 該方法傳遞一個String型別引數，返回TableName例項
            TableName tableName = TableName.valueOf("myHBaseTable");
            // 表不存在會報：TableNotFoundException

            // 獲取lists of table
            caller.listTable(admin);
            // 建立HBase表
            caller.createTable(admin, tableName, "commonInfo", "concelInfo");
            // rowkey要設計得儘量的短，資料的持久化檔案HFile中是按照KeyValue儲存的，
            // 如果rowkey過長，會極大影響HFile的儲存效率

            byte[] rowkey_bytes = Bytes.toBytes("ROW4");
            /* 一行一行的插入資料,每一次put操作都是一次有效的RPC（
             所以資料量大時不要這樣使用， 而應該使用BufferedMutator來實現批量的非同步寫操作。）
             這裡兩個列族，commonInfo列族兩個“小列”，concelInfo一個“小列”*/
            caller.putOneByOne(connection, tableName, rowkey_bytes, "commonInfo", "city", "Ziyang");
            caller.putOneByOne(connection, tableName, rowkey_bytes, "commonInfo", "password", "000000");
            caller.putOneByOne(connection, tableName, rowkey_bytes, "concelInfo", "age", "100");

            // 刪除表
//            caller.myDeleteTable(admin, tableName);

            // 獲取指定的資料
            caller.getOneRow(connection, tableName, rowkey_bytes);

            // 批量put資料
            String[] str = new String[]{"ROW5", "commonInfo", "city", "Shanghai", "ROW5"
                    , "concelInfo", "age", "35", "ROW6", "concelInfo", "age", "120", "Illegal_Value"};
            caller.putList(connection, tableName, str);

            // 刪除兩行資料
            Delete delete1 = new Delete(Bytes.toBytes("ROW5"));
            Delete delete = new Delete(Bytes.toBytes("ROW6"));
            /*也可以定義刪除的列族：
            其中addCaddColumn是刪除最新版本，addCaddColumns
            是刪除所有版本*/
            Table table = connection.getTable(tableName);
            table.delete(delete1);
            table.delete(delete);

            // scan表
            caller.scan(connection, tableName);

        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            try {
                // 最後記得關閉叢集
                if (connection != null) {
                    connection.close();
                }
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }
}

注：程式碼不用上傳到叢集執行，類似於JDBC，配置檔案中已經有了各種配置資訊，資料通過網路套接字進行傳輸（確定編寫程式碼的網路與叢集網路能通訊，否則可能會報Will not attempt to authenticate using SASL）

註釋

標註1

HBaseConfiguration 繼承了 hadoop.conf.Configuration

該類的HBaseConfiguration()和HBaseConfiguration(Configuration c)
構造方法已經被棄用，建議使用create方法
LOG.warn(“instantiating HBaseConfiguration() is deprecated. Please use HBaseConfiguration.create() to construct a plain Configuration”);

HBaseConfiguration.create()方法首先呼叫hadoop的Configuration()構造conf物件；然後將該conf物件傳遞給addHbaseResources方法，該方法返回最終的“知道”各種配置資訊的conf物件。

從這裡我們可知：resource資料夾只需要放入hbase-default.xml和hbase-site.xml這兩個配置檔案即可,然後將resource資料夾新增到classpath
fjksv
*

標註2

Hbase2.0.0中，把HTableDescriptor標記為@Deprecated，並會在3.0.0版本被移除

HTableDescriptor包含有關HBase表的詳細資訊，例如所有列族的描述符、獲取列族數量、列族名字等等

標註3

要進一步縮小要獲取的範圍，請使用以下方法:

要從特定列族獲取所有列，請為每個列族執行addFamily進行檢索。

要獲取特定列（qualifier），請對要檢索的每個列執行addColumn。

要僅在特定範圍的版本時間戳內檢索列，請執行setTimeRange。

要僅檢索具有特定時間戳的列，請執行setTimestamp。

要限制要返回的每列的版本數，請執行setMaxVersions。

要新增過濾器，請呼叫setFilter。

標註4

Result類（可以直接返回各種Map結構和值）更多的使用方法：

要獲取Result中所有單元格的完整對映，包括多個系列和多個版本，使用getMap()。

要獲取每個 family到其列（qualifiers和values）的對映，僅包括每個列的最新版本，請使用getNoVersionMap（）。

要獲得一個個別 family的限定符到最新值的對映，使用getFamilyMap（byte []）。

要獲取特定family和qualifiers的最新值，使用getValue（byte []，byte []）。返回的結果是Cell物件陣列，每個物件包含row, family, qualifier, timestamp, 和value.

可以通過方法listCells（）訪問底層的Cell物件。這將從內部Cell []建立一個列表。

執行截圖：

建立表，插入三行資料：
這裡寫圖片描述

查看錶（驗證）：

list：

通過getValue獲取指定資訊 & rawCells() 獲取指定行所有資訊

這裡寫圖片描述

刪除與禁用表：

Scan全表 & Scan特定列

putList方法一次put多條資料：

報錯及解決過程

1.Failed to load class “org.slf4j.impl.StaticLoggerBinder
在類路徑上放置一個（只有一個）slf4j-nop.jar，slf4j-simple.jar，slf4j-log4j12.jar，slf4j-jdk14.jar或logback-classic.jar可以解決問題(直接在maven中加入)
2.WARN No appenders could be found for logger (org.apache.hadoop.security.Groups).
沒有配置檔案log4j.xml或者log4j.properties，亦或者路徑不對
3.Will not attempt to authenticate using SASL
網路ping不通的原因
4.警告：java.io.IOException: No FileSystem for scheme: hdfs
試過新增core-site.xml和hdfs-site.xml，無效（但是並不影響使用）

參考資源

Hbase Java API簡單實踐（附原始碼解釋）

註釋標註1 標註2 標註3 標註4 執行截圖：參考資源詳細程式碼及連結 maven依賴：hbase-client，slf4j-api，slf4j-nop（不需要hbase-server包） resource中加入

大檔案拆分方案的java實踐（附原始碼）

目錄正文回到頂部 1. 引子大檔案拆分問題涉及到io處理、併發程式設計、生產者/消費者模式的理解，是一個很好的綜合應用場景，為此，花點時間做一些實踐，對相關的知識做一次梳理和整合，總結一些共性的處理方案和思路，以供後續工作中借鑑。本文將嘗試由淺入深的

大文件拆分問題的java實踐（附源碼）

解決方案初始化問題申請 border output 思想行數據時延引子大文件拆分問題涉及到io處理、並發編程、生產者/消費者模式的理解，是一個很好的綜合應用場景，為此，花點時間做一些實踐，對相關的知識做一次梳理和集成，總結一些共性的處理方案和思路，以供後續工

hbase java api樣例（版本1.3.1，新API）

quorum desc color -i arraylist byte logs sin fig 驗證了如下幾種java api的使用方法。 1.創建表 2.創建表（預分區） 3.單條插入 4.批量插入 5.批量插入（寫緩存） 6.單條get 7.批量get 8.簡單sca

JAVA小白啟蒙篇：第一個SSM框架搭建示例（附原始碼下載）

HelloWorld工程原始碼下載 http://download.csdn.net/detail/baidu_31657889/9682606 有償連結(0.1rmb)：https://www.fageka.com/Home/Index/sell?id=ctLT7f4

NodeJS中的事件（EventEmitter） API詳解（附原始碼）

EventEmitter 簡介 EventEmitter 是 NodeJS 的核心模組 events 中的類，用於對 NodeJS 中的事件進行統一管理，用 events 特定的 API 對事件進行新增、觸發和移除等等，核心方法的模式類似於釋出訂閱。實現 EventEm

技術分享：Java效能優化實踐（附效能優化專題思維導圖）

Java 應用效能優化是一個老生常談的話題，筆者根據個人經驗，將 Java 效能優化分為 4 個層級：應用層、資料庫層、框架層、JVM 層。通過介紹 Java 效能診斷工具和思路，給出搜狗商業平臺的效能優化案例以供參考。 Java 應用效能優化是一個老生常談的話題，典型的效能問題如頁面響應慢、介

java爬蟲爬取網際網路上的各大影視網站---360影視（附原始碼下載）

關於爬蟲：全球資訊網上有著無數的網頁，包含著海量的資訊，無孔不入、森羅永珍。但很多時候，無論出於資料分析或產品需求，我們需要從某些網站，提取出我們感興趣、有價值的內容，但是縱然是進化到21世紀的人類，依然只有兩隻手，一雙眼，不可能去每一個網頁去點去看，然後再複製貼上。所以

Java五子棋的實現（附原始碼）

學習目的：熟悉java中swing類與java基礎知識的鞏固.(文末有原始碼檔案和打包的jar檔案) 效果圖：思路：**1.首先構建一個Frame框架，來設定選單選項與按鈕點選事件。 MyFrame.java檔案程式碼如下 package Star

HBase java API 使用例項（一）——增加、修改、刪除

package com.xueyoucto.hbasett; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.*; import org.apache.hadoop.hbase.client.*; imp

運維俠客行杭州站沙龍回顧 | 雲時代下的運維管理實踐（附乾貨下載）

我們處在一個鉅變的時代，在雲端計算、大資料和物聯網等新技術、新理念不斷更新的大背景下，企業同時面臨著數字化和“網際網路+”轉型的雙重挑戰，企業對於“穩態IT”和“敏態IT”都提出了強烈的需求，如何推進雙態環境下的技術演進變成全行業共同面臨的難題。在這樣一個“時空交錯”中，優雲軟體推出了一個名為

Spring boot基於redis實現附近的人（附原始碼下載）

核心原始碼 public class NearbyPO { @NotNull(message = "id值不能為空") private Integer id; @NotBlank(message

js 圖片預覽外掛（附原始碼檔案）

使用 <body> <script src="http://www.mufengcandi.com/js/jquery-1.11.0.js" type="text/javascript"></script> <script src="./VieViewe

[html之rem]手機端頁面自適應解決方案—rem佈局進階版（附原始碼示例）

手機端頁面自適應解決方案—rem佈局進階版（附原始碼示例）一年前筆者寫了一篇《手機端頁面自適應解決方案—rem佈局》，意外受到很多朋友的關注和喜歡。但隨著時間的推移，該方案已然過時，故為大家介紹一個目前我極力推薦使用的，更加完美的方案——rem佈局（進階版）另

手機端頁面自適應解決方案—rem佈局進階版（附原始碼示例）

但隨著時間的推移，該方案已然過時，故為大家介紹一個目前我極力推薦使用的，更加完美的方案——rem佈局（進階版）地址：http://www.jianshu.com/p/985d26b40199點選開啟連結該方案使用相當簡單，把下面這段已壓縮過的原生JS（原始碼

android 仿新聞閱讀器選單彈出效果（附原始碼DEMO）

開發中碰到問題之後實現的，覺得可能有的開發者用的到或則希望獨立成一個小功能DEMO，所以就放出來這麼一個DEMO。原本覺得是最後完成後髮網站客戶端的，可是這樣體現不出一個功能一個功能的分析實現效果，而且週期時間長，所以就完成一部分，發一部分，敬請諒解。下面的選單彈出

SparkRDD常用運算元實踐（附執行效果圖）

目錄 SparkRDD運算元分為兩類：Transformation與Action. Transformation：即延遲載入資料，Transformation會記錄元資料資訊，當計算任務觸發Action時，才會真正開始計算。 Action：即立即

SpringBoot 多模組專案實踐（附打包方法）

作者：yizhiwazi 連結：https://www.jianshu.com/p/59ceea4f029d 本專案傳送門： https://github.com/yizhiwazi/springboot-socks/tree/master/springboot-integra

Android呼叫JNI的簡單例項（附詳細步驟）

最近想呼叫FFmepg庫來做編解碼的東西，首先就得學會使用JNI（JAVA Native Interface）呼叫。下面做個簡單的JNI呼叫例項，中間遇到的問題及解決過程省略一萬字，查詢到的資料也都

SwitchButton 開關按鈕的多種實現方式（附原始碼DEMO）

剛開始接觸開關樣式的按鈕是在IOS系統上面，它的切換以及滑動十分帥氣,深入人心。所謂的開關按鈕，就是隻有2個狀態：on和off，下圖就是系統IOS 7上開關按鈕效果。起初我在android上我只會使用CheckBox去滿足對應的功能。後來，檢視開發文件發現，andro

Hbase Java API簡單實踐（附原始碼解釋）

詳細程式碼及連結

註釋

標註1

標註2

標註3

標註4

執行截圖：

報錯及解決過程

參考資源

相關推薦