HBase入門詳解（三）.md

阿新 • • 發佈：2018-12-11

環境：centos7+hadoop3.0.3+hbase2.0.1+jdk8

HBase的MapReduce操作

注意事項： * Map繼承TableMapper * Reduce繼承TableReducer * 最後Reduce輸出的value的型別是Mutation * 通過TableMapReduceUtil來設定相關資訊

例項：統計行鍵並新增到指定列族

public class RowCountMR extends Configured implements Tool {
    public static void main(String[] args) throws Exception {
        ToolRunner.run(new RowCountMR(), args);
    }

    @Override
    public int run(String[] args) throws Exception {
        // 設定配置資訊
        Configuration conf = getConf();
        conf.set("hbase.zookeeper.quorum","hadoop5:2181");
        conf.set("hbase.master.dns.interface", "hadoop5");
        // 建立job物件
        Job job = Job.getInstance(conf,"xj_count");
        // 建立掃描物件
        Scan scan = new Scan();
        // 建立Map任務，傳入表名、scan、Mapper類、map輸出key型別、map輸出value型別、job
        TableMapReduceUtil.initTableMapperJob(conf.get("inpath"), scan, RCMapper.class, Text.class, IntWritable.class, job);
        // 建立Reduce物件，傳入表名、Reducer類、job
        TableMapReduceUtil.initTableReducerJob(conf.get("outpath"), RCReducer.class, job);
        // 提交任務
        job.waitForCompletion(true);
        return 0;
    }

    // 建立Map類繼承TableMapper
    public static class RCMapper extends TableMapper<Text,IntWritable>{
        @Override
        protected void map(ImmutableBytesWritable key, Result value, Context context) throws IOException, InterruptedException {
            context.write(new Text("t"),new IntWritable(1));
        }
    }

    // 建立Reducer類繼承TableReducer
    public static class RCReducer extends TableReducer<Text, IntWritable, Text> {
        @Override
        protected void reduce(Text key, Iterable<IntWritable> value, Context context) throws IOException, InterruptedException {
            long l = 0;
            for (IntWritable v : value) {
                l+=v.get();
            }

            // 建立put物件並指定行健
            Put put = new Put(Bytes.toBytes("xj"));
            // 新增資料資訊，列族，列名，值
            put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("count"), Bytes.toBytes(""+l));
            // 輸出的value是Mutation型別的
            context.write(key, put);
        }
    }
}

HBase的使用者許可權控制

簡介： R - 代表讀取許可權 W - 代表寫許可權 X - 代表執行許可權 C - 代表建立許可權 A - 代表管理許可權

配置許可權修改配置檔案hbase-site.xml 新增內容

<property>
    <name>hbase.superuser</name>
    <value>hbase</value>
</property>
<property>
    <name>hbase.coprocessor.region.classes</name>
<value>org.apache.hadoop.hbase.security.access.AccessController</value> 
</property>
  <property>
    <name>hbase.coprocessor.master.classes</name>
    <value>org.apache.hadoop.hbase.security.access.AccessController</value>
  </property>
  <property>
    <name>hbase.rpc.engine</name>
    <value>org.apache.hadoop.hbase.ipc.SecureRpcEngine</value>
  </property>
<property>
    <name>hbase.security.authorization</name>
    <value>true</value>
  </property>

授予許可權給使用者’HBaseTest’授予所有許可權 grant 'HBasetest','RWXCA'
撤銷許可權撤銷使用者’HBaseTest’所有許可權 revoke 'HBaseTest'
列出指定表的許可權列出表’student’的所有許可權 user_permission 'student'

列族的高階配置

可配置的資料塊大小 HFile資料塊大小可以放在列族層次設定，本質和hdfs資料塊不是一回事，是在hbase內部，把Hfile劃分成了塊，預設大小是64k。每個資料塊都會將索引值放入hfile中，塊越小那麼資料小，hfile中索引值越多佔用容量越大，帶來的效果是隨機訪問效能更好。如果每個資料塊體積變大，那麼hfile中索引值佔用容量越小，能讓更多的資料載入進入記憶體，從而提高順序訪問效能。 create ‘mytable’,{NAME=>‘cf1’,BLOCKSIZE=>‘65536’}
資料塊快取把資料放進讀快取裡並不一定能提高效率，比如，一張表或者表中的列族，只是偶爾進行get和scan，那麼有無此快取功能都無所謂，並不會提高效率。此外，再比如，如果一張表或者表中的列族，高頻率的進行scan操作，那麼會造成快取濫用的情況，很有可能把真正能提高效能的資料排擠出快取。為了避免上述情況發生，可以關閉快取功能，快取功能預設是開啟的。 create ‘mytable’,{NAME=>‘cf1’,BLOCKCACHE=>‘false’}
激進快取可以選擇一些列族，賦予他們在資料塊快取中有更高的優先順序，從而可以提高他們被快取的概率，以及減小被從快取中刪除的概率。要注意此屬性，除了讓此列族比其他列族更激進外無其他特殊功能。預設值為false create ‘mytable’,{NAME=>‘cf1’,IN_MEMORY=>‘true’}
布隆過濾器布隆過濾器允許對儲存在每個資料塊的資料做一個反向測試，當某行被請求時，先檢查布隆過濾器，看看該行在不在這個資料塊中，返回結果不在或者不確定在不在，那麼可以減少訪問block的次數，從而提高隨機訪問的效率布隆過濾器會佔用額外的記憶體空間，並且隨著表資料的增長而增長，當空間不是問題時，在資料量較大的情況下，布隆過濾器的效能尤為突顯。 create ‘mytable’,{NAME=>‘cf1’,BLOOMFILTER=>‘ROWCOL’} ROW只針對rowkey進行過濾，get提高效率，scan無影響 ROWCOL指既針對rowkey也針對qualifier進行過濾，get提高效率， scan看情況，如果scan有針對列名在操作則提高效率，如果沒有則無影響
生存時間早於TTL值所指定時間的資料，會在下一次大合併時會被刪除。在同一個單元上的多個時間版本的資料也生效。可以禁用，也可以設定值為INT.MAX_VALUE 即永遠啟用,單位:秒。 create ‘mytable’,{NAME=>‘cf1’,TTL=>‘18000’}
壓縮 HFile可以被壓縮並存放在HDFS上，這有助於節省硬碟空間，但是讀寫壓縮資料會擡高CPU的利用率。推薦啟用壓縮，除非能確定壓縮不會帶來益處，或者CPU利用率有限制。 Hbase有多種壓縮編碼，LZO,Snappy,GZIP前兩者是流行的兩種，但是LZO受版權影響需要單獨安裝，故常用Snappy。注意，資料只有在硬碟上是壓縮的，在記憶體中或者網路傳輸時是沒有壓縮的。 create ‘mytable’,{NAME=>‘cf1’,COMPRESSION=>‘SNAPPY’}

協處理器Coprocessor

簡介： HBase變成資料處理工具處理資料的壓力放在伺服器端給HBase新增新的行為

Observer Observer類似於傳統資料庫中的觸發器，當發生某些事件的時候這類協處理器會被Server端呼叫。Observer Coprocessor 就是一些散佈在HBaseServer端程式碼中的hook鉤子，在固定的事件發生時被呼叫。比如：put操作之前有鉤子函式prePut，該函式在put操作執行前會被RegionServer呼叫；在put操作之後則有postPut鉤子函式
EndPoint Endpoint協處理器類似傳統資料庫中的儲存過程，客戶端可以呼叫這些 Endpoint協處理器執行一段Server端程式碼，並將Server端程式碼的結果返回給客戶端進一步處理，最常見的用法就是進行聚合操作。

HBase的熱點效應

產生原因
- row key單調遞增
- 表採用預設分割槽檢索HBase的記錄首先要通過row key來定位資料行。當大量的client訪問HBase叢集的一個或少數幾個節點，造成少數Region Server的讀寫請求過多、負載過大，而其他Region S erver負載卻很小，就造成了“熱點”現象
解決方案
- row key不採用單調遞增演算法，可以採用隨機演算法生成
- 考慮資料分佈情況，合理安排row key範圍進行預分割槽

HBase入門詳解（三）.md

環境：centos7+hadoop3.0.3+hbase2.0.1+jdk8 HBase的MapReduce操作注意事項： * Map繼承TableMapper * Reduce繼承TableReducer * 最後Reduce輸出的value的型別是Mut

SpringMVC詳解（三）------基於註解的入門實例

frame hello text 1.0 har ret doc 4.0 進行　　前兩篇博客我們講解了基於XML 的入門實例，以及SpringMVC運行的詳細流程。但是我們發現基於 XML 的配置還是比較麻煩的，而且，每個 Handler 類只能有一個方法，在實際開發中肯

mybatis 詳解（三）------入門例項（基於註解）

目錄 1、建立MySQL資料庫：mybatisDemo和表：user 2、建立一個Java工程，並匯入相應的jar包，具體目錄如下 3、在 MyBatisTest 工程中新增資料庫配置檔案 mybatis-configuration.xml 4、定義表所對應的實體

Java 多線程詳解（三）------線程的同步

alt 來看監聽介紹創建進程 java 多線程 system ima 關鍵字 Java 多線程詳解（一）------概念的引入：http://www.cnblogs.com/ysocean/p/6882988.html Java 多線程詳解（二）------如何創建進

elastic-job詳解（三）：Job的手動觸發功能

方法 idt image blog per tle cnblogs ack display elastic-job的任務都是使用quartz來觸發的，quartz表達式一般都是定期執行。但有時候一些周期較長的任務，比如一天一次，幾小時一次的任務，我們需要等待很久才能觸發一次

10.5-全棧Java筆記:常見流詳解（三）

java上節我們講到「Java中常用流：緩沖流」，本節我們學習數據流和對象流~ 數據流數據流將“基本數據類型變量”作為數據源，從而允許程序以與機器無關方式從底層輸入輸出流中操作java基本數據類型。 DataInputStream和DataOutputStream提供了可以存取與機器無關的所有Java基礎類

Maven詳解（三）------ Maven工程目錄介紹

詳細講解 com tid pom.xml imp 工程目錄在哪裏根據 cat 　　上一章我們配置並安裝好了 Maven，那麽這一章我們介紹如何用eclipse創建一個 Maven 工程，然後介紹 Maven 工程的目錄結構。 1、eclipse 創建 Maven 工程

PHP基礎入門詳解（一）【世界上最好用的編程語言】

轉換成 c語言 127.0.0.1 mac const 讀取成對後臺 isset 簡介 --------- 　PHP（超文本預處器）是一種通用開源腳本語言。語法吸收了C語言、Java和Perl的特點，利於學習，使用廣泛，主要適用於Web開發領域。PHP 獨

C++: I/O流詳解（三）——串流

name namespace 轉換 pac end 成員 col logs nbsp 一、串流串流類是 ios 中的派生類 C++的串流對象可以連接string對象或字符串串流提取數據時對字符串按變量類型解釋；插入數據時把類型數據轉換成字符串串流I/O具有格式化功能

Zookeeper詳解（三）：Zookeeper中的Znode特性

zookeeper數據模型 znode 節點數據數據模型ZK擁有一個命名空間就像一個精簡的文件系統，不同的是它的命名空間中的每個節點擁有它自己或者它下面子節點相關聯的數據。ZK中必須使用絕對路徑也就是使用“/”開頭。Znode：ZK目錄樹中每個節點對應一個Znode。每個Znode維護這一個屬性

Splay詳解（三）

.html rotate cqoi2014 org tps 線段樹 .cn html highlight 前言上一節我們學習了splay所能解決的基本問題，這節我來講一下splay怎麽搞區間問題實現 splay搞區間問題非常簡單，比如我們要在區間$l,r$上搞事情

編碼原理詳解（三）---量化

進一步 mark 新的 dct 說明一點註意 cto water 本節開始介紹編碼過程中的量化環節。還記得上一篇的變換嗎？變換之後得到了一個新的矩陣，一個經過從空域變換到頻域的一個矩陣。那麽，量化呢，就是基於變換後得到的矩陣，再做進一步的處理，本質也就是進一步的壓縮。

大數據入門第八天——MapReduce詳解（三）

大數 blog eve 分享圖片 shuf open src hid span 1/mr的combiner 2/mr的排序 3/mr的shuffle 4/mr與yarn 5/mr運行模式 6/mr實現join 7/mr全局圖

常見圖片格式詳解（三）---JPEG

JPEG 圖片格式編碼解碼壓縮 JPEG簡介 JPEG是一種比較成熟的有損的圖像壓縮格式，經過JPEG壓縮，圖像質量會有所損失，但是，人眼不容易分辨出來這種差別。jpeg圖像在質量和存儲空間得到了一個相對平衡的狀態。不過jpeg文件在組織方式上略顯復雜，詳細請向下看。 JPEG文

JavaScript的事件、DOM模型、事件流模型以及內置對象詳解（三）

dde function n) 事件冒泡字符 nds rep == 防止 JS中的事件 JS中的事件分類　　1.鼠標事件：　　　　click/dbclick/mouseover/mouseout 　　2.HTML事件：　　　　onload/onunload

Redis詳解（三）

redis codis twemproxy redis集群 redis-trib.rb 一、Redis集群介紹 Clustering:redis 3.0之後進入生產環境分布式數據庫，通過分片機制來進行數據分布，clustering 內的每個節點，僅有數據庫的一部分數據;去中心化的集群：re

CentOS 7.4 Tengine安裝配置詳解（三）

location、echo、fancy九、根據HTTP響應狀態碼自定義錯誤頁：1、未配置前訪問一個不存在的頁面：http://192.168.1.222/abc/def.html，按F12後刷新頁面2、在server{}配置段中新增如下location：server {listen 80;server_nam

Keepalived詳解（三）

集群 scrip 網絡異常可用 size ont 監控 spa 就是 Keepalived基礎功能應用實例： 1.Keepalived基礎HA功能演示：在默認情況下，Keepalived可以實現對系統死機、網絡異常及Keepalived本身進

HAProxy詳解（三）

客戶端 apr centos watermark ges -o text acl 方式一.基於虛擬主機的HAProxy負載均衡系統配置實例 1.通過HAProxy的ACL規則配置虛擬主機：下面將通過HAProxy的ACL功能配置一套基於虛擬主

HAProxy詳解（三）：基於虛擬主機的HAProxy負載均衡系統配置實例【轉】

ise onf sysconf proxy配置 ffffff 規則設置 library 版本信息論壇一.基於虛擬主機的HAProxy負載均衡系統配置實例 1.通過HAProxy的ACL規則配置虛擬主機：下面將通過HAProxy的AC

HBase入門詳解（三）.md

HBase的MapReduce操作

HBase的使用者許可權控制

列族的高階配置

協處理器Coprocessor

HBase的熱點效應

相關推薦