大資料之hbase（四） --- rowkey設計原則模擬通話日誌，BloomFilter，phonix環境部署，hive-hbase整合

阿新 • • 發佈：2018-12-10

一、rowkey設計 -- 模擬通話日誌
--------------------------------------------------
    1.建表
        $hbase> create 'ns1:calllogs' , 'f1'

    2.編寫程式
        a.編寫主叫日誌存放類

import org.apache.hadoop.conf.Configuration;
           import org.apache.hadoop.hbase.HBaseConfiguration;
           import org.apache.hadoop.hbase.TableName;
           import org.apache.hadoop.hbase.client.Connection;
           import org.apache.hadoop.hbase.client.ConnectionFactory;
           import org.apache.hadoop.hbase.client.Put;
           import org.apache.hadoop.hbase.client.Table;
           import org.apache.hadoop.hbase.util.Bytes;
           import org.junit.Before;
           import org.junit.Test;

           import java.io.IOException;
           import java.text.DecimalFormat;
           import java.text.SimpleDateFormat;
           import java.util.Date;

           /**
            * 測試通話日誌
            */
           public class TsCallLogs {

               public Connection conn;
               public Table tb;

               @Before
               public void getConn() throws Exception {
                   //獲取配置檔案
                   Configuration conf = HBaseConfiguration.create();
                   //工廠類建立連線
                   conn = ConnectionFactory.createConnection(conf);
                   //get table
                   TableName tbName = TableName.valueOf("ns1:calllogs");
                   tb = conn.getTable(tbName);
               }


               /**
                * rowkey的設計：常用的主要指標，全部編寫進來，而且要保證定長
                * 區域號[0-99] , 1_id[主號碼] , time , 標識[0/1  主叫/背叫] , 2_id[從屬號碼] , 時長
                * 區域號[0-99] = (1_id + time[yyyyMM]).hash()  %   100[區域數]
                * @throws Exception
                */
               @Test
               public void tsPutLog() throws Exception {

                   String callerId = "13777777777";            //1_id 主叫
                   String calledId = "13888888888";            //2_id 被叫
                   SimpleDateFormat sdf = new SimpleDateFormat();
                   sdf.applyPattern("yyyyMMDDHHmmss");
                   String calledTime = sdf.format(new Date()); //通話時間
                   int isCaller = 0;                           //主叫
                   int duration = 100;                         //通話時長

                   //為了保證定長duration需要被格式化
                   DecimalFormat df1 = new DecimalFormat();
                   df1.applyPattern("00000");
                   String durStr = df1.format(duration);

                   //獲取區域號[0-99]：假設一共有100個區域伺服器[100臺主機],設計hash值，將號碼打散
                   int hash = (callerId + calledTime.substring(0,6)).hashCode();
                   hash =  (hash & Integer.MAX_VALUE) % 100;  //保證hash的非負

                   DecimalFormat df = new DecimalFormat();
                   df.applyPattern("00");
                   String hashStr = df.format(hash);

                   //拼接rowkey ==> 區域號[0-99] , 1_id[主號碼] , time , 標識[0/1  主叫/背叫] , 2_id[從屬號碼] , 時長
                   String rowKey = hashStr + "," + callerId + "," +calledTime + "," + isCaller + "," + calledId + "," + durStr;

                   //開始put資料
                   Put put = new Put(Bytes.toBytes(rowKey));
                   //add put column cile
                   put.addColumn(Bytes.toBytes("f1"), Bytes.toBytes("callerPos"), Bytes.toBytes("河北"));
                   put.addColumn(Bytes.toBytes("f1"), Bytes.toBytes("calledPos"), Bytes.toBytes("河南"));
                   tb.put(put);
                   System.out.println("put over");
               }
           }


        b.編寫被叫日誌存放類[觸發器類] -- 當主叫被觸發，就往被叫裡面新增記錄

 package ts.calllogs;

            import javafx.scene.control.Tab;
            import org.apache.hadoop.hbase.TableName;
            import org.apache.hadoop.hbase.client.Durability;
            import org.apache.hadoop.hbase.client.Put;
            import org.apache.hadoop.hbase.client.Table;
            import org.apache.hadoop.hbase.coprocessor.BaseRegionObserver;
            import org.apache.hadoop.hbase.coprocessor.ObserverContext;
            import org.apache.hadoop.hbase.coprocessor.RegionCoprocessorEnvironment;
            import org.apache.hadoop.hbase.regionserver.wal.WALEdit;
            import org.apache.hadoop.hbase.util.Bytes;

            import java.io.IOException;

            /**
             * 被叫日誌處理類
             * 當主叫被觸發，就往被叫裡面新增記錄
             */
            public class TsCalledLogsRegionObserver extends BaseRegionObserver {

                @Override
                public void postPut(ObserverContext<RegionCoprocessorEnvironment> e, Put put, WALEdit edit, Durability durability) throws IOException {
                    super.postPut(e, put, edit, durability);

                    TableName tName = TableName.valueOf("ns1:calllogs");

                    TableName tName1 = e.getEnvironment().getRegion().getRegionInfo().getTable();

                    if (tName.equals(tName1)) {
                        String rowKey = Bytes.toString(put.getRow());
                        String [] strs = rowKey.split(",");
                        if(strs[3].equals("1"))
                        {
                            return;
                        }
                        //99,13777777777,201809259220228,1,13888888888,00100
                        String newKey = Util.getHash(strs[4],strs[2]) + "," +strs[4] + "," + strs[2] + ",1," + "," +strs[1] + "," + strs[5];
                        //開始put資料
                        Put p = new Put(Bytes.toBytes(newKey));
                        p.addColumn(Bytes.toBytes("f1"), Bytes.toBytes("ccc"),Bytes.toBytes("nothing"));
                        Table tb = e.getEnvironment().getTable(tName);
                        tb.put(p);
                        System.out.println("put over");
                    }
                }
            }


        c.編寫列印日誌類 -- 查詢指定號碼指定日期的通話記錄

 package ts.calllogs;

            import org.apache.hadoop.conf.Configuration;
            import org.apache.hadoop.hbase.HBaseConfiguration;
            import org.apache.hadoop.hbase.TableName;
            import org.apache.hadoop.hbase.client.*;
            import org.apache.hadoop.hbase.util.Bytes;
            import org.junit.Before;
            import org.junit.Test;

            import java.io.IOException;
            import java.text.SimpleDateFormat;
            import java.util.Date;
            import java.util.NavigableMap;
            import java.util.Set;

            /**
             * 列印通話記錄
             */
            public class PrintLogs {

                public Connection conn;
                public Table tb;

                @Before
                public void getConn() throws Exception {
                    //獲取配置檔案
                    Configuration conf = HBaseConfiguration.create();
                    //工廠類建立連線
                    conn = ConnectionFactory.createConnection(conf);
                    //get table
                    TableName tbName = TableName.valueOf("ns1:calllogs");
                    tb = conn.getTable(tbName);
                }

                @Test
                public void printlogs() throws Exception {
                    Scan scan = new Scan();
                    String callerId = "13888888888";
                    String calledTime = "201809";               //通話時間
                    String hash = Util.getHash(callerId, calledTime);
                    String startKey = hash + "," + callerId + "," + calledTime;
                    String endKey = hash + "," + callerId + "," + "201810";
                    scan.setStartRow(Bytes.toBytes(startKey));
                    scan.setStopRow(Bytes.toBytes(endKey));
                    ResultScanner scanner = tb.getScanner(scan);
                    Result result = null;
                    while((result =  scanner.next()) != null) {
                        System.out.println(Bytes.toString(result.getRow()));
                    }
                }
            }



    3.打包部署
        a.註冊協處理器,並分發到所有hbase節點
            [hbase-site.xml]
            <property>
                <name>hbase.coprocessor.region.classes</name>
                <value>ts.calllogs.TsCalledLogsRegionObserver</value>
            </property>

        b.將打好的jar包分發到所有節點的/hbase/lib目錄下

    4.執行插入測試


二、BloomFilter 布隆過濾器
-----------------------------------------------------------------
    1.在建立表的時候可以指定布隆過濾器，共有三種模式：NONE[預設]，ROW[rowkey],ROWCOL[row and column]

    2.當用戶需要查詢特定的rowkey時，伺服器需要載入每一個塊來檢查是否包含要檢索的key，這就產生了極大的I/O資源的浪費

    3.可以使用布隆過濾器來避免這種io的浪費。

    4.原理就是：布隆過濾器可以快速準確的檢測出，一個storefile中包不包含指定的rowkey.布隆過濾器會返回兩種檢索結果
        -- NO--不包含，明確指出，塊中沒有，準確率100%。
        -- MayBe-- 包含。塊中可能有，準確度99%

    5.API演示

import org.apache.hadoop.conf.Configuration;
        import org.apache.hadoop.hbase.HBaseConfiguration;
        import org.apache.hadoop.hbase.HColumnDescriptor;
        import org.apache.hadoop.hbase.HTableDescriptor;
        import org.apache.hadoop.hbase.TableName;
        import org.apache.hadoop.hbase.client.Admin;
        import org.apache.hadoop.hbase.client.Connection;
        import org.apache.hadoop.hbase.client.ConnectionFactory;
        import org.apache.hadoop.hbase.client.Table;
        import org.apache.hadoop.hbase.regionserver.BloomType;
        import org.junit.Before;
        import org.junit.Test;

        import java.io.IOException;

        /**
         * 測試布隆過濾器
         */
        public class TsBloomFilter {

            public Table tb;
            public Connection conn;

            @Before
            public void getConn() throws Exception {
                //獲取配置檔案
                Configuration conf = HBaseConfiguration.create();
                //工廠類建立連線
                conn = ConnectionFactory.createConnection(conf);
                //get table
                TableName tbName = TableName.valueOf("ns1:bloom");
                tb = conn.getTable(tbName);
            }


            @Test
            public void tsBloom() throws Exception {

                Admin admin = conn.getAdmin();
                TableName tableName = TableName.valueOf("ns1:bloom");
                HTableDescriptor desc = new HTableDescriptor(tableName);
                HColumnDescriptor hclo = new HColumnDescriptor("f1");
                hclo.setBloomFilterType(BloomType.ROW);
                desc.addFamily(hclo);
                admin.createTable(desc);
                System.out.println("over");
            }

        }



三、phonix環境部署
-------------------------------------------
    1.安裝phonix
        a.下載apache-phoenix-4.10.0-HBase-1.2-bin.tar.gz
        b.tar開
        c.複製xxx-server.jar 到伺服器端 hbase/lib下的目錄，並且分發
        d.重啟hbase
        e.使用phonix
            $> phonix/bin/.sqlline.py s100 //注意：連線的是zk伺服器
            $phonix> !tables                 //顯示錶格
            $phonix> !help             //檢視幫助
            $phonix> !sql create table test (id varchar(20) primary key , name varchar(20))     //建立表
            $phonix> !describe  test        //查看錶結構
            $phonix> !drop  test            //刪除表
            $phonix> select * from test;    //全表掃描


    2.SQLClient安裝[介面操作sql]
        a.下載squirrel-sql-3.7.1-standard.jar，該檔案是安裝檔案，執行的安裝程式。
        b.$>jar -jar squirrel-sql-3.7.1-standard.jar
          $>下一步...
        c.複製phoenix-4.10.0-HBase-1.2-client.jar到SQuerrel安裝目錄的lib下(c:\myprograms\squirrel)。
        d.啟動SQuirrel(GUI)，定位安裝目錄->執行squirrel-sql.bat
        f.開啟GUI介面
        g.在左側的邊欄選中"Drivers"選項卡，
            點選 "+" ->
            URL             : jdbc:phoenix:192.168.43.131
            Driverclass       : org.apache.phoenix.jdbc.PhoenixDriver
            jdbc:phoenix: s100
        h.在Aliases下建立使用者，指定好連線的資料庫


四、使用phonix和SQLClient
-------------------------------------------------------
    //建表
    $jdbc:phoenix> create table IF NOT EXISTS test.Person (IDCardNum INTEGER not null primary key, Name varchar(20),Age INTEGER);

    //插入資料
    $jdbc:phoenix> UPSERT INTO test.PERSON(IDCardNum , Name,Age) VALUES (1,'tom',12);

    //刪除資料
    $jdbc:phoenix> delete from test.person where idcardnum = 1 ;

    //更新資料
    $jdbc:phoenix> upsert into test.PERSON(IDCardNum , Name,Age) VALUES (1,'tom',12);


五、hive-hbase整合：將hbase的表影射到hive上，使用hive的查詢語句。
-----------------------------------------------------------------------
    1.在hive下建立hbase的表
        $hive> CREATE TABLE t11(key string, name string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
        WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf:name")
        TBLPROPERTIES("hbase.table.name" = "ns1:t11");

    2.在hive下操作hbase的表
        $hive> select count(*) from t11 ;

大資料之hbase（四） --- rowkey設計原則模擬通話日誌，BloomFilter，phonix環境部署，hive-hbase整合

一、rowkey設計 -- 模擬通話日誌 -------------------------------------------------- 1.建表 $hbase> create 'ns1:calllogs' , 'f1' 2.編寫

大資料之Spark（四）--- Dependency依賴，啟動模式，shuffle，RDD持久化，變數傳遞，共享變數，分散式計算PI的值

一、Dependency:依賴:RDD分割槽之間的依存關係 --------------------------------------------------------- 1.NarrowDependency: 子RDD的每個分割槽依賴於父RDD的少量分割槽。 |

大資料之scala（四） --- 模式匹配，變數宣告模式，樣例類，偏函式，泛型，型變，逆變，隱式轉換，隱式引數

一、模式匹配:當滿足case條件，就終止 ---------------------------------------------------------- 1.更好的switch var x = '9'; x match{ case

大資料之Spark（八）--- Spark閉包處理，部署模式和叢集模式，SparkOnYarn模式，高可用，Spark整合Hive訪問hbase類載入等異常解決，使用spark下的thriftserv

一、Spark閉包處理 ------------------------------------------------------------ RDD,resilient distributed dataset,彈性(容錯)分散式資料集。分割槽列表,function,dep Op

大資料之Spark（五）--- Spark的SQL模組，Spark的JDBC實現，SparkSQL整合MySQL，SparkSQL整合Hive和Beeline

一、Spqrk的SQL模組 ---------------------------------------------------------- 1.該模組能在Spack上執行Sql語句 2.可以處理廣泛的資料來源 3.DataFrame --- RDD --- tabl

大資料之Spark（三）--- Spark核心API，Spark術語，Spark三級排程流程原始碼分析

一、Spark核心API ----------------------------------------------- [SparkContext] 連線到spark叢集,入口點. [HadoopRDD] extends RDD 讀取hadoop

大資料之Spark（二）--- RDD，RDD變換，RDD的Action，解決spark的資料傾斜問題，spark整合hadoop的HA

一、Spark叢集執行 ------------------------------------------------------- 1.local //本地模式 2.standalone //獨立模式 3.yarn //yarn模式

大資料之Spark（一）--- Spark簡介，模組，安裝，使用，一句話實現WorldCount，API，scala程式設計，提交作業到spark叢集，指令碼分析

一、Spark簡介 ---------------------------------------------------------- 1.快如閃電的叢集計算 2.大規模快速通用的計算引擎 3.速度: 比hadoop 100x,磁碟計算快10x 4.使用: java

大資料之scala（三） --- 類的檢查、轉換、繼承，檔案，特質trait，操作符，apply，update，unapply，高階函式，柯里化，控制抽象，集合

一、類的檢查和轉換 -------------------------------------------------------- 1.類的檢查 isInstanceOf -- 包括子類 if( p.isInstanceOf[Employee]) {

大資料之scala（二） --- 對映，元組，簡單類，內部類，物件Object，Idea中安裝scala外掛，trait特質[介面]，包和包的匯入

一、對映<Map> ----------------------------------------------------- 1.建立一個不可變的對映Map<k,v> ==> Map(k -> v) scala> val map

大資料之scala（一） --- 安裝scala，簡單語法介紹，條件表示式，輸入和輸出，迴圈，函式，過程，lazy ，異常，陣列

一、安裝和執行Scala解釋程式 --------------------------------------------- 1.下載scala-2.11.7.msi 2.管理員執行--安裝 3.進入scala/bin,找到scala.bat,管理員執行，進入scala命

大資料之Spark（七）--- Spark機器學習，樸素貝葉斯，酒水評估和分類案例學習，垃圾郵件過濾學習案例，電商商品推薦，電影推薦學習案例

一、Saprk機器學習介紹 ------------------------------------------------------------------ 1.監督學習 a.有訓練資料集,符合規範的資料 b.根據資料集，產生一個推斷函式

大資料之Spark（六）--- Spark Streaming介紹，DStream，Receiver，Streamin整合Kafka，Windows，容錯的實現

一、Spark Streaming介紹 ----------------------------------------------------------- 1.介紹是spark core的擴充套件，針對實時資料的實時流處理技術具有可擴充套件、高吞吐量、

大資料之storm（一） --- storm簡介，核心元件，工作流程，安裝和部署，電話通訊案例分析，叢集執行，單詞統計案例分析，調整併發度

一、storm簡介 --------------------------------------------------------- 1.開源，分散式，實時計算 2.實時可靠的處理無限資料流，可以使用任何語言開發 3.適用於實時分析，線上機器學習

大資料之Spark（八）--- Spark閉包處理，Spark的應用的部署模式，Spark叢集的模式，啟動Spark On Yarn模式，Spark的高可用配置

一、Spark閉包處理 ------------------------------------------------------------ RDD,resilient distributed dataset,彈性(容錯)分散式資料集。分割槽列表,fun

大資料之mongodb --> （1）在ubuntu上安裝mongodb

1.安裝 MongoDB。 1.為軟體包管理系統匯入公鑰。 Ubuntu 軟體包管理工具為了保證軟體包的一致性和可靠性需要用 GPG 金鑰檢驗軟體包。使用下列命令匯入 MongoDB 的 GPG 金鑰（ MongoDB public GPG Key h

java程式設計師的大資料之路（5）：HDFS壓縮與解壓縮

背景好久沒有更新了，原因是公司專案上線，差點被祭天。在這種驚心動魄的時候還是要抽時間做一點自己喜歡做的事情的，然而進度比預期慢了許多。正式開始接下來就開始記錄最近的學習成果啦！在Hadoop叢集中，網路資源是非常珍貴的。因此對檔案進行壓縮是非

java程式設計師的大資料之路（7）：基於檔案的資料結構

SequenceFile 介紹由於日誌檔案中每一條日誌記錄是一行文字。如果想記錄二進位制型別，純文字是不合適的。這種情況下，Hadoop的SequenceFile類非常合適。SequenceFile可以作為小檔案容器。而HDFS和MapReduce是針

胖子哥的大資料之路（6）- NoSQL生態圈全景介紹

引言： NoSQL高階培訓課程的基礎理論篇的部分課件，是從一本英文原著中做的摘選，中文部分參考自網際網路。給大家分享。正文： The NoSQL Ecosystem 目錄 The NoSQL Ecosystem... 1 13.1. What's in a Name?.

電商大資料分析平臺（三）nginx配置及flume讀取日誌資訊

一、nginx配置在本專案中nginx的作用只是接收客戶端傳送的事件，並將相應的session寫入日誌檔案中，所以配置較為簡單，只需要配置寫入的日誌檔案和寫入的格式 1.地址配置 server { listen

大資料之hbase（四） --- rowkey設計原則模擬通話日誌，BloomFilter，phonix環境部署，hive-hbase整合

相關推薦