Hbase二級索引方案Solr key value index

阿新 • • 發佈：2019-01-20

概述

在Hbase中,表的RowKey 按照字典排序, Region按照RowKey設定split point進行shard，通過這種方式實現的全域性、分散式索引. 成為了其成功的最大的砝碼。

然而單一的通過RowKey檢索資料的方式,不再滿足更多的需求，查詢成為Hbase的瓶頸，人們更加希望像Sql一樣快速檢索資料，可是，Hbase之前定位的是大表的儲存，要進行這樣的查詢，往往是要通過類似Hive、Pig等系統進行全表的MapReduce計算，這種方式既浪費了機器的計算資源，又因高延遲使得應用黯然失色。於是，針對HBase Secondary Indexing的方案出現了。

Solr

Solr是一個獨立的企業級搜尋應用伺服器，是Apache Lucene專案的開源企業搜尋平臺,

其主要功能包括全文檢索、命中標示、分面搜尋、動態聚類、資料庫整合，以及富文字（如Word、PDF）的處理。Solr是高度可擴充套件的，並提供了分散式搜尋和索引複製。Solr 4還增加了NoSQL支援，以及基於Zookeeper的分散式擴充套件功能SolrCloud。SolrCloud的說明可以參看：SolrCloud分散式部署。它的主要特性包括：高效、靈活的快取功能，垂直搜尋功能，Solr是一個高效能，採用Java5開發，基於Lucene的全文搜尋伺服器。同時對其進行了擴充套件，提供了比Lucene更為豐富的查詢語言，同時實現了可配置、可擴充套件並對查詢效能進行了優化，並且提供了一個完善的功能管理介面，是一款非常優秀的

全文搜尋引擎。

Solr可以高亮顯示搜尋結果，通過索引複製來提高可用，性，提供一套強大Data Schema來定義欄位，型別和設定文字分析，提供基於Web的管理介面等。

Key-Value Store Indexer

這個元件非常關鍵，是Hbase到Solr生成索引的中間工具。

在CDH5.3.2中的Key-Value Indexer使用的是Lily HBase NRT Indexer服務.

Lily HBase Indexer是一款靈活的、可擴充套件的、高容錯的、事務性的，並且近實時的處理HBase列索引資料的分散式服務軟體。它是NGDATA公司開發的Lily系統的一部分，已開放原始碼。Lily HBase Indexer使用SolrCloud來儲存HBase的索引資料，當HBase執行寫入、更新或刪除操作時，Indexer通過HBase的replication功能來把這些操作抽象成一系列的Event事件，並用來保證寫入Solr中的HBase索引資料的一致性。並且Indexer支援使用者自定義的抽取，轉換規則來索引HBase列資料。Solr搜尋結果會包含使用者自定義的columnfamily:qualifier欄位結果，這樣應用程式就可以直接訪問HBase的列資料。而且Indexer索引和搜尋不會影響HBase執行的穩定性和HBase資料寫入的吞吐量，因為索引和搜尋過程是完全分開並且非同步的。Lily HBase Indexer在CDH5中執行必須依賴HBase、SolrCloud和Zookeeper服務。

實時查詢方案

Hbase -----> Key Value Store ---> Solr -------> Web前端實時查詢展示

1.Hbase 提供海量資料儲存

2.Solr提供索引構建與查詢

3. Key Value Store 提供自動化索引構建(從Hbase到Solr)

使用流程

前提: CDH5.3.2Solr叢集搭建好,CDH5.3.2 Key-Value Store Indexer叢集搭建好

1.開啟Hbase的複製功能

2. Hbase表需要開啟REPLICATION複製功能

create 'table',{NAME => 'cf', REPLICATION_SCOPE => 1} #其中1表示開啟replication功能，0表示不開啟，預設為0

對於已經建立的表可以使用如下命令

disable 'table'

alter 'table',{NAME => 'cf', REPLICATION_SCOPE => 1}

enable 'table'

3. 生成實體配置檔案, /opt/hbase-indexer/Test是自定義路徑，可以自己設定

solrctl instancedir --generate /opt/cdhsolr/waslog

4.編輯生成好的scheme.xml檔案

把hbase表中需要索引的列新增到scheme.xml filed節點,其中的name屬性值要與Morphline.conf檔案中的outputField屬性值對應

5.建立collection例項並配置檔案上傳到zookeeper，命令

solrctl instancedir --create waslog /opt/cdhsor/waslog

6.上傳到zookeeper之後，其他節點就可以從zookeeper下載配置檔案。接下來建立collection，命令：

solrctl collection –create waslog -s 15 –r 2 –m 50

7.建立Lily HBase Indexer配置檔案

morphline-hbase-mapper.xml

<?xml version="1.0" encoding="UTF-8"?>
<indexer table="waslog" mapper="com.ngdata.hbaseindexer.morphline.MorphlineResultToSolrMapper">
 <param name="morphlineFile" value="morphlines.conf"></param>
 <param name="morphlineId" value="waslogMap"></param>
</indexer>

其中morphlineId 的value是對應Key-Value Store Indexer 中配置檔案Morphlines.conf 中morphlines 屬性id值

8.修改Morphlines 檔案, 具體操作：進入Key-Value Store Indexer面板->配置->檢視和編輯->屬性-Morphline檔案

morphlines : [
{
id :waslogMap
importCommands : ["org.kitesdk.**", "com.ngdata.**"]

commands : [                    
  {
    extractHBaseCells {
      mappings : [
        {
          inputColumn : "cf:LOGSYFG"
          outputField : "LOGSYFG" 
          type : string 
          source : value
        },
       {
          inputColumn : "cf:LOGIPAD"
          outputField : "LOGIPAD" 
          type : string 
          source : value
        },
        {
          inputColumn : "cf:LOGSEQC"
          outputField : "LOGSEQC" 
          type : string 
          source : value
        },
        {
          inputColumn : "cf:LOGLGDT"
          outputField : "LOGLGDT" 
          type : string 
          source : value
        },
        {
          inputColumn : "cf:LOGLGTM"
          outputField : "LOGLGTM" 
          type : string 
          source : value
        }
      ]
    }
  }
  { logDebug { format : "output record: {}", args : ["@{}"] } }
]
}
]

inputColumn:Hbase的CLOUMN

outputField:Solr的Schema.XML配置的fields

9.註冊Lily HBase Indexer configuration 和 Lily Hbase Indexer Service

hbase-indexer add-indexer \

 --name cloudIndexer \

 --indexer-conf /opt/cdhsolr/morphline-hbase-mapper.xml

 --connection-param solr.zk=cdh1:2181,cdh2:2181,cdh3:2181/solr \

 --connection-param solr.collection=waslog \

 --zookeeper cdh1:2181,cdh2:2181,cdh3:2181

驗證索引器是否成功建立

hbase-indexer list-indexers

10.測試put資料檢視結果

當寫入資料後，稍過幾秒我們可以在相對於的solr中查詢到該插入的資料，表明配置已經成功。

11.使用IK分詞器

在/opt/cloudera/parcels/CDH/lib/solr/webapps/solr/WEB-INF建立classes目錄

把IKAnalyzer.cfg.xml 和 stopword.dic新增到classes目錄

把IKAnalyzer2012FF_u1.jar新增到/opt/cloudera/parcels/CDH/lib/solr/webapps/solr/WEB-INF/lib目錄

在Schema.xml中新增

</fieldType>

配置好後更新ZK配置檔案,重啟solr服務

12,擴充套件命令

Scheme.xml新增索引欄位

執行以下命令更新配置

solrctl instancedir --update waslog /opt/cdhsolr /waslog

solrctl collection --reload waslog

檢視collection命令：solrctl collection –list

Hbase表資料到SOLR叢集遷移

在CDH5.3.2中Hbase-indexer提供了MapReduce來批量構建索引的方式

/opt/cloudera/parcels/CDH-5.3.2-1.cdh5.3.2.p0.10/lib/hbase-solr/tools/hbase-indexer-mr-1.5-cdh5.3.2-job.jar

構建命令

hadoop jar /opt/cloudera/parcels/CDH-5.3.2-1.cdh5.3.2.p0.10/lib/hbase-solr/tools/hbase-indexer-mr-1.5-cdh5.3.2-job.jar  D 'mapreduce.reduce.shuffle.memory.limit.percent=0.06'  --hbase-indexer-file  /opt/cdhsolr/mapping/waslog/morphline-hbase-mapper.xml  --zk-host hadoop03:2181,hadoop04:2181,hadoop05:2181/solr --collection waslog --go-live

注意:在執行命令的目錄下必須有morphlines.conf檔案

Hbase二級索引方案Solr key value index

概述

實時查詢方案

使用流程

Hbase表資料到SOLR叢集遷移

Hbase二級索引方案Solr key value index

solr-hbase二級索引及查詢解決方案(一)

華為hbase二級索引（secondary index）細節分析 2013-06-03 | 相關總結

基於Solr的Hbase二級索引

HBase協處理器同步二級索引到Solr

Hbase二級索引，索引海量資料實現方案

hbase二級索引構建

Hbase二級索引+CDH+Lily

Hindex--華為Hbase二級索引

CDH key value index lily安裝配置

HBase之——MapReduce構建HBase二級索引

利用Solr建立HBase的二級索引

使用HBase Indexer建立二級索引(整合最新版本的HBase1.2.6及Solr 7.2.1)

CDH HBASE使用solr建立二級索引，更新刪除索引

HBase建立二級索引的一些解決方式

HBase的二級索引

[Phoenix基礎]-- 二級索引應該使用local Index還是global Index？

hbase協處理器與二級索引

HBase利用observer（協處理器）建立二級索引

mysql 建立、刪除索引 key 、primary key 、unique key 與index區別

Hbase二級索引方案Solr key value index

概述

實時查詢方案

使用流程

Hbase表資料到SOLR叢集遷移

相關推薦