58 HBase 平臺實踐和應用-平臺建設篇

阿新 • • 發佈：2019-01-14

HBase 是一個基於 Hadoop 的分散式、面向列的 Key-Value 儲存系統，可以對需要實時讀寫、隨機訪問大規模資料集的場景提供高可靠、高效能的服務，在大數據相關領域應用廣泛。HBase 可以對資料進行透明的切分，使得儲存和計算本身具有良好的水平擴充套件性。
在 58 的業務場景中，HBase 扮演重要角色。例如帖子資訊等公司基礎資料都是通過 HBase 進行離線儲存，併為各個業務線提供隨機查詢及更深層次的資料分析。同時 HBase 在 58 還大量用於使用者畫像、搜尋、推薦、時序資料和圖資料等場景的儲存和查詢分析。

HBase 在 58 的應用架構:
_2019_01_14_10_56_13
**
HBase 在 58 的應用架構如上圖所示，主要內容包括以下幾個部分:**

多租戶支援:包括 SCF 限流、RSGroup、RPC 讀寫分離、HBase Quota 、ACL;
資料讀寫介面:包括 SCF 代理 API、原生 Java API 以及跨語言訪問 Thrift Server;
HBase 資料匯入匯出:包括資料批量匯入工具 BulkLoad，資料批量匯出工具
SnapshotMR;
OLAP:多維分析查詢的 Kylin 平臺;
時序資料庫:時序資料儲存和查詢的時序資料庫 Opentsdb;
圖資料庫:圖關係資料儲存和查詢的圖資料庫 JanusGraph;
SQL on HBase:支援二級索引和事務的 Phoenix，以及 Spark SQL 等;

HBase 在 58 的應用業務場景包括:全量帖子資料、使用者畫像、搜尋、推薦、
使用者行為、智慧監控以及風控反欺詐等的資料儲存和分析;
監控平臺:HBase 平臺的監控實現。

本文將從多租戶支援、資料讀寫介面、資料匯入匯出和平臺優化四個方面來重點講解 58HBase 平臺的建設。
說明:下文中所有涉及到 RegionServer 的地方統一使用 RS 來代替。

1. HBase 多租戶支援

HBase 在 1.1.0 版本之前沒有多租戶的概念，同一個叢集上所有使用者、表都是同等的，導致各個業務之間干擾比較大，特別是某些重要業務，需要在資源有限的情況下保證優先正常執行，但是在之前的版本中是無法保證的。從 HBase 1.1.0 開始，HBase 的多租戶特性逐漸得到支援，我們的 HBase 版本是 1.0.0-cdh5.4.4，該版本已經集成了多租戶特性。

以下是 58 使用者訪問 HBase 的流程圖:
_2019_01_14_10_58_41

我們從多個層面對 HBase 多租戶進行了支援，主要分為以下兩個大的方面:

資源限制:
a) SCF Quota;

b) HBase Quota。

資源隔離:
a) RS RPC 讀寫分離;

b) HBase ACL 許可權隔離;
c) RSGroup 物理隔離。

**1.1 資源限制
(1)SCF Quota**
SCF 是公司自研的 RPC 框架，我們基於 SCF 封裝了原生 HBase API，使用者根據應用需要申請 HBase SCF 服務呼叫時，需要根據應用實際情況填寫 HBase 的每分鐘調用量(請求次數)，在呼叫量超限時，SCF 管理平臺可以實現應用級的限流，這是全侷限流。缺點是隻能對呼叫量進行限制，無法對讀寫資料量大小限制。

以下是使用者申請 HBase SCF 服務呼叫時需要填寫的呼叫量:
_2019_01_14_10_59_55

(2)HBase Quota
HBase 的 Quota 功能可以實現對使用者級、表級和名稱空間級的資源進行限制。這裡的資源包括請求資料量大小、請求次數兩個維度，這兩個維度基本涵蓋了常見的資源限制。目前 HBase 的 Quota 功能只能限制到 RS 這一級，不是針對整個集群的。但是因為可以對請求的資料量大小進行限制，一定程度上可以彌補了 SCF Proxy 應用級限流只能對請求次數進行限制的不足。

開啟 Quota 的配置如下:
_2019_01_14_11_05_30

在開啟了 HBase 的 Quota 後，Quota 相關的元資料會儲存到 HBase 的系統表 hbase:quota 中。

在我們的 HBase 叢集中之前遇到過個別使用者讀寫資料量過大導致 RS 節點頻寬被打滿，甚至觸發 RS 的 FGC，導致服務不穩定，影響到了其他的業務，但是應用級的呼叫量並沒有超過申請 SCF 時設定的值，這個時候我們就可以通過設定 HBase Quota，限制讀寫表級資料量大小來解決這個問題。

以下是設定 HBase Quota 資訊，可以通過命令列進行設定和檢視:
_2019_01_14_11_06_29

1.2 資源隔離

(1)RS RPC 讀寫分離
預設場景下，HBase 只提供一個 RPC 請求佇列，所有請求都會進入該佇列進行優先順序排序。這樣可能會出現由於讀問題阻塞所有 handler 執行緒導致寫資料失敗，或者由於寫問題阻塞所有 handler 執行緒導致讀資料失敗，這兩種問題我們都遇到過，在後續篇幅中會提到，這裡不細述。

通過設定引數 hbase.ipc.server.callqueue.handler.factor 來設定多個佇列，佇列個數等於該引數 * handler 執行緒數，比如該引數設定為 0.1，總的 handler 執行緒數為200，則會產生 20 個獨立佇列。獨立佇列產生之後，可以通過引數 hbase.ipc.server.callqueue.read.ratio 來設定讀寫佇列比例，比如設定 0.6，則表示會有 12 個佇列用於接收讀請求，8 個用於接收寫請求;另外，還可以進一步通過引數 hbase.ipc.server.callqueue.scan.ratio 設定 get 和 scan 的佇列比例，比如設定為 0.2，表示 2 個佇列用於 scan 請求，另外 10 個用於 get 請求，進一步還將 get 和 scan 請求分開。

RPC 讀寫分離設計思想總體來說實現了讀寫請求佇列資源的隔離，達到讀寫互不干擾的目的，根據 HBase 叢集服務的業務型別，我們還可以進一步配置長時 scan 讀和短時 get 讀之間的佇列隔離，實現長時讀任務和短時讀任務互不干擾。

(2)HBase ACL 許可權隔離

HBase 叢集多租戶需要關注的一個核心問題是資料訪問許可權的問題，對於一些重要的公共資料，或者要進行跨部門訪問資料，我們只開放給經過許可權申請的使用者訪問，沒有許可權的使用者是不能訪問的，這就涉及到了 HBase 的資料許可權隔離了， HBase 是通過 ACL 來實現許可權隔離的。
基於 58 的實際應用情況，訪問 HBase 的使用者都是 Hadoop 計算叢集的使用者，而且 Hadoop 使用者是按部門分配的，所以 HBase 的使用者也是到部門而不是到個人，這樣的好處是維護的使用者數少了，便於管理，缺點是有的部門下面不同子部門之間如果也要進行資料許可權隔離就比較麻煩，需要單獨申請開通子部門賬號。

要開啟 HBase 的 ACL，只需要在配置檔案 hbase-site.xml 中關於 Master、 RegionServer 和 Region 的協處理器都加上 org.apache.hadoop.hbase.security.access.AccessController 類就可以了。

具體 HBase ACL 的配置項如下圖所示:
_2019_01_14_11_12_22

HBase 的訪問級別有讀取(R)、寫入(W)、執行(X)、建立(C)、管理員(A)，而許可權作用域包括超級使用者、全域性、名稱空間、表、列族、列。訪問級別和作用域的組合建立了可授予使用者的可能訪問級別的矩陣。在生產環境中，根據執行特定工作所需的內容來考慮訪問級別和作用域。
在 58 的實際應用中，我們將使用者和 HBase 的名稱空間一一對應，建立新使用者時，建立同名的名稱空間，並賦予該使用者對同名名稱空間的所有許可權(RWCA)。以下以新使用者 zhangsan 為例，建立同名名稱空間並授權:

_2019_01_14_11_13_38

(3)RSGroup 物理隔離

雖然 SCF Quota 和 HBase Quota 功能可以做到對使用者的讀寫進行限制，一定程度上能降低各業務讀寫資料的相互干擾，但是在我們的實際業務場景中，存在兩類特殊業務，一類是消耗資源非常大，但是不希望被限流，另外一類是非常重要，需要高優先順序保證服務的穩定。對於這兩種情況下，我們只能對該業務進行物理隔離，物理隔離既能保證重要業務的穩定性，也避免了對其他業務的干擾。我們使用的物理隔離方案是 RSGroup，也即 RegionServer Group。

RSGroup 整體架構:
_2019_01_14_11_14_32

RSGroup 有以下幾個特點:

不同 RS 和表劃分到不同的 RSGroup;
同一個 RS 只能屬於一個 RSGroup;
同一個表也只能屬於一個 RSGroup;
預設所有 RS 和表都屬於“default”這個 RSGroup。

RSGroup 實現細節:
_2019_01_14_11_15_44

從以上 RSGroup 實現細節中看出，RSGroup 的功能主要包含兩部分，RSGroup 元資料管理以及 Balance。

RSGroup 開啟的配置項:
_2019_01_14_11_16_24

資料讀寫介面
目前我們提供了三種 HBase 的資料讀寫介面以便於使用者使用，包括 SCF 代理、 Java 原生 API 和 Thrift Server。以下分別進行說明:

2.1 SCF Proxy

SCF 是 58 架構部自研的 RPC 框架，我們基於 SCF 封裝了原生的 Java API，以 SCF RPC 介面的方式暴露給使用者使用，其中以這種方式提供給使用者的介面多達 30 個。由於 SCF 支援跨語言訪問，很好的解決了使用非 Java 語言使用者想要訪問 HBase 資料的問題，目前使用者使用最多的是通過 Java、Python 和 PHP 這三種語言來訪問這些封裝的介面。

SCF proxy 介面整體架構:
_2019_01_14_11_40_52

資料讀寫流程:使用者通過 RPC 連線到 SCF 服務管理平臺，通過 SCF 服務管理平臺做服務發現，找到 58 雲端計算平臺上部署的服務節點，服務節點最終通過訪問 HBase 實現使用者資料的讀寫操作。

使用 SCF Proxy 介面的優勢:

避免使用者直連 HBase 叢集，降低 zk 的壓力。之前經常遇到因為使用者程式碼存在 bug，導致 zk 連線數暴漲的情況。
針對大量一次性掃描資料的場景，提供單獨訪問介面，並在介面中設定 scan 的 blockcache 熟悉為 false，避免了對後端讀快取的干擾。
通過服務管理平臺的服務發現和服務治理能力，結合業務的增長情況以及基於 58 雲端計算平臺彈性特點，我們很容易對服務節點做自動擴容，而這一切對使用者是透明的。
通過服務管理平臺可以實現對使用者的訪問做應用級限流，規範使用者的讀寫操作。
服務管理平臺提供了呼叫量、查詢耗時以及異常情況等豐富的圖表，使用者可以很方便檢視。

以下是我們的 SCF 服務在服務管理平臺展示的呼叫量和查詢耗時圖表:
_2019_01_14_11_41_50

由於 SCF Proxy 介面的諸多優勢，我們對於新接的業務都要求通過申請這種方式來訪問 HBase。

2.2 Java API

由於歷史原因和個別特殊的新業務還採用 Java 原生的 API 外，其他新業務都通 SCF Proxy 介面來訪問。
**
2.3 Thrift Server**

也是由於歷史原因，個別使用者想使用非 Java 語言來訪問 HBase，才啟用了 Thrift Server，由於 SCF proxy 介面支援多語言，目前這種跨語言訪問的問題都通過 SCF Proxy 來解決了。

3. 資料匯入匯出 3.1 BulkLoad

3.1 BulkLoad

HBase 相對於其他 KV 儲存系統來說比較大的一個優勢是提供了強大的批量匯入工具 BulkLoad，通過 BulkLoad，我們很容易將生成好的幾百 G，甚至上 T 的 HFile 檔案以毫秒級的速度匯入 HBase，並能馬上進行查詢。所以對於歷史資料和非實時寫入的資料，我們會建議使用者通過 BulkLoad 的方式匯入資料。

3.2 SnapshotScanMR

針對全表掃描的應用場景，HBase 提供了兩種解決方案，一種是 TableScanMR，另一種就是 SnapshotScanMR，這兩種方案都是採用 MR 來並行化對資料進行掃描，但是底層實現原理確是有很大差別，以下會進行對比分析。

TableScanMR 的實現原理圖:
_2019_01_14_11_47_16

TableScanMR 會將 scan 請求根據 HBase 表的 region 分界進行分解，分解成多個 sub-scan(一個 sub-scan 對應一個 map 任務)，每個 sub-scan 內部本質上就是一個 ScanAPI。假如 scan 是全表掃描，那這張表有多少 region，就會將這個 scan 分解成多個 sub-scan，每個 sub-scan 的 startkey 和 stopkey 就是 region 的 startkey 和 stopkey。這種方式只是簡單的將 scan 操作並行化了，資料讀取鏈路和直接 scan 沒有本質區別，都需要通過 RS 來讀取資料。
SnapshotScanMR 的實現原理圖:

_2019_01_14_11_47_53

SnapshotScanMR 總體來看和 TableScanMR 工作流程基本一致，不過 SnapshotScanMR 的實現依賴於 HBase 的 snapshot，通過 shapshot 的元資料資訊，SnapshotScanMR 可以很容易知道當前全表掃描要訪問那些 HFile以及這些 HFile 的 HDFS 路徑，所以 SnapshotScanMR 構造的 sub-scan 可以繞過 RS，直接借用 Region 中的掃描機制直接掃描 HDFS 中資料。

SnapshotScanMR 優勢:

避免對其他業務的干擾:SnapshotScanMR 繞過了 RS，避免了全表掃描對其他業務的干擾。
極大的提升了掃描效率:SnapshotScanMR 繞過了 RS，減少了一次網路傳輸，對應少了一次資料的序列化和反序列化操作;TableScanMR 掃描中 RS 很可能會成為瓶頸，而 SnapshotScanMR 不需要擔心這一點。

基於以上的原因，在全部掃描，以及全部資料匯出的應用場景中，我們選擇了 SnapshotScanMR，並對原生的 SnapshotScanMR 進行了進一步的封裝，作為一個通用工具提供給使用者。

4. 平臺優化

在使用 HBase 的過程中，我們遇到了很多問題和挑戰，但最終都一一克服了，以下是我們遇到一部分典型問題及優化:

4.1 CLOSE_WAIT 偏高優化

問題描述:在一次排查 HBase 問題的時候發現 RS 程序存在大量的 CLOSE_WAIT，最多的達到了 6000+，這個問題雖然還沒有直接導致 RS 掛掉，但是也確實是個不小的隱患。

從 socket 的角度分析產生 CLOSE_WAIT 的原因:對方主動關閉連線或者網路異常導致連線中斷，這時我方的狀態會變成 CLOSE_WAIT，此時我方要呼叫 close() 來使得連線正確關閉，否則 CLOSE_WAIT 會一直存在。

對應到咱們這個問題，其實就是使用者通過 RS 訪問 DataNode(埠 50010)的數據，DataNode 端已經主動關閉 Socket 了，但是 RS 端沒有關閉，所以要解決的問題就是 RS 關閉 Socket 連線的問題。

解決辦法:社群對該問題的討論見 HBASE-9393。該問題的修復依賴 HDFS-7694，我們的 Hadoop 版本是 hadoop2.6.0-cdh5.4.4，已經集成了 HDFS-7694 的內容。

HBASE-9393 的核心思想是通過 HDFS API 關閉 HBase 兩個地方開啟的 Socket；

RS 開啟 HFile 讀取元資料資訊(flush、bulkload、move、balance 時)後關閉 Socket;每次執行完成使用者 scan 操作後關閉 Socket。

優化效果:CLOSE_WAIT 數量降為 10 左右

4.2 DN 慢盤導致 RS 阻塞優化

問題描述:由於叢集某個磁碟出現壞道(沒有完全壞，表現為讀寫慢，disk.io.util 為 100%)，導致 RS 所有 handler 執行緒因為寫 WAL 失敗而被阻塞，無法對外提供服務，嚴重影響了使用者讀寫資料體驗。
最後分析發現，RS 寫 WAL 時由於 DN 節點出現磁碟壞道(表現為 disk.io.util 為長時間處於 100%)，導致寫 WAL 的 pipeline 丟擲異常並誤將正常 DN 節點標記為 bad 節點，而恢復 pipeline 時使用 bad 節點進行資料塊 transfer，導致 pipeline 恢復失敗，最終 RS 的所有寫請求都阻塞到 WAL 的 sync 執行緒上，RS 由於沒有可用的 handler 執行緒，也就無法對外提供服務了。

解決辦法:RS 配置 RPC 讀寫分離:避免由於寫阻塞所有 handler 執行緒，影響到讀請求;

pipeline 恢復失敗解決:社群已有該問題的討論，見並 HDFS-9178，不過因為 HDFS 的 pipeline 過程非常複雜，HDFS-9178 能否解決該問題需要進一步驗證。

4.3 Compact 佔用 Region 讀鎖優化

問題描述:某次有一個業務執行 BulkLoad 操作批量匯入上 T 的資料到 HBase 表時，RS 端報 BulkLoad 操作獲取 Region 級寫鎖出現超時異常:failed to get a lock in 60000 ms，當時該表並沒有進行讀寫操作，最終定位到是該時間段內這個業務的表正在進行 compact 操作，在我們的 HBase 版本中，執行 compact 時會獲取 Region 級的讀鎖，而且會長時間佔用，所有導致 BulkLoad 獲取寫鎖超時了。

解決辦法:Compact 時不持有 Region 讀鎖，社群對該問題的討論見 HBASE-14575。

4.4 HTablePool 問題優化

問題描述:我們的 SCF 服務最初是基於 HTablePool API 開發的，SCF 服務在運行一段時間後經常會出現 JVM 堆記憶體暴增而觸發 FGC 的情況，分析發現 HTablePool 已經是標記為已廢棄，原因是通過 HTablePool 的獲取 Table 物件，會建立單獨的執行緒池，而且執行緒個數沒有限制，導致請求量大時，執行緒數會暴增。

解決辦法:最後我們換成了官方推薦的 API，通過 Connection 獲取 Table，這種方式 Connection 內部的執行緒池可以在在所有表中共享，而且執行緒數是可配置的。

4.5 其他優化

BlockCache 啟用 BuckCache;Compact 限流優化等。

總結
Apache HBase 實戰技術總結 – 中國 HBase 技術社群

本文從多租戶支援、資料讀寫介面、資料匯入匯出和平臺優化四個方面講解了 HBase 相關的平臺建設工作。HBase 作為一個開源的平臺，有著非常豐富的生態系統。在 HBase 平臺基礎之上，我們持續不斷地引入了各種新的能力，包括 OLAP、圖資料庫、時序資料庫和 SQL on HBase 等，這些我們將在 58HBase 平臺實踐和應用的後續篇章中進一步介紹。

轉載
文章作者：何良均/張祥——58 同城資深研發工程師

58 HBase 平臺實踐和應用-平臺建設篇

HBase 是一個基於 Hadoop 的分散式、面向列的 Key-Value 儲存系統，可以對需要實時讀寫、隨機訪問大規模資料集的場景提供高可靠、高效能的服務，在大數據相關領域應用廣泛。HBase 可以對資料進行透明的切分，使得儲存和計算本身具有良好的水平擴充套件性。在 58 的業務場景中，HBase

以阿里IoT開發物聯網和應用平臺

1. 連結物聯網的概念物聯網（The Internet of Things，簡稱IOT）是指通過各種資訊感測器、射頻識別技術、全球定位系統、紅外感應器、鐳射掃描器等各種裝置與技術，實時採集任何需要監控、連線、互動的物體或過程，採集其聲、光、熱、電、力學、化學、生物、位置等各種需要的資訊，通過各類可能的

滴滴七層接入平臺實踐和探索

![](https://img2020.cnblogs.com/other/1632886/202009/1632886-20200902235815932-484484898.png) ![](https://img2020.cnblogs.com/other/1632886/202009/1632886

Prometheus Metrics 設計的最佳實踐和應用例項，看這篇夠了！

Prometheus 是一個開源的監控解決方案，部署簡單易使用，難點在於如何設計符合特定需求的 Metrics 去全面高效地反映系統實時狀態，以助力故障問題的發現與定位。本文即基於最佳實踐的 Metrics 設計方法，結合具體的場景例項——TKE 的網路元件 IPAMD 的內部監控，以個人實踐經驗談一談如何設

廣東11選5平臺出租框架應用實踐

provided injector alibaba ssis event @override static protect n) 廣東11選5平臺出租 Q1446595067 在於記錄研究某個項目時遇到的restful架構技術jersey框架，這裏以自己寫的一個簡單例子作為

軟體開發，標準化流水線式開發的實施構想 Internet 服務匯流排嵌入式通用行業應用平臺的靈魂和搭建快速原型開發模式在實際開發過程中的應用公用物件請求代理（排程）程式體系結構(CORBA) UML軟體設計基礎(UML圖詳解) （篇01）企業如何軟體商業化？（篇02）企業如何軟體商業化？在

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

58 HBase 平臺實踐和應用-平臺建設篇

58 HBase 平臺實踐和應用-平臺建設篇

以阿里IoT開發物聯網和應用平臺

滴滴七層接入平臺實踐和探索

Prometheus Metrics 設計的最佳實踐和應用例項，看這篇夠了！

廣東11選5平臺出租框架應用實踐

使用O2OA二次開發搭建企業辦公平臺（十二）流程開發篇：報銷審批流程需求和應用建立

東方國信基於kubernetes構建容器雲平臺的實踐和思考_Kubernetes中文社群

騰訊Gaia平臺的Docker應用實踐

《應用拆分與平臺搭建最佳實踐》- 跨應用平臺資源

UNI-APP 生成APP 微信公眾開放平臺中申請移動應用，如何獲取應用簽名和應用包名稱

直播APP的應用（使用七牛直播平臺SDK和環信IM低仿映客）

RSA/SHA1加密和數字簽名算法在開放平臺中的應用

使用ucloud直播平臺SDK和環信IM低仿映客直播APP的應用

IMX6平臺Linux3.14.28系統下編譯驅動模組ko和應用程式的Makefile模版

物聯網雲平臺常用協議和應用場景

基於rhel7.2的Zabbix平臺搭建和部署（一）

基於rhel7.2的Zabbix平臺搭建和部署（四）

o2o直播商城平臺怎麽應用

案例解讀｜江蘇銀行—智多星大數據分析雲平臺實踐

58 HBase 平臺實踐和應用-平臺建設篇

相關推薦