【轉載】HBase實踐 | 使用Spark分析雲HBase的資料

阿新 • • 發佈：2018-12-17

雲HBase具有很好的線上入庫和查詢能力，不過在分析上面有比較大的欠缺，這篇文章主要介紹如何使用Spark對雲HBase中資料做複雜分析。

1 雲HBase查詢分析的現狀

HBase原生API：HBase原生API適合基於row key做點查，這個是HBase最擅長的查詢場景
Phoenix：Phoenix作為HBase的SQL層，使用二級索引的技術，擅長多條件組合查詢；Phoenix沒有自己的計算資源，類似groupby這樣的複雜查詢需要藉助HBase的協處理器來完成，這樣一方面效能不好，同時會影響HBase叢集的穩定性；
Spark：具有豐富的運算元支援複雜分析，使用Spark叢集的計算資源，通過併發分析的方式可以提高效能，同時不影響HBase叢集的穩定性。

2 Spark分析HBase的方式對比

Spark分析HBase資料有“RDD API”、“SQL API”、“HFILE”三種方式，相關對比如下：

對於資料動態更新增加的小表推薦使用SQL API的方式，可以有效的優化分析，減少對HBase叢集穩定性的影響；對於靜態表或者全量靜態表的分析推薦使用分析HFILE的方式直讀HDFS，這樣可以完全不影響HBase叢集穩定性；不推薦使用RDD API 的方式，這種方式一方沒有優化效能差，同時在高併發以及表資料量大時，會嚴重影響HBase叢集的穩定性，從而影響線上業務。

3 三種方式的具體使用

雲HBase團隊為大家提供了一個github專案供大家參考使用上面的三種方式來開發Spark分析HBase的程式，專案地址：

https://github.com/lw309637554/alicloud-hbase-spark-examples?spm=a2c4e.11153940.blogcont573569.14.1b6077b4MNpI9X

依賴項：需要下載雲HBase及雲Phoenix的client包
分析HFILE：

需要先開通雲HBase的HDFS訪問許可權，參考文件
在hbase shell中對錶生成snapshot表“snapshot 'sourceTable', ‘snapshotName'”
在專案中配置自己的hdfs-sit.xml檔案，然後通過直讀HDFS的方式分析snapshot表

具體的example

RDD API對應：org.apache.spark.hbase.NativeRDDAnalyze
SQL API對應：org.apache.spark.sql.execution.datasources.hbase.SqlAnalyze
分析HFILE對應：org.apache.spark.hfile.SparkAnalyzeHFILE

原文連結：http://blog.itpub.net/31562040/viewspace-2285172

【轉載】HBase實踐 | 使用Spark分析雲HBase的資料

雲HBase具有很好的線上入庫和查詢能力，不過在分析上面有比較大的欠缺，這篇文章主要介紹如何使用Spark對雲HBase中資料做複雜分析。 1 雲HBase查詢分析的現狀 HBase原生API：HBase原生API適合基於row key做點查，這個是HBase最擅長的查詢場景 Phoeni

【轉載】Hadoop 2.7.3 和Hbase 1.2.4安裝教程

啟動運行 property new rop net 文本文 .tar.gz cor 轉載地址：http://blog.csdn.net/napoay/article/details/54136398 目錄(?)[+] 一、機器環境

【轉載++】C/C++錯誤分析errno,perror,strerror和GetLastError()函數返回的錯誤代碼的意義

urn ali blog 查看情況下常見 ast mos 運行本文是上一篇“fopen返回0（空指針NULL）且GetLastError是0”的側面回應。聽趕來多麽地正確和不容置疑，返回NULL時調用GetLastError來看看報錯啊，但當時卻返回了0，大家都覺得系

【轉載】網站從百度雲轉入阿裏雲服務器怎麽操作

阿裏阿裏雲服務 bit bsp 使用 htm 主體信息怎麽今天遇到過一個朋友的網站一開始放置在百度雲服務器上運行，但後面決定不再使用百度雲，新購了一臺阿裏雲服務器，準備將網站應用從百度雲服務器上遷移到阿裏雲服務器上，詳細查閱了相關資料後發現，從百度雲遷移到阿裏雲，域

【MVC】.NET實踐（四）—新增資料到資料庫

1、在主介面Index.cshtml新增“新增”的連結 <tr> <td colspan="4"> @Html.ActionLink("新增",

【轉載】 Spark性能優化指南——基礎篇

否則內存占用是否進行優先邏輯我們流式字節數組前言開發調優調優概述原則一：避免創建重復的RDD 原則二：盡可能復用同一個RDD 原則三：對多次使用的RDD進行持久化原則四：盡量避免使用shuffle類算子原則五：使用map-side預聚

【轉載】Spark學習——spark中的幾個概念的理解及參數配置

program submit man 聯眾 tail 進行 orb 數據源 work 首先是一張Spark的部署圖：節點類型有： 1. master 節點：常駐master進程，負責管理全部worker節點。2. worker 節點：常駐worker進程，負責管理

【轉載】Apache Spark Jobs 性能調優（二）

放棄 instance bar 並行處理 defaults 執行 .exe nag 原則調試資源分配 Spark 的用戶郵件郵件列表中經常會出現 “我有一個500個節點的集群，為什麽但是我的應用一次只有兩個 task 在執行”，鑒於 Spark 控制資源使用的參數的數

【轉載】Apache Spark Jobs 性能調優（一）

功能 dso brush 數據結構 nsf 必須 char dal 開始當你開始編寫 Apache Spark 代碼或者瀏覽公開的 API 的時候，你會遇到各種各樣術語，比如 transformation，action，RDD 等等。了解到這些是編寫 Spark 代碼

【轉載】TCP粘包問題分析和解決（全）

刪除而且實例報文底層 nagle 存在 ngxin 想想 TCP通信粘包問題分析和解決（全）在socket網絡程序中，TCP和UDP分別是面向連接和非面向連接的。因此TCP的socket編程，收發兩端（客戶端和服務器端）都要有成對的socket，因此，發送端為了將

【轉載】Android Bug分析系列：第三方平臺安裝app啟動後，home鍵回到桌面後點擊app啟動時會再次啟動入口類bug的原因剖析

特殊返回 androidm android系統圖片管理相關 OS 簡便前言　　前些天，測試MM發現了一個比較奇怪的bug。　　具體表現是：　　1、將app包通過電腦QQ傳送到手機QQ上面，點擊安裝，安裝後選擇打開app （此間的應用邏輯應該是要觸發【閃屏頁

關於ftp響應碼的分析【轉載】

pro 授權 sys his opened closed 流量有時 dom 轉載地址： http://www.jb51.net/article/26649.htm 1開頭-成功 2開頭-成功 3開頭-權限問題 4開頭-文件問題 5開頭-服務器問題 150 FILE

【轉載】使用阿裏雲code和git管理項目

雲端 keyword strong 傳輸 windows ring fsharp string 訪問使用代碼雲托管和git來管理項目可以使多客戶端和多人開發更加高效。通過對比github，bitbucket和國內一些雲托管服

【轉載】主成分分析法（PCA）

差異投影 3D 方式分享 alt 訓練矩陣 9.png https://www.jisilu.cn/question/252942 進行維數約減（Dimensionality Reduction），目前最常用的算法是主成分分析法 (Principal Componet

【轉載】C++ 智慧指標（shared_ptr/weak_ptr）原始碼分析

發現一篇對C++11智慧指標分析很透徹的文章，特轉載備忘！以下轉載自：https://blog.csdn.net/ithiker/article/details/51532484?utm_source=blogxgwz1 C++11目前已經引入了unique_ptr, shared_pt

【轉載】阿里雲這群瘋子

世事安穩，歲月靜好。電影裡才有瘋子。麥克墨菲在瘋人院裡帶領一群精神病人揭竿而起，懟天懟地；餓了三天的黑皮為了搶一口麵包被店主追上高架橋，末路狂奔；傑克和泰勒在午夜的搏擊俱樂部裡揮拳相向，鮮血淋漓。螢幕對面，我們把爆米花塞進嘴裡，哭成狗或者笑成狗。電影散場，各自回家。真正的瘋子，從來不看電影。

【轉載】Elasticsearch－基礎介紹及索引原理分析

ES基礎資料結構分析的非常透徹，倒排索引，跳錶，壓縮技巧，聯合索引等轉載：https://www.cnblogs.com/dreamroute/p/8484457.html 最近在參與一個基於Elasticsearch作為底層資料框架提供大資料量(億級)的實時統計查詢的方案設計工作，花

【轉載】RESTful API 最佳實踐

作者：阮一峰日期： 2018年10月 3日 RESTful 是目前最流行的 API 設計規範，用於 Web 資料介面的設計。它的大原則容易把握，但是細節不容易做對。本文總結 RESTful 的設計細節，介紹如何設計出易於理解和使用的 API。

【轉載】spring-session負載均衡原理分析

註明轉載：https://www.jianshu.com/p/beaf18704c3c 第一部分：我會用循序漸進的方式來展示原始碼，從大家最熟悉的地方入手，而不是直接從系統啟動來debug原始碼。直接debug原始碼看到後來大家都會一頭霧水。本文先從request.getSession()開始

java動態代理實現與原理詳細分析（【轉載】By--- Gonjan ）

【轉載】By--- Gonjan 關於Java中的動態代理，我們首先需要了解的是一種常用的設計模式--代理模式，而對於代理，根據建立代理類的時間點，又可以分為靜態代理和動態代理。一、代理模式