Apache CarbonData :一種為更加快速資料分析而生的新Hadoop檔案版式

阿新 • • 發佈：2019-02-09

用例和動機：為什麼介紹一種新的檔案格式？

用例: 順序掃描

這裡寫圖片描述

全表掃描
- 大掃描(全行, 沒過濾)
- 只獲取表的幾列作為查詢結果
通常的使用場景:
- ETL工作
- 日誌分析

用例:隨機訪問

這裡寫圖片描述

在很多列進行過濾(點查詢)
- 行鍵值查詢 (比如HBase)
- 窄掃描但可能要獲取所以列
- 要求秒/亞秒級別的低延遲
通常的使用場景:
- 操作查詢
- 使用者分析

用例：OLAP類查詢

這裡寫圖片描述
- 任意範圍的互動資料分析
- 包括聚合/join
- Roll-up, Drill-down, Slicing and Dicing
- 低延遲的點對點查詢
- 通常的使用場景:
- 儀器報表
- 詐騙&點對點分析

動機

這裡寫圖片描述

為什麼需要CarbonData

基於以下需求，我們研究Hadoop生態系統中現有的檔案格式，但是我們不能找到一個同時滿足所有需求的合適的方法，所以我們開始設計CarbonData。

支援廣掃描& 少列結果
支援在亞秒級響應主鍵查詢
支援大資料上涉及一個查詢中有許多過濾的互動OLAP類查詢, 並能以秒級響應
支援包含全列的單條記錄的快速抽取
支援HDFS以便使用者可以管理正存在的Hadoop叢集

當我們研究Parquet/ORC，它們似乎在R1和R5上表現很好，但是對於R2，R3，R4則不然。所以我們設計CarbonData主要增加以下不同的特性：

帶索引的資料儲存：它可以顯著的提高查詢效能，並且當查詢中有過濾條件，可以減少I/O掃描與CPU資源開銷。CarbonData索引包括多個級別，處理框架可以通過這個索引來減少它需要排程和處理的任務。它也可以在一個更加高效的單元（叫做blocklet）裡面跳躍掃描，而不用掃描整個檔案。

可操作的編碼過的資料：通過支援高效的壓縮和全域性編碼設計，使得可以在已經壓縮/編碼過的資料上進行查詢。資料可以僅當返回結果給使用者的時候才修改，即“惰性實現”。
列組：允許多列組成一個列組，並以行格式進行儲存。這減少了查詢時的行重建的開銷。
用一種資料格式支援多種用例：如互動OLAP類查詢，順序查詢（廣掃描），隨機訪問（窄掃描）。

設計目標

多種資料訪問型別的低延遲
允許壓縮編碼過資料上的快速查詢
確保空間高效性
Hadoop生態系統上可行的通用格式
讀最優化的列式儲存
利用多級索引實現低延遲
支援利用列組來獲得基於行的有點
能夠對聚合的延遲解碼進行字典編碼
貫穿整個廣泛的Hadoop生態體系

深入CarbonData檔案格式

CarbonData檔案結構

這裡寫圖片描述

Blocklet：一個包含列式儲存中的多行的集合
Column chunk：在一個Blocklet中一列/列組的資料
- 允許多列組成一個列組&以行格式進行儲存
- 列資料以有序索引儲存
Footer：元資料資訊
- 檔案級別的元資料&統計資訊
- 表資訊
- Blocklet索引&Blocklet級別元資料
  
  一個CarbonData檔案是一個HDFS塊。

版式

![這裡寫圖片描述](https://img-blog.csdn.net/20160726142453559)

Blocklet

資料根據多維鍵值（MDK）排序
- 在列存中資料以索引儲存

例子：

原始表
編碼

對每列的取值進行Hash，如(QTR1->1),(QTR2->2),……
MDK排序
Blocklet邏輯結構圖

檔案級別Blocklet索引

建立用於過濾的記憶體中的檔案級別MDK索引
為高效掃描做的主要優化

倒排索引

在column chunk選擇性的將列資料儲存為倒排索引
- 取值種類少的列壓縮效果更加好
- 利於快速判斷過濾

例子：

Blocklet

我們需要對每個維度按照鍵值進行排序，但是還要知道每個值原來的行號。所以我們把每個鍵值map成[值，行號]，然後對每個維度按照鍵值進行排序。
倒排索引
Blocklet物理結構圖
- d列儲存內容：值，該行開始往後，有幾行都是存這個值
- r列儲存內容：值，該行開始往後，有幾行都是順序增1的

這裡寫圖片描述

Apache CarbonData :一種為更加快速資料分析而生的新Hadoop檔案版式

用例和動機：為什麼介紹一種新的檔案格式？用例: 順序掃描全表掃描大掃描(全行, 沒過濾) 只獲取表的幾列作為查詢結果通常的使用場景: ETL工作日誌分析用例:隨機訪問在很多列進行過濾(點查詢) 行鍵值查詢

【譯】HTTP/2 為更快速的網站而生

最近在做一個內部的服務對接，使用了Google的gRPC框架，gRPC是基於HTTP/2和protocol buffers實現的，所以額外去了解了一下HTTP/2，找到這這邊文章。這篇文章雖然是寫於2015年時間比較久遠，但是對於HTTP/2的介紹很全面，於是花了些時間翻譯了一下。原文地址：https:/

一種基於收看直播資料分發亂序丟包處理方法

最近接到一個關於收看直播資料包亂序處理任務，服務端會一直在輪詢傳送直播的資料（也可以是升級包資料），附帶有包序號和總包數以及每包的長度，各個終端接收直播資料，直到資料全部接收完為止；一般領導安排任務的時候都是三兩句話的功夫，程式設計師可能就需要兩三天來實現這個需求，排除大神之外，我們都是再普通

【厲害了FPGA】Verilog實現接收幀資料的一種方法（幀資料同步搜尋檢測）

FPGA和其他裝置進行通訊的時候，如果傳輸的是大量資料，肯定需要打包（組幀）進行傳輸，而且都需要有幀頭和校驗位來確保幀資料傳輸正確。今天說一下最近自己做的一個專案涉及到的這個問題。當FPGA作為接收端去接收幀資料的時候，即使保證一幀資料的幀頭是正確的，而且校驗

codeforces上一種應對大測試資料debug方法

Each New Year Timofey and his friends cut down a tree of n vertices and bring it home. After that they paint all the n its vertices, so that the i-th ve

一種跨平臺的快速鎖

C++11釋出了四種不同的用於跨平臺的鎖，但其為了誇平臺做了很多工作，在需要效能要求的情況下，大量的呼叫枷鎖解鎖必定會導致效率問題（現在計算機都這麼快了這點運算其實又算得了什麼呢，以後就不拿效能當幌子了），實際上在C++11釋出之前就寫好了一個誇平臺的鎖（大部分平

linux環境下的一種退出後快速返回的方法

在做專案開發的時候，shell環境是很重要的，一旦汙染了環境：如，改變了某個關鍵路徑，或修改了配置指令碼，就需要校正，一般的做法就是exit當前環境，重新登入，再source環境重來。重新利用source來設定環境這些都是必須的，如何返回到退出exit時的目錄是有技巧的

grabcut in one-cut 一種好用快速的影象分割演算法

2013年iCCV上的這篇論文，提出了一種快速的基於簡單互動的分割演算法，本篇博文是對該論文的解讀。Tang M, Gorelick L, Veksler O, et al. GrabCut inOne Cut[C]// IEEE International Co

它，為資料中心而生

“我，為資料中心而生” 如果希捷Exos X14是一個真實的人類的話，在它的微博上一定是這麼一個“官宣”。作為一款專為超大規模資料中心而生的企業級硬碟，Exos X14從一推出就頗受大家的關注。Exos X14企業級硬碟具有優化的面密度，從而賦予了3.5英寸盤身更強大儲存能力。充

進階 | 一文讀懂大資料分析及挖掘技術

隨著大資料時代的到來，在大資料觀念不斷提出的今天，加強資料大資料探勘及時的應用已成為大勢所趨。什麼是大資料探勘？資料探勘（Data Mining）是從大量的、不完全的、有噪聲的、模糊的、隨機的資料中提取隱含在其中的、人們事先不知道的、但又是潛在有用的資

十種常用的的資料分析思路，你都知道嗎？

道家強調四個字，叫“道、法、術、器”。層次區別：“器”是指物品或工具，在資料分析領域指的就是資料分析的產品或工具，“工欲善其事，必先利其器”； “術”是指操作技術，是技能的高低、效率的高

C#兩種方式獲取指定資料夾下所有子目錄及檔案

using System.IO; /// <summary> /// 獲取指定目錄下的所有資料夾名 /// </summary> /// <param name="path">目錄路徑</param> /// <

使用Apache Spark和MySQL打造強大的資料分析

藉助真實案例和程式碼樣本，本文作者展示瞭如何將Sparke和MySQL結合起來，創造資料分析上的強大工具。 Apache Spark是一個類似Apache Hadoop的叢集計算框架，在Wikipedia上有大量描述：Apache Spark是一個開源叢集計算框架，出自加州大學伯克利分校的AMPLa

為資料安全而生，阿里雲容災備份方案場景實踐解析

摘要：數字經濟時代，資料正以超出想象的速度快速增長。短短几年，資料量已經從TB級別躍升到PB乃至ZB級別。數字經濟時代，資料正以超出想象的速度快速增長。短短几年，資料量已經從TB級別躍升到PB乃至ZB級別。根據相關研究機構調查結果顯示，2017 年全年資料總量將超過

四個步驟教你寫好一款產品的運營資料分析報告（轉）

收藏~ 遊戲運營期間，我們可以在後臺看到一堆遊戲相關資料，對於這些資料我們要怎麼怎麼進行處理分析呢？下面將圍繞一份報告例項做詳細的分析。內容主要包括分析目標、分析綜述、一週運營資料分析、運營資料總體分析四塊內容一、確定分析目標分析目標主要包括以下三個方面： ●

以電商為例，資料分析的5個思維方法

http://www.datasoldier.net/post/5siwei.html 在博主雪言舟語看來，資料分析真的很重要，能從一堆看似雜亂的資料裡，找到問題並解決問題。從資料上的變化，來判斷甄別效果得失；簡直是居家旅行，運營生意的必備良品。首先，我們要知道

28歲身價300億的郭盛華，為保衛祖國網路安全而生

　　今天小編給大家介紹下中國最具傳奇色彩的“黑客教父”，他叫郭盛華，生於廣東一個貧窮的農民家庭。他白手起家，如今28歲身價300億的郭盛華，為保衛祖國網路安全而生。其實一個人沒有辦法決定自己的出身，但是卻有資格改變他的出身，最重要的是不是能否改變自己的命運。　　換句話說，郭盛華正是因為出

Data Lake Analytics-資料分析時代迎來新變革

前言近期阿里雲重磅推出新的資料分析引擎Data Lake Analytics，Data Lake Analytics是Serverless化的互動式聯邦查詢服務。無需ETL，使用標準SQL即可分析與整合物件儲存(OSS)、資料庫(PostgreSQL/MyS

BTBTOP為解決買幣痛點而生

數字貨幣市場極速發展，交易遇到諸多痛點數字貨幣的發展從最開始的類似實驗性的產品只有極少數人嘗試到後來小範圍內應用，從概念提出到進入市場和公眾視野，再到專案開始有實際落地和產業的升級，數字貨幣的每一步發展對全球經濟產生了潛移默化的影響和以及價值，這一觀點成共識。進入

一種快速將markdown轉換為html的方法

在一些Java Web專案中需要用markdown來寫文章並儲存到資料庫中，從資料庫中讀取出來需要轉換為html格式的程式碼段才能正確顯示文章。將markdown 轉換為 html 有很多種方法

Apache CarbonData :一種為更加快速資料分析而生的新Hadoop檔案版式

用例和動機：為什麼介紹一種新的檔案格式？

用例: 順序掃描

用例:隨機訪問

用例：OLAP類查詢

動機

為什麼需要CarbonData

設計目標

深入CarbonData檔案格式

CarbonData檔案結構

版式

Blocklet

例子：

檔案級別Blocklet索引

倒排索引

例子：

相關推薦