orcFile split和讀數據原理總結（hive0.13）

阿新 • • 發佈：2018-03-15

etime cit .net ack 處理 gem gravity AC col

http://blog.csdn.net/zhaorongsheng/article/details/72903431

官網關於orcfile的介紹

背景

Hive的rcfile格式已經使用多年，但是，它會將所有的列都當做二進制來處理，沒有與類型掛鉤。因此，Hive0.11版本引入orcFile。OrcFile有以下幾點好處：

每個task只生成一個文件，減輕hdfs壓力
保存列類型，支持datetime, decimal和負責類型(struct, list, map, and union)
文件中保存輕量級索引
- 跳過不需的row group
- seek到指定的row
根據列類型進行壓縮
- 整數類型：run-length encoding
- string類型：dictionary encoding
不同的recordReader並發讀同一文件
split時，無需掃描標記
可以限制讀寫占用的內存
使用pb存放元數據，支持添加和移除列

結構

技術分享圖片
（圖片來源：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC）

orc dump工具

// Hive version 0.11 through 0.14:
hive --orcfiledump <location-of-orc-file>

// Hive version 0.15 and later:
hive --orcfiledump [-d] [--rowindex <col_ids>] <location-of-orc-file>

// Hive version 1.2.0 and later:
hive --orcfiledump [-d] [-t] [--rowindex <col_ids>] <location-of-orc-file>

// Hive version 1.3.0 and later:
hive --orcfiledump [-j] [-p] [-d] [-t] [--rowindex <col_ids>] [--recover] [--skip-dump] 
    [--backup-path <new-path>] <location-of-orc-file-or-directory>

配置

KEY	Default	Notes
orc.compress	ZLIB	壓縮算法，NONE/ZLIB/SNAPPY
orc.compress.size	262,144	每個壓縮塊大小，也是壓縮保存stripe數據緩存大小
orc.stripe.size	67,108,864	stripe大小
orc.row.index.stride	10,000	索引數據間隔行（必須>=1000），即每10,000行數據，建一次索引，也是劃分rowGroup的依據
orc.create.index	true	是否建行級索引

split讀取原理

涉及配置
- hive.optimize.index.filter
  - 默認值：false
  - 意義：
    - 是否使用索引優化物理執行計劃
    - 是否將條件下推到TableScanOperator中（讀取數據、做split時會使用此條件信息）
  - orcFile需要設置為true，才能獲取到過濾條件，進行stripe過濾
- hive.exec.orc.zerocopy
  - 默認：false
  - 讀取orc文件時，是否使用0拷貝
- hive.input.format
  - 默認：CombineHiveInputFormat
  - 當使用combine方式時，會將小文件進行合並，但是不會用到OrcInputFormat的過濾stripe機制
  - 當使用org.apache.hadoop.hive.ql.io.HiveInputFormat，會調用OrcInputFormat的getSplits方法，過濾不符合要求的stripe
開啟條件及優缺點
這裏只討論非combine方式的split個讀取方式。
- 觸發條件：
  - set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;（必選）
  - set hive.optimize.index.filter=true;（可選）
    - 是否條件下推到TS，進行條件過濾，建議開啟
  - set hive.exec.orc.zerocopy=true;（可選）
    - 讀取orc文件，是否使用0拷貝，建議開啟
- 上述3個配置都開啟情況
  - 優點：
    - 做split時：
      - 可以將不符合條件的stripe提前過濾，減少map個數
    - 讀取時：
      - 可以直接跳過不符合條件的rowGroup，無需讀取多余的數據
  - 缺點：
    - 不會combine，有可能會因為小文件過多，導致map數過多
    - 依賴用戶where條件，如果where條件過濾的數據不是很多，可能不會過濾stripe，導致map數過多（同時增加額外的計算，導致性能有所下降）
原理介紹
- split
  - 步驟1：stripe1，設置offset1和end1
  - 步驟2：stripe2被過濾條件過濾，stripe1則會產生一個split
  - 步驟3：stripe3，設置offset2和end2
  - 步驟4：stripe4和stripe3處於不同的block，stripe3則會產生一個split，offset和end分別指向stripe4的開始和結束位置
  - 步驟5：stripe5，offset不變，end指向stripe5的結束位置
  - 步驟6：stripe6，此時(end4-offset4)>maxSplitSize，stripe4/5/6則會產生一個split
  - 步驟7：stripe7，到達文件結束，stripe7產生一個split
- 讀取
  - 讀取footer：獲取列信息、索引位置信息、數據位置信息等
  - 讀取indexData
    - 根據orc.row.index.stride的值，劃分rowGroup，每個rowGroup的索引數據條數為orc.row.index.stride的值
    - 根據索引數據的信息（max/min)，判斷每個rowGroup是否滿足下推的where條件，實際讀取數據時進行skip
  - 讀取實際數據
    - 讀取每列的數據，當遇到被過濾的rowGroup時，會skip掉，減少讀取的數據量
優缺點
- 優點
  - 可以提前過濾無需的stripe，減少split個數
  - 讀取時，可以過濾不滿足條件的rowGroup，減少讀取數
- 缺點
  - 做split時，stripe不會合並，有可能導致split數比combine方式更多
  - 也有可能數據量少的split數比數據量多的split數多

測試結果

stripeSize為128M
- sql1
  - select log_date,log_time,hh24,area_country,area_prov,area_city from tbl_orc_128M where dt=‘20161109‘ and hh24=‘19‘ andchannel_id=179569143limit 100;
  - combine方式
    - map數：1310
    - 會進行列skip
      - Reading ORC rows from hdfs://bipcluster/bip/external_table/xx/tbl_orc_128M/dt=20161109/000856_0 with {include: [true, true, true, true, false, false, false, false, false, false, false, false, false, false, false, false, false, false, false, false, false, false, true, true, true, false, false, false, false, false, true, false, false, false, false, false, false, false, false, false, false, false, false, false, false, false, false, false, false, false, false, false], offset: 0, length: 225585161}
  - combine方式+條件下推
    - map數：1310
    - 會進行列skip
    - 會進行rowGroup的skip
  - 非combine方式
    - map數：1747
    - 會進行列skip
  - 非combine方式+條件下推
    - map數：43
    - 會進行列skip
    - 會進行rowGroup的skip：
- sql2
  - select log_date,log_time,hh24,area_country,area_prov,area_city from tbl_orc_128M where dt=‘20161109‘ and hh24=‘19‘ limit 100;
  - combine方式
    - map數：1310
    - 會進行列skip
  - combine方式+條件下推
    - map數：1310
    - 會進行列skip
    - 會進行rowGroup的skip
  - 非combine方式
    - map數：1747
    - 會進行列skip
  - 非combine方式+條件下推
    - map數：1747
    - 會進行列skip
    - 會進行rowGroup的skip：
stripeSize為64M
- sql1
  - select log_date,log_time,hh24,area_country,area_prov,area_city from tbl_orc_64M where dt=‘20161109‘ and hh24=‘19‘ andchannel_id=179569143limit 100;
  - combine方式
    - map數：1448
    - 會進行列skip
  - combine方式+條件下推
    - map數：1448
    - 會進行列skip
    - 會進行rowGroup的skip
  - 非combine方式
    - map數：3494
    - 會進行列skip
  - 非combine方式+條件下推
    - map數：0
- sql2
  - select log_date,log_time,hh24,area_country,area_prov,area_city from tbl_orc_64M where dt=‘20161109‘ and hh24=‘19‘ limit 100;
  - combine方式
    - map數：1448
    - 會進行列skip
  - combine方式+條件下推
    - map數：1448
    - 會進行列skip
    - 會進行rowGroup的skip
  - 非combine方式
    - map數：3494
    - 會進行列skip
  - 非combine方式+條件下推
    - map數：3494
    - 會進行列skip
    - 會進行rowGroup的skip：

參考文檔

orc和parquet比較

orcFile split和讀數據原理總結（hive0.13）

etime cit .net ack 處理 gem gravity AC col http://blog.csdn.net/zhaorongsheng/article/details/72903431 官網關於orcfile的介紹背景 Hive的rcfile格式已經使

orcFile split和讀資料原理總結（hive0.13）

背景 Hive的rcfile格式已經使用多年，但是，它會將所有的列都當做二進位制來處理，沒有與型別掛鉤。因此，Hive0.11版本引入orcFile。OrcFile有以下幾點好處：每個task只生成一個檔案，減輕hdfs壓力儲存列型別，支援date

爬蟲原理與數據抓取-----（了解）通用爬蟲和聚焦爬蟲

網頁特殊 mon 相關百度 engine links 標準數據抓取通用爬蟲和聚焦爬蟲根據使用場景，網絡爬蟲可分為通用爬蟲和聚焦爬蟲兩種. 通用爬蟲通用網絡爬蟲是捜索引擎抓取系統（Baidu、Google、Yahoo等）的重要組成部分。主要目的是將互聯

世界碰撞演算法原理和總結（sat gjk）

序言此文出於作者的想法，從各處文章和論文中，總結和設計專案中碰撞結構處理方法。如有其它見解，可以跟作者商討。（楊子劍，[email protected]）。在一個世界中，有多個物體，物體可以分為運動的物體和靜止的物體和地形。而世界是很寬廣的，本文致力在處理物體之

CSS寫作建議和性能優化總結（未完待續）

小結 body 補充代碼寫作體積性能優化 logs 一點這裏是我從網上的一篇文章看過來的，這裏先做一點小結，之後再補充。 1.CSS渲染規則今天在微博的一篇文章上看到的，之前我都以為渲染是從左往右渲染。發現我的想法是錯的。之所以采用從右往左的渲染規則，是因為這樣

Linux學習總結（十四）文件的打包和壓縮

tar gzip bzip2 xz zip 文件的壓縮和打包，在windos下我們很熟悉.rar和.zip文件，這是兩種壓縮文件，他們支持單個文件和多個文件的壓縮。windos下我們不提及打包的概念，雖然多個文件的壓縮肯定存在打包過程。打包和壓縮的區別，從字面意思就可以看出，打包是將多個文

Java學習總結（十五）——MySQL數據庫（上）—增，刪，改與部分查詢語句

MySQL數據庫增刪改查一．MySQL簡介及在DOS下操作MySQL1.MySQL是一種中型關系型數據庫管理系統（DBMS,Database Management System）。註意：關系型數據庫是按照表的方式存儲數據的2.DOS環境下操作MySQL（1）進入MySQL環境：（

Java學習總結（十六）——MySQL數據庫（中）分組，嵌套，連接查詢及外鍵與關系表設計

MySQL數據庫分組查詢連接查詢子查詢外鍵與關系表設計一．分組查詢 1.語法：group by 分組字段1[,分組字段2,.........] [having 分組後的篩選條件]2.註意：分組字段應該與select後的查詢字段一致，否則查詢結果無意義3.分組查詢經常會與聚合函

Java學習總結（十七）——MySQL數據庫（3）存儲過程，觸發器，數據庫權限，數據庫設計三大範式

MySQL數據庫存儲過程觸發器 MySQL數據庫權限數據庫設計三大範式一.MySQL存儲過程1.概念：帶有邏輯的sql語句，之前的sql語句中沒有條件判斷，沒有循環，存儲過程中帶上流程控制語句。 2.特點：（1）執行效率非常快，存儲過程是在數據庫的服務端執行的；（2）移植性很差，

Linux虛擬地址空間布局以及進程棧和線程棧總結（轉）

開始系統初始後來文本 lov fault 和數 ps命令變量大小一：Linux虛擬地址空間布局（轉自：Linux虛擬地址空間布局) 在多任務操作系統中，每個進程都運行在屬於自己的內存沙盤中。這個沙盤就是虛擬地址空間(Virtual Address Spac

java基礎學習總結（十一）：自動裝箱和自動拆箱

自動拆箱和自動裝箱 Java為每種基本資料型別都提供了對應的包裝器型別。舉個例子： public class TestMain { public static void main(String[] args) { Integer i = 10; } }

Java：Future、Callable和FutureTask原理解析（學習筆記）

Future表示一個任務的生命週期，並提供了方法來判斷是否已經完成或取消，以及獲取任務的結果和取消任務等。Future介面： public interface Future<V> { boolean cancel(boolean mayInterruptIfRunni

Java併發程式設計和高併發學習總結（一）-大綱

系列開篇語想寫這樣一個東西很久了，在慕課網上學完某老師的課程（避免打廣告的嫌疑就不貼出來了，感興趣的同學可以去慕課網上去搜來看看，是個付費課程）之後就覺得應該有這樣的一個學習總結的東西來，後來因為懶又有其他事情耽誤了，然後又上了新專案（正好拿來練手了，當然

演算法的時間複雜度和空間複雜度-總結（轉）

演算法的時間複雜度和空間複雜度-總結通常，對於一個給定的演算法，我們要做兩項分析。第一是從數學上證明演算法的正確性，這一步主要用到形式化證明的方法及相關推理模式，如迴圈不變式、數學歸納法等。而在證明演算法是正確的基礎上，第二部就是分析演算法的

Java記憶體模型原理總結（轉自51CTO）

轉載地址：http://developer.51cto.com/art/201811/587220.htm 【51CTO.com原創稿件】這篇文章主要介紹模型產生的問題背景，解決的問題，處理思路，相關實現規則，環環相扣，希望讀者看完這篇文章後能對 Java 記憶體模型體系產生一個相對清晰的理解，知其然知其所

物件屬性的點表示法和方括號表示法的總結（object[i]）

物件屬性的點表示法和方括號表示法的總結（object[i]）寫專案時遇到的坑，自己來填，共大家參考： var person = { name:'dell' } 習慣上，呼叫物件的屬性，我們一般使用 person.name ，但其實也可以使用person[‘name’]

作業系統知識點總結（十五）檔案層次結構，目錄實現和檔案實現

（一）檔案層次結構現代作業系統有多種檔案系統型別（如FAT32、NTFS、 ext2、ext3、ext4等），因此檔案系統的層次結構也不盡相同。圖4-11是一種合理的層次結構。圖4-11檔案系統層次結構 1) 使用者呼叫介面檔案系統為使用者提供與檔案及目錄有

作業系統知識點總結（十四）檔案保護：檔案訪問型別和訪問控制

為了防止檔案共享可能會導致檔案被破壞或未經核準的使用者修改檔案，檔案系統必須控制使用者對檔案的存取，即解決對檔案的讀、寫、執行的許可問題。為此，必須在檔案系統中建立相應的檔案保護機制。檔案保護通過口令保護、加密保護和訪問控制等方式實現。其中，口令保護和加密保護是為了防止使用者檔案被他人存取或竊

Redis哨兵原理總結（一）

本博文主要總結關於哨兵的一些理論知識，主要關注點有一下幾個方面：一、哨兵解決了什麼問題？二、哨兵是如何解決“問題一”的？三、如何使用哨兵？四、Redis Sentinel客戶端實現的原理是什麼？Java如何操作Redis Sentinel？一、哨兵解決

hadoop學習之路----HDFS原理與基本架構總結（第二講）

第二講主要內容如下1.HDFS特點（也就是HDFS適用什麼場景）2.HDFS缺點（也就是HDFS不適用什麼場景）3.HDFS基本架構4.HDFS工作原理5.下一代HDFS介紹下面主要聊聊其中的各個部分1.HDFS特點（主要出自PPT）主要有以下五點高容錯性資料自動儲存多個副本

orcFile split和讀數據原理總結（hive0.13）

背景

結構

orc dump工具

配置

split讀取原理

測試結果

參考文檔

相關推薦