呼之欲出！比Spark快10倍的Hadoop3.0有哪些實用新特性？

阿新 • • 發佈：2019-01-20

Apache hadoop 專案組最新訊息，hadoop3.x以後將會調整方案架構，將Mapreduce 基於記憶體+io+磁碟，共同處理資料。

其實最大改變的是hdfs,hdfs 通過最近black塊計算，根據最近計算原則，本地black塊，加入到記憶體，先計算，通過IO，共享記憶體計算區域，最後快速形成計算結果。

1. Hadoop 3.0簡介

Hadoop 2.0是基於JDK 1.7開發的，而JDK 1.7在2015年4月已停止更新，這直接迫使Hadoop社群基於JDK 1.8重新發佈一個新的Hadoop版本，而這正是hadoop 3.0。

Hadoop 3.0的alpha版預計今年夏天釋出，

GA版本11月或12月釋出。

Hadoop 3.0中引入了一些重要的功能和優化，包括HDFS 可擦除編碼、多Namenode支援、MR Native Task優化、YARN基於cgroup的記憶體和磁碟IO隔離、YARN container resizing等。

2. Hadoop 3.0新特性

Hadoop 3.0在功能和效能方面，對hadoop核心進行了多項重大改進，主要包括：

2.1 Hadoop Common

（1）精簡Hadoop核心，包括剔除過期的API和實現，將預設元件實現替換成最高效的實現（比如將FileOutputCommitter預設實現換為v2版本，廢除

hftp轉由webhdfs替代，移除Hadoop子實現序列化庫org.apache.hadoop.Records

（2）Classpath isolation以防止不同版本jar包衝突，比如google Guava在混合使用Hadoop、HBase和Spark時，很容易產生衝突。（https://issues.apache.org/jira/browse/HADOOP-11656）

（3）Shell指令碼重構。 Hadoop 3.0對Hadoop的管理指令碼進行了重構，修復了大量bug，增加了新特性，支援動態命令等。https://issues.apache.org/jira/browse/HADOOP-9902

2.2 Hadoop HDFS

（1）HDFS支援資料的擦除編碼，這使得HDFS在不降低可靠性的前提下，節省一半儲存空間。（https://issues.apache.org/jira/browse/HDFS-7285）

（2）多NameNode支援，即支援一個叢集中，一個active、多個standby namenode部署方式。注：多ResourceManager特性在hadoop 2.0中已經支援。（https://issues.apache.org/jira/browse/HDFS-6440）

2.3 Hadoop MapReduce

（1）Tasknative優化。為MapReduce增加了C/C++的map output collector實現（包括Spill，Sort和IFile等），通過作業級別引數調整就可切換到該實現上。對於shuffle密集型應用，其效能可提高約30%。（https://issues.apache.org/jira/browse/MAPREDUCE-2841）

（2）MapReduce記憶體引數自動推斷。在Hadoop 2.0中，為MapReduce作業設定記憶體引數非常繁瑣，涉及到兩個引數：mapreduce.{map,reduce}.memory.mb和mapreduce.{map,reduce}.java.opts，一旦設定不合理，則會使得記憶體資源浪費嚴重，比如將前者設定為4096MB，但後者卻是“-Xmx2g”，則剩餘2g實際上無法讓java heap使用到。（https://issues.apache.org/jira/browse/MAPREDUCE-5785）

2.4 Hadoop YARN

（1）基於cgroup的記憶體隔離和IO Disk隔離（https://issues.apache.org/jira/browse/YARN-2619）

（2）用curator實現RM leader選舉（https://issues.apache.org/jira/browse/YARN-4438）

（3）containerresizing（https://issues.apache.org/jira/browse/YARN-1197）

（4）Timelineserver next generation （https://issues.apache.org/jira/browse/YARN-2928）

以下是hadoop-3.0的最新引數

hadoop-3.0

HADOOP
- Move to JDK8+
- Classpath isolation on by defaultHADOOP-11656
- Shell script rewriteHADOOP-9902
- Move default ports out of ephemeral rangeHDFS-9427
HDFS
- Removal of hftp in favor of webhdfsHDFS-5570
- Support for more than two standbyNameNodesHDFS-6440
- Support for Erasure Codes in HDFSHDFS-7285
YARN
MAPREDUCE
- Derive heap size or mapreduce.*.memory.mb automaticallyMAPREDUCE-5785

在HDFS-7285中,實現了Erasure Coding這個新功能.鑑於此功能還遠沒有到釋出的階段,可能後面此塊相關的程式碼還會進行進一步的改造,因此只是做一個所謂的預分析,幫助大家提前瞭解Hadoop社群目前是如何實現這一功能的.本人之前也沒有接觸過Erasure Coding技術,中間過程也確實有些偶然,相信本文可以帶給大家收穫.

Erasure coding糾刪碼技術簡稱EC,是一種資料保護技術.最早用於通訊行業中資料傳輸中的資料恢復,是一種編碼容錯技術.他通過在原始資料中加入新的校驗資料,使得各個部分的資料產生關聯性.在一定範圍的資料出錯情況下,通過糾刪碼技術都可以進行恢復.下面結合圖片進行簡單的演示,首先有原始資料n個,然後加入m個校驗資料塊.如下圖所示:

Parity部分就是校驗資料塊,我們把一行資料塊組成為Stripe條帶,每行條帶由n個數據塊和m個校驗塊組成.原始資料塊和校驗資料塊都可以通過現有的資料塊進行恢復,原則如下:

如果校驗資料塊發生錯誤,通過對原始資料塊進行編碼重新生成如果原始資料塊發生錯誤, 通過校驗資料塊的解碼可以重新生成。

而且m和n的值並不是固定不變的，可以進行相應調整。可能有人會好奇，這其中到底是什麼原理呢? 其實道理很簡單，你把上面這圖看成矩陣，由於矩陣的運算具有可逆性，所以就能使資料進行恢復，給出一張標準的矩陣相乘圖，大家可以將二者關聯。

3.Hadoop3.0總結

Hadoop 3.0的alpha版預計今年夏天釋出，GA版本11月或12月釋出。

Hadoop 3.0中引入了一些重要的功能和優化，包括HDFS可擦除編碼、多Namenode支援、MR Native Task優化、YARN基於cgroup的記憶體和磁碟IO隔離、YARN container resizing等。

呼之欲出！比Spark快10倍的Hadoop3.0有哪些實用新特性？

1. Hadoop 3.0簡介

2. Hadoop 3.0新特性

2.1 Hadoop Common

2.2 Hadoop HDFS

2.3 Hadoop MapReduce

2.4 Hadoop YARN

hadoop-3.0

3.Hadoop3.0總結

呼之欲出！比Spark快10倍的Hadoop3.0有哪些實用新特性？

一個比 webpack 快10倍的打包工具

TDengine能比Hadoop快10倍?

比傳統事務快10倍？一張圖讀懂阿裏雲全局事務服務GTS

比Hive快800倍！大資料實時分析領域黑馬開源ClickHouse

比Gson解析速度快10倍!——Json解析神器Jackson使用介紹

最快捷的自動化裝機解決方案--比cobbler 方便10倍

荷蘭研究人員提突破性想法：用紅外線傳輸網絡_比WiFi快100倍

比MySQL快60倍 redis從入門到精通視頻教程

Protobuf有沒有比JSON快5倍？用代碼來擊破pb性能神話

比Selenium快100倍的方法爬東方財富網財務報表

人家寫了十五年的程式碼！總結出提升 10 倍效率的三件事！非常受用

比MySQL快6倍深度解析國內首個雲原生資料庫POLARDB的“王者榮耀”

Python學習筆記-SQLSERVER的大批量匯入以及日常操作（比executemany快3倍）

DeepMind詳解新WaveNet：比原來快千倍，語音更自然 | 附論文（轉） DeepMind詳解新WaveNet：比原來快千倍，語音更自然 | 附論文

[UE4]藍圖比C++慢10倍，是嗎？

比Hive快279倍的資料庫-ClickHouse到底是怎樣的

Linux下比find快N倍的檔案查詢命令

Android zar高速掃碼程式，（比zxing快很多倍），包更小，掃碼介面Xml佈局。

只需3步讓你電腦瞬間變快10倍

呼之欲出！比Spark快10倍的Hadoop3.0有哪些實用新特性？

1. Hadoop 3.0簡介

2. Hadoop 3.0新特性

2.1 Hadoop Common

2.2 Hadoop HDFS

2.3 Hadoop MapReduce

2.4 Hadoop YARN

hadoop-3.0

3.Hadoop3.0總結

相關推薦