1. 程式人生 > >Hadoop 2.x與3.x 22點比較:3.x將節省大量儲存空間

Hadoop 2.x與3.x 22點比較:3.x將節省大量儲存空間

問題導讀
1.Hadoop3.x通過什麼方式來容錯?
2.Hadoop3.x儲存開銷減少了多少?
3.Hadoop3.x MR API是否相容hadoop1.x?

 

        在這篇文章中,我們將討論Hadoop 2.x與Hadoop 3.x之間的比較。 Hadoop3版本中添加了哪些新功能,Hadoop3中相容的Hadoop 2程式,Hadoop 2和Hadoop 3有什麼區別?  

 Hadoop 2.x與Hadoop 3.x比較

本節將講述Hadoop 2.x與Hadoop 3.x之間的22個差異。 現在讓我們逐一討論

2.1License
Hadoop 2.x - Apache 2.0,開源
Hadoop 3.x - Apache 2.0,開源

2.2支援的最低Java版本
Hadoop 2.x - java的最低支援版本是java 7
Hadoop 3.x - java的最低支援版本是java 8

2.3容錯
Hadoop 2.x - 可以通過複製(浪費空間)來處理容錯。
Hadoop 3.x - 可以通過Erasure編碼處理容錯。

2.4資料平衡
Hadoop 2.x - 對於資料平衡使用HDFS平衡器。
Hadoop 3.x - 對於資料平衡使用Intra-data節點平衡器,該平衡器通過HDFS磁碟平衡器CLI呼叫。

2.5儲存Scheme
Hadoop 2.x - 使用3X副本Scheme
Hadoop 3.x - 支援HDFS中的擦除編碼。

2.6儲存開銷
Hadoop 2.x - HDFS在儲存空間中有200%的開銷。
Hadoop 3.x - 儲存開銷僅為50%。

2.7儲存開銷示例
Hadoop 2.x - 如果有6個塊,那麼由於副本方案(Scheme),將有18個塊佔用空間。
Hadoop 3.x - 如果有6個塊,那麼空間9個塊,中6塊空間,3塊用於奇偶校驗。

2.8YARN時間線服務
Hadoop 2.x - 使用具有可伸縮性問題的舊時間軸服務。
Hadoop 3.x - 改進時間線服務v2並提高時間線服務的可擴充套件性和可靠性。

2.9預設埠範圍
Hadoop 2.x - 在Hadoop 2.0中,一些預設埠是Linux臨時埠範圍。所以在啟動時,他們將無法繫結。
Hadoop 3.x - 但是在Hadoop 3.0中,這些埠已經移出了短暫的範圍。

2.10工具
Hadoop 2.x - 使用Hive,pig,Tez,Hama,Giraph和其他Hadoop工具。
Hadoop 3.x - 可以使用Hive,pig,Tez,Hama,Giraph和其他Hadoop工具。

2.11相容的檔案系統
Hadoop 2.x - HDFS(預設FS),FTP檔案系統:它將所有資料儲存在可遠端訪問的FTP伺服器上。 Amazon S3(簡單儲存服務)檔案系統Windows Azure儲存Blob(WASB)檔案系統。
Hadoop 3.x - 它支援所有前面以及Microsoft Azure Data Lake檔案系統。

2.12Datanode資源
Hadoop 2.x - Datanode資源不專用於MapReduce,我們可以將它用於其他應用程式。
Hadoop 3.x - 此處資料節點資源也可用於其他應用程式。

2.13MR API相容性
Hadoop 2.x - 與Hadoop 1.x程式相容的MR API,可在Hadoop 2.X上執行
Hadoop 3.x - 此處,MR API與執行Hadoop 1.x程式相容,以便在Hadoop 3.X上執行

2.14支援Microsoft Windows
Hadoop 2.x - 它可以部署在Windows上。
Hadoop 3.x - 它也支援Windows。

2.15插槽/容器
Hadoop 2.x - Hadoop 1適用於插槽的概念,但Hadoop 2.X適用於容器的概念。通過容器,我們可以執行通用任務。
Hadoop 3.x - 它也適用於容器的概念。

2.16單點故障
Hadoop 2.x - 具有SPOF的功能,因此只要Namenode失敗,它就會自動恢復。
Hadoop 3.x - 具有SPOF的功能,因此只要Namenode失敗,它就會自動恢復,無需人工干預就可以克服它。

2.17HDFS聯盟
Hadoop 2.x - 在Hadoop 1.0中,只有一個NameNode來管理所有Namespace,但在Hadoop 2.0中,多個NameNode用於多個Namespace。
Hadoop 3.x - Hadoop 3.x還有多個名稱空間用於多個名稱空間。

2.18可擴充套件性
Hadoop 2.x - 我們可以擴充套件到每個群集10,000個節點。
Hadoop 3.x - 更好的可擴充套件性。 我們可以為每個群集擴充套件超過10,000個節點。

2.19更快地訪問資料
Hadoop 2.x - 由於資料節點快取,我們可以快速訪問資料。
Hadoop 3.x - 這裡也通過Datanode快取我們可以快速訪問資料。

2.20HDFS快照
Hadoop 2.x - Hadoop 2增加了對快照的支援。 它為使用者錯誤提供災難恢復和保護。
Hadoop 3.x - Hadoop 2也支援快照功能。

2.21平臺
Hadoop 2.x - 可以作為各種資料分析的平臺,可以執行事件處理,流媒體和實時操作。
Hadoop 3.x - 這裡也可以在YARN的頂部執行事件處理,流媒體和實時操作。

2.22群集資源管理
Hadoop 2.x - 對於群集資源管理,它使用YARN。 它提高了可擴充套件性,高可用性,多租戶。
Hadoop 3.x - 對於叢集,資源管理使用具有所有功能的YARN。 

 

轉載註明本文連結

http://www.aboutyun.com/forum.php?mod=viewthread&tid=25140