1. 程式人生 > >學習Hadoop大資料基礎框架

學習Hadoop大資料基礎框架

什麼是大資料?進入本世紀以來,尤其是2010年之後,隨著網際網路特別是移動網際網路的發展,資料的增長呈爆炸趨勢,已經很難估計全世界的電子裝置中儲存的資料到底有多少,描述資料系統的資料量的計量單位從MB(1MB大約等於一百萬位元組)、GB(1024MB)、TB(1024GB),一直向上攀升,目前,PB(等於1024TB)級的資料系統已經很常見,隨著移動個人資料、社交網站、科學計算、證券交易、網站日誌、感測器網路資料量的不斷加大,國內擁有的總資料量早已超出 ZB(1ZB=1024EB,1EB=1024PB)級別。
傳統的資料處理方法是:隨著資料量的加大,不斷更新硬體指標,採用更加強大的CPU、更大容量的磁碟這樣的措施,但現實是:資料量增大的速度遠遠超出了單機計算和儲存能力提升的速度。
而“大資料”的處理方法是:採用多機器、多節點的處理大量資料方法,而採用這種新的處理方法,就需要有新的大資料系統來保證,系統需要處理多節點間的通訊協調、資料分隔等一系列問題。
總之,採用多機器、多節點的方式,解決各節點的通訊協調、資料協調、計算協調問題,處理海量資料的方式,就是“大資料”的思維。其特點是,隨著資料量的不斷加大,可以增加機器數量,水平擴充套件,一個大資料系統,可以多達幾萬臺機器甚至更多。

在這裡插入圖片描述
Hadoop最初主要包含分散式檔案系統HDFS和計算框架MapReduce兩部分,是從Nutch中獨立出來的專案。在2.0版本中,又把資源管理和任務排程功能從MapReduce中剝離形成YARN,使其他框架也可以像MapReduce那樣執行在Hadoop之上。與之前的分散式計算框架相比,Hadoop隱藏了很多繁瑣的細節,如容錯、負載均衡等,更便於使用。
Hadoop也具有很強的橫向擴充套件能力,可以很容易地把新計算機接入到叢集中參與計算。在開源社群的支援下,Hadoop不斷髮展完善,並集成了眾多優秀的產品如非關係資料庫HBase、資料倉庫Hive、資料處理工具Sqoop、機器學習演算法庫Mahout、一致性服務軟體ZooKeeper、管理工具Ambari等,形成了相對完整的生態圈和分散式計算事實上的標準。
大快的大資料通用計算平臺(DKH),已經整合相同版本號的開發框架的全部元件。如果在開源大資料框架上部署大快的開發框架,需要平臺的元件支援如下:
資料來源與SQL引擎:DK.Hadoop、spark、hive、sqoop、flume、kafka
資料採集:DK.hadoop
資料處理模組:DK.Hadoop、spark、storm、hive
機器學習和AI:DK.Hadoop、spark
NLP模組:上傳伺服器端JAR包,直接支援
搜尋引擎模組:不獨立釋出
大快大資料平臺(DKH),是大快公司為了打通大資料生態系統與傳統非大資料公司之間的通道而設計的一站式搜尋引擎級,大資料通用計算平臺。傳統公司通過使用DKH,可以輕鬆的跨越大資料的技術鴻溝,實現搜尋引擎級的大資料平臺效能。
 DKH,有效的集成了整個HADOOP生態系統的全部元件,並深度優化,重新編譯為一個完整的更高效能的大資料通用計算平臺,實現了各部件的有機協調。因此DKH相比開源的大資料平臺,在計算效能上有了高達5倍(最大)的效能提升。
 DKH,更是通過大快獨有的中介軟體技術,將複雜的大資料叢集配置簡化至三種節點(主節點、管理節點、計算節點),極大的簡化了叢集的管理運維,增強了叢集的高可用性、高可維護性、高穩定性。
 DKH,雖然進行了高度的整合,但是仍然保持了開源系統的全部優點,並與開源系統100%相容,基於開源平臺開發的大資料應用,無需經過任何改動,即可在DKH上高效執行,並且效能會有最高5倍的提升。
 DKH,更是集成了大快的大資料一體化開發框架(FreeRCH), FreeRCH開發框架提供了大資料、搜尋、自然語言處理和人工智慧開發中常用的二十多個類,通過總計一百餘種方法,實現了10倍以上的開發效率的提升。
 DKH的SQL版本,還提供了分散式MySQL的整合,傳統的資訊系統,可無縫的實現面向大資料和分散式的跨越。
DKH標準平臺技術構架圖

在這裡插入圖片描述