1. 程式人生 > >hadoop框架結構簡單介紹

hadoop框架結構簡單介紹

hadoop框架結構 hadoop框架學習

近年,隨著互聯網的發展特別是移動互聯網的發展,數據的增長呈現出一種爆炸式的成長勢頭。單是谷歌的爬蟲程序每天下載的網頁超過1億個(2000年數據,)數據的爆炸式增長直接推動了海量數據處理技術的發展。谷歌公司提出的大表、分布式文件系統和分布式計算的三大技術構架,解決了海量數據處理的問題。谷歌公司隨即將設計思路開源,發表了具有劃時代意義的三篇論文,很快根據谷歌設計思路的開源框架就出現了,就是如今非常火爆的hadoop、Maperduce和許多Nosql系統。這三大技術也是整個大數據技術的核心基礎。
目前國內的hadoop商業發行版也是比較多,這些hadoop商業版大部分都是由國外發行的,純國產的發行版不是很多,比如DKhadoop,可以說是目前國內自主做hadoop商業版比較好的了。下面就以大快搜索DKhadoop為例來給大家介紹一下hadoop框架結構!
技術分享圖片圖示:DKhadoop技術技術架構圖
hadoop框架結構核心:
hadoop的框架結構最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,MapReduce為海量的數據提供了計算。
大數據一體化開發框架:
大數據的應用開發過於偏向底層,設計技術面非常廣泛,學習的難度自然要大的很多。對於新手入門更是難上加難。DKhadoop則是大快搜索將一系列技術框架在底層進行了重新封裝。把大數據開發中的一些通用的,重復使用的基礎代碼、算法封裝為類庫,降低了大俗局的學習門檻,降低開發難度。
DKhadoop框架結構構成模塊:
我們以DKhadoop發行版為例:
1、框架由:數據源與SQL引擎、數據采集(自定義爬蟲)模塊、數據處理模塊、機器學習算法、自然語言處理模塊、搜索引擎模塊,六部分組成。
2、大快的大數據通用計算平臺(DKH),已經集成相同版本號的開發框架的全部組件。如果在開源大數據框架上部署大快的開發框架,需要平臺的組件支持如下:
(1)數據源與SQL引擎:DK.Hadoop、spark、hive、sqoop、flume、kafka
(2)數據采集:DK.hadoop
(3)數據處理模塊:DK.Hadoop、spark、storm、hive
(4)機器學習和AI:DK.Hadoop、spark
(5)NLP模塊:上傳服務器端JAR包,直接支持
(6)搜索引擎模塊:不獨立發布
Dkhadoop是大快深度整合,重新編譯後的HADOOP發行版,可單獨發布。獨立部署FreeRCH(大快大數據一體化開發框架)時,必需的組件。DK.HADOOP整合集成了NOSQL數據庫,簡化了文件系統與非關系數據庫之間的編程;DK.HADOOP改進了集群同步系統,使得HADOOP的數據處理更加高效。
關於hadoop框架結構暫且簡單介紹這些,感興趣的朋友可以找一下大快搜索的DKhadoop試一下。

hadoop框架結構簡單介紹