1. 程式人生 > >大快大數據平臺架構設計的構成模塊

大快大數據平臺架構設計的構成模塊

大數據平臺架構設計 大數據平臺架構 大數據架構設計

大數據也不是近幾年才出現的新東西,只是最近幾年才真正意義上變得熱門、火爆!而這要得益於互聯網信息技術的快速發展,網絡改變世界、改變生活,大數據技術的應用讓這樣的改變更為深刻。
關註大數據或者是互聯網方面新聞的人應該知道,大數據已經上升到了國家戰略的高度。可以說這是時代發展的必然趨勢,從國家戰略層面推進大數據技術的普及與應用,一個至關重要且非常核心的問題——數據安全問題就非常突出。解決數據安全問題,必然要回歸到大數據開發所使用的框架!
技術分享圖片
國內的大數據開發起步較晚於國外,所有關於大數據大開發的各種標準和規則都是采用國外的那一套。國內做大數據開發的企業或者機構組織所推出的大部分商業發行版本都是對開源程序的二次包裝,從事大數據底層開發的少之又少。做大數據原生態開發且又推出商業發行版的,行業也就只有大快搜索,可能在未來的三五年內也許還會有做大數據原生態開發的出現。
為何大數據的普及度不高,主要是由於大數據的應用開發太過偏向於底層,學習的難度不是一般的大,所涉及到的技術面廣太大,不是一般人所能夠駕馭得了的。市場上大部分打著hadoop國產發行版,也只是把國外的拿過來重新修改了一下而已。大快DKhadoop把大數據開發中的一些通用的,重復使用的基礎代碼、算法封裝為類庫,在很大程度上降低了開發的難度。相信這個對於從事開發的人員看了就更容易懂了。
下面,就給大家介紹看一下大快的大數據開發框架的模塊構成都有哪些:
大快大數據一體化開發框架主要由六部分組成:數據源與SQL引擎、數據采集(自定義爬蟲)模塊、數據處理模塊、機器學習算法、自然語言處理模塊、搜索引擎模塊。
技術分享圖片
如果在開源大數據框架上部署大快的開發框架,需要平臺的組件支持如下:
數據源與SQL引擎:DK.Hadoop、spark、hive、sqoop、flume、kafka
數據采集:DK.hadoop
數據處理模塊:DK.Hadoop、spark、storm、hive
機器學習和AI:DK.Hadoop、spark
NLP模塊:上傳服務器端JAR包,直接支持
搜索引擎模塊:不獨立發布

大快大數據平臺架構設計的構成模塊