1. 程式人生 > >大資料之路_1

大資料之路_1

大資料的特點:
1.資料來源廣
資料格式多樣化(結構化資料、非結構化資料、Excel檔案、文字檔案)
資料量大(最少是TB級別的,甚至可能是PB級別的)、資料增長速度快等

採集彙總:Sqoop、Cammel、DataX工具
儲存:GFS、HDFS、TFS等分散式檔案儲存
批處理運算:MapReduce 。分散式快速運算框架
解析引擎:Hive,Pig 將SQL轉換為MapReduce的解析引擎。
流處理運算:Strom/JStrom等低延時的流式計算框架。
叢集:Hadoop(HDFS+MapReduce+Yarn) 和Storm
一站式叢集:Spark 一站式計算框架,即可以進行批處理,也可以進行流處理(微批處理)
Lambda框架,Kappa架構的出現,提供了業務處理的通用框架。
輔助工具(加快工作效率,加快運算速度):
1:Ozzie,azkaban:定時任務排程的工具
2.Hue,Zepplin:圖形化任務執行管理,結果檢視工具
3.Scala語言:編寫Spark程式的最佳語言,可以選擇用Python
4.Python語言,編寫指令碼時會用到
5.Alluxio,kylin等,通過對儲存的資料進行預處理,加快運算速度的工具。

針對以上特點,要考慮的問題
1.資料來源廣,如何採集彙總? Sqoop,Cammel,DataX等工具
2.資料採集後,如何儲存?對應出現了GFS、HDFS、TFS等分散式檔案儲存系統
3.由於資料增長速度快,資料儲存要求可以水平擴充套件,
4.資料儲存後,該如何通過運算快速轉換成一致的格式,快速運算出自己要的結果。
對應的MapReduce的分散式運算框架解決了這個問題。
普通的MapReduce只能一批一批的處理,時間延時太長了,為了實現,每輸入一條資料就得到結果,出現了Strom/JStrom這樣的低延時流式計算框架。

如果同時要做批處理和流處理,就要搭兩個叢集,Hadoop叢集和Storm叢集