大資料之路_1

阿新 • • 發佈：2018-11-12

大資料的特點：
1.資料來源廣
資料格式多樣化（結構化資料、非結構化資料、Excel檔案、文字檔案）
資料量大（最少是TB級別的，甚至可能是PB級別的）、資料增長速度快等

採集彙總：Sqoop、Cammel、DataX工具
儲存：GFS、HDFS、TFS等分散式檔案儲存
批處理運算：MapReduce 。分散式快速運算框架
解析引擎：Hive,Pig 將SQL轉換為MapReduce的解析引擎。
流處理運算：Strom/JStrom等低延時的流式計算框架。
叢集：Hadoop（HDFS+MapReduce+Yarn）和Storm
一站式叢集：Spark 一站式計算框架，即可以進行批處理，也可以進行流處理（微批處理）
Lambda框架，Kappa架構的出現，提供了業務處理的通用框架。
輔助工具（加快工作效率，加快運算速度）：
1:Ozzie,azkaban:定時任務排程的工具
2.Hue,Zepplin:圖形化任務執行管理，結果檢視工具
3.Scala語言：編寫Spark程式的最佳語言，可以選擇用Python
4.Python語言，編寫指令碼時會用到
5.Alluxio，kylin等，通過對儲存的資料進行預處理，加快運算速度的工具。

針對以上特點，要考慮的問題
1.資料來源廣，如何採集彙總？ Sqoop,Cammel,DataX等工具
2.資料採集後，如何儲存？對應出現了GFS、HDFS、TFS等分散式檔案儲存系統
3.由於資料增長速度快，資料儲存要求可以水平擴充套件，
4.資料儲存後，該如何通過運算快速轉換成一致的格式，快速運算出自己要的結果。
對應的MapReduce的分散式運算框架解決了這個問題。
普通的MapReduce只能一批一批的處理，時間延時太長了，為了實現，每輸入一條資料就得到結果，出現了Strom/JStrom這樣的低延時流式計算框架。

如果同時要做批處理和流處理，就要搭兩個叢集，Hadoop叢集和Storm叢集

大資料之路_1

大資料之路_1

大資料之路_2

大資料之路

【專欄】- 自學大資料之路

java程式設計師的大資料之路（5）：HDFS壓縮與解壓縮

java程式設計師的大資料之路（7）：基於檔案的資料結構

大資料之路-infotrim.cn

胖子哥的大資料之路（6）- NoSQL生態圈全景介紹

大資料之路：CDH管理CentOS7配置（2.配置SSH免密）

[大資料自學路之Linux基礎]03_遠端連線工具&CentOS6中的網路等相關配置

程式設計菜鳥到大佬之路：資料結構（二）

挨踢部落故事匯(20):Android程序員的十大轉型之路

算法大神之路----排序(冒泡排序法)

算法大神之路----排序(選擇排序法)

Python大神之路 - Python基礎語法1

TB級(小白到大牛之路)技術視頻資源福利大放送

免費公開課-6月27日晚20點，Java小白到大牛之路

C語言推薦書籍從入門到進階帶你走上大牛之路（珍藏版）

資料之路- 中國五城市PM2.5資料解讀

大資料之Spark（五）--- Spark的SQL模組，Spark的JDBC實現，SparkSQL整合MySQL，SparkSQL整合Hive和Beeline

大資料之路_1

相關推薦