1. 程式人生 > >大資料知識體系,大資料學習路線圖

大資料知識體系,大資料學習路線圖

開發十年,就只剩下這套架構體系了! >>>   

大資料方向的工作目前分為三個主要方向:

01.大資料工程師

02.資料分析師

03.大資料科學家

04.其他(資料探勘本質算是機器學習,不過和資料相關,也可以理解為大資料的一個方向吧)

自己建的大資料學習交流群:199427210,群裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料軟體開發相關的),包括我自己整理的一份最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴加入。


 

 

大資料工程師詳細的學習的計劃,分享給大家,希望對你們有幫助。

第一階段:靜態網頁基礎(HTML+CSS)

1. 難易程度:一顆星

2. 主要技術包括:html常用標籤、CSS常見佈局、樣式、定位等、靜態頁面的設計製作方式等

第二階段:JavaSE+JavaWeb

1. 難易程度:兩顆星

2. 主要技術包括:java基礎語法、java面向物件(類、物件、封裝、繼承、多型、

抽象類、介面、常見類、內部類、常見修飾符等) 、異常、集合、檔案、IO、

MYSQL(基本SQL語句操作、多表查詢、子查詢、儲存過程、事務、分散式事務)

JDBC、執行緒、反射、Socket程式設計、列舉、泛型、設計模式

第三階段:前端框架

1. 難易程式:兩星

2. 主要技術包括:Java、Jquery、註解反射一起使用,XML以及XML解析、解析dom4j、jxab、jdk8.0新特性、SVN、Maven、easyui

第四階段:企業級開發框架

1. 難易程式:三顆星

2. 主要技術包括:Hibernate、Spring、SpringMVC、log4j slf4j 整合、myBatis、struts2、Shiro 、redis、流程引擎activity, 爬蟲技術nutch,lucene,webService CXF、Tomcat叢集和熱備 、MySQL讀寫分離

第五階段: 初識大資料

1. 難易程度:三顆星

2. 主要技術包括:大資料前篇(什麼是大資料,應用場景,如何學習大資料庫,虛擬機器概念和安裝等)、Linux常見命令(檔案管理、系統管理、磁碟管理)、Linux Shell程式設計(SHELL變數、迴圈控制、應用)、Hadoop入門(Hadoop組成、單機版環境、目錄結構、HDFS介面、MR介面、簡單的SHELL、java訪問hadoop)、HDFS(簡介、SHELL、IDEA開發工具使用、全分散式叢集搭建)、MapReduce應用(中間計算過程、Java操作MapReduce、程式執行、日誌監控)、Hadoop高階應用(YARN框架介紹、配置項與優化、CDH簡介、環境搭建)、擴充套件(MAP 端優化,COMBINER 使用方法見,TOP K,SQOOP匯出,其它虛擬機器VM的快照,許可權管理命令,AWK 與 SED命令)

第六階段:大資料資料庫

1. 難易程度:四顆星

2. 主要技術包括:Hive入門(Hive簡介、Hive使用場景、環境搭建、架構說明、工作機制)、Hive Shell程式設計(建表、查詢語句、分割槽與分桶、索引管理和檢視)、Hive高階應用(DISTINCT實現、groupby、join、sql轉化原理、java程式設計、配置和優化)、hbase入門、Hbase SHELL程式設計(DDL、DML、Java操作建表、查詢、壓縮、過濾器)、細說Hbase模組(REGION、HREGION SERVER、HMASTER、ZOOKEEPER簡介、ZOOKEEPER配置、Hbase與Zookeeper整合)、HBASE高階特性(讀寫流程、資料模型、模式設計讀寫熱點、優化與配置)

第七階段:實時資料採集

1. 難易程式:四顆星

2. 主要技術包括:Flume日誌採集,KAFKA入門(訊息佇列、應用場景、叢集搭建)、KAFKA詳解(分割槽、主題、接受者、傳送者、與ZOOKEEPER整合、Shell開發、Shell除錯)、KAFKA高階使用(java開發、主要配置、優化專案)、資料視覺化(圖形與圖表介紹、CHARTS工具分類、柱狀圖與餅圖、3D圖與地圖)、STORM入門(設計思想、應用場景、處理過程、叢集安裝)、STROM開發(STROM MVN開發、編寫STORM本地程式)、STORM進階(java開發、主要配置、優化專案)、KAFKA非同步傳送與批量傳送時效,KAFKA全域性訊息有序,STORM多併發優化

第八階段:SPARK資料分析

1. 難易程式:五顆星

2. 主要技術包括:SCALA入門(資料型別、運算子、控制語句、基礎函式)、SCALA進階(資料結構、類、物件、特質、模式匹配、正則表示式)、SCALA高階使用(高階函式、科裡函式、偏函式、尾迭代、自帶高階函式等)、SPARK入門(環境搭建、基礎結構、執行模式)、Spark資料集與程式設計模型、SPARK SQL、SPARK 進階(DATA FRAME、DATASET、SPARK STREAMING原理、SPARK STREAMING支援源、整合KAFKA與SOCKET、程式設計模型)、SPARK高階程式設計(Spark-GraphX、Spark-Mllib機器學習)、SPARK高階應用(系統架構、主要配置和效能優化、故障與階段恢復)、SPARK ML KMEANS演算法,SCALA 隱式