1. 程式人生 > >大數據難學嗎?如何學習大數據?(附學習路線)

大數據難學嗎?如何學習大數據?(附學習路線)

查詢 詳細 lin 對比 ppa 關系 整合 雲計 一點

因為大數據前景好,薪資高,很多人想通過參加學習大數據,然後進入大數據行業發展。但是因為大數據的門檻較高,對於學習人員有一定的要求,那麽學習大數據需要什麽基礎知識呢?
大家一起來了解下對於大數據學習者本身的學歷水平的要求。
目前大多數的機構,對於大數據學習者要求必須是大專學歷以上,而且大專學歷還要求是理工科相關專業的,如果是本科及本科以上的,則對專業要求適當的放寬。同時大數據分為兩大方向:大數據開發和數據分析。
這兩大方向的對於基礎知識的要求不同,數據分析偏向應用層面,對於編程要求不高,相較而言對於基礎知識這塊要求低一點。大數據學習群142973723

一、大數據相關工作介紹
大數據方向的工作目前主要分為三個主要方向:

大數據工程師
數據分析師
大數據科學家
其他(數據挖掘等)
二、大數據工程師的技能要求
附上大數據工程師技能圖:

技術分享圖片

Java高級(虛擬機、並發)
Linux 基本操作
Hadoop(HDFS+MapReduce+Yarn )
HBase(JavaAPI操作+Phoenix )
Hive(Hql基本操作和原理理解)
Kafka
Storm/JStorm
Scala
Python
Spark (Core+sparksql+Spark streaming )
輔助小工具(Sqoop/Flume/Oozie/Hue等)
高階技能6條
機器學習算法以及mahout庫加MLlib
R語言
Lambda 架構
Kappa架構
Kylin
Alluxio
學習路徑

假設每天可以抽出3個小時的有效學習時間,加上周末每天保證10個小時的有效學習時間;
3個月會有(213+4210)3=423小時的學習時間。
(基礎階段)
1)Linux學習
Linux操作系統介紹與安裝。
Linux常用命令。
Linux常用軟件安裝。
Linux網絡。
防火墻。
大數據學習群142973723

Hadoop入門,了解什麽是Hadoop
1、Hadoop產生背景
2、Hadoop在大數據、雲計算中的位置和關系
3、國內外Hadoop應用案例介紹
4、國內Hadoop的就業情況分析及課程大綱介紹
5、分布式系統概述
6、Hadoop生態圈以及各組成部分的簡介
7、Hadoop核心MapReduce例子說明
二、分布式文件系統HDFS,是數據庫管理員的基礎課程

1、分布式文件系統HDFS簡介
2、HDFS的系統組成介紹
3、HDFS的組成部分詳解
4、副本存放策略及路由規則
5、NameNode Federation
6、命令行接口
7、Java接口
8、客戶端與HDFS的數據流講解
9、HDFS的可用性(HA)
三、初級MapReduce,成為Hadoop開發人員的基礎課程
1、如何理解map、reduce計算模型
2、剖析偽分布式下MapReduce作業的執行過程
3、Yarn模型
4、序列化
5、MapReduce的類型與格式
6、MapReduce開發環境搭建
7、MapReduce應用開發
8、更多示例講解,熟悉MapReduce算法原理
四、高級MapReduce,高級Hadoop開發人員的關鍵課程
1、使用壓縮分隔減少輸入規模
2、利用Combiner減少中間數據
3、編寫Partitioner優化負載均衡
4、如何自定義排序規則
5、如何自定義分組規則
6、MapReduce優化
7、編程實戰
五、Hadoop集群與管理,是數據庫管理員的高級課程
1、Hadoop集群的搭建
2、Hadoop集群的監控
3、Hadoop集群的管理
4、集群下運行MapReduce程序
六、ZooKeeper基礎知識,構建分布式系統的基礎框架
1、ZooKeeper體現結構
2、ZooKeeper集群的安裝
3、操作ZooKeeper
七、HBase基礎知識,面向列的實時分布式數據庫
1、HBase定義
2、HBase與RDBMS的對比
3、數據模型
4、系統架構
5、HBase上的MapReduce
6、表的設計
八、HBase集群及其管理
1、集群的搭建過程講解
2、集群的監控
3、集群的管理
九、HBase客戶端
1、HBase Shell以及演示
2、Java客戶端以及代碼演示
十、Pig基礎知識,進行Hadoop計算的另一種框架
1、Pig概述
2、安裝Pig
3、使用Pig完成手機流量統計業務
十一、Hive,使用SQL進行計算的Hadoop框架
1、數據倉庫基礎知識
2、Hive定義
3、Hive體系結構簡介
4、Hive集群
5、客戶端簡介
6、HiveQL定義
7、HiveQL與SQL的比較
8、數據類型
9、表與表分區概念
10、表的操作與CLI客戶端演示
11、數據導入與CLI客戶端演示
12、查詢數據與CLI客戶端演示
13、數據的連接與CLI客戶端演示
14、用戶自定義函數(UDF)的開發與演示
十二、Sqoop,Hadoop與rdbms進行數據轉換的框架
1、配置Sqoop
2、使用Sqoop把數據從MySQL導入到HDFS中
3、使用Sqoop把數據從HDFS導出到MySQL中
十三、Storm
1、Storm基礎知識:包括Storm的基本概念和Storm應用
場景,體系結構與基本原理,Storm和Hadoop的對比
2、Storm集群搭建:詳細講述Storm集群的安裝和安裝時常見問題
3、Storm組件介紹: spout、bolt、stream groupings等
4、Storm消息可靠性:消息失敗的重發
5、Hadoop 2.0和Storm的整合:Storm on YARN
6、Storm編程實戰

大數據難學嗎?如何學習大數據?(附學習路線)