1. 程式人生 > >零基礎如何高效快速的學習大數據?

零基礎如何高效快速的學習大數據?

AC 高效 大綱 方向 關於大數據 發展方向 執行過程 ping 人員

技術分享圖片

經常有初學者在問我,自己想往大數據方向發展,該學哪些技術,學習路線是什麽樣的,覺得大數據很火,就業很好,薪資很高。。。。。。。如果自己很迷茫,為了這些原因想往大數據方向發展,也可以,那麽我就想問一下,你的專業是什麽,對於計算機/軟件,你的興趣是什麽?是計算機專業,對操作系統、硬件、網絡、服務器感興趣?是軟件專業,對軟件開發、編程、寫代碼感興趣?還是數學、統計學專業,對數據和數字特別感興趣。。

其實這就是想告訴你的大數據的三個發展方向,平臺搭建/優化/運維/監控、大數據開發/設計/架構、數據分析/挖掘。請不要問我哪個容易,哪個前景好,哪個錢多。

我先普及一下大數據的4V特征:

數據量大,TB->PB

數據類型繁多,結構化、非結構化文本、日誌、視頻、圖片、地理位置等;

商業價值高,但是這種價值需要在海量數據之上,通過數據分析與機器學習更快速的挖掘出來;

處理時效性高,海量數據的處理需求不再局限在離線計算當中。

現如今,開源的大數據框架越來越多,越來越強,如下是我列舉的關於大數據技術方面的幾個服務框架:

文件存儲:Hadoop HDFS、Tachyon、KFS

離線計算:Hadoop MapReduce、Spark

流式、實時計算:Storm、Spark Streaming、S4、Heron

K-V、NOSQL數據庫:HBase、Redis、MongoDB

資源管理:YARN、Mesos

日誌收集:Flume、Scribe、Logstash、Kibana

消息系統:Kafka、StormMQ、ZeroMQ、RabbitMQ

查詢分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid

分布式協調服務:Zookeeper

集群管理與監控:Ambari、Ganglia、Nagios、Cloudera Manager

數據挖掘、機器學習:Mahout、Spark MLLib

數據同步:Sqoop

任務調度:Oozie

這麽多東東,怎麽開始,怎麽學習,別急,加大數據學習QQ群:716581014

大數據最佳學習之路:

技術分享圖片

一、Hadoop入門,了解什麽是Hadoop
1、Hadoop產生背景
2、Hadoop在大數據、雲計算中的位置和關系
3、國內外Hadoop應用案例介紹

4、國內Hadoop的就業情況分析及課程大綱介紹
5、分布式系統概述
6、Hadoop生態圈以及各組成部分的簡介
7、Hadoop核心MapReduce例子說明
二、分布式文件系統HDFS,是數據庫管理員的基礎課程
1、分布式文件系統HDFS簡介
2、HDFS的系統組成介紹
3、HDFS的組成部分詳解
4、副本存放策略及路由規則
5、NameNode Federation
6、命令行接口
7、Java接口
8、客戶端與HDFS的數據流講解
9、HDFS的可用性(HA)
三、初級MapReduce,成為Hadoop開發人員的基礎課程
1、如何理解map、reduce計算模型
2、剖析偽分布式下MapReduce作業的執行過程
3、Yarn模型
4、序列化
5、MapReduce的類型與格式
6、MapReduce開發環境搭建
7、MapReduce應用開發
8、更多示例講解,熟悉MapReduce算法原理
四、高級MapReduce,高級Hadoop開發人員的關鍵課程
1、使用壓縮分隔減少輸入規模
2、利用Combiner減少中間數據
3、編寫Partitioner優化負載均衡
4、如何自定義排序規則
5、如何自定義分組規則
6、MapReduce優化
7、編程實戰
五、Hadoop集群與管理,是數據庫管理員的高級課程
1、Hadoop集群的搭建
2、Hadoop集群的監控
3、Hadoop集群的管理
4、集群下運行MapReduce程序
六、ZooKeeper基礎知識,構建分布式系統的基礎框架
1、ZooKeeper體現結構
2、ZooKeeper集群的安裝
3、操作ZooKeeper
七、HBase基礎知識,面向列的實時分布式數據庫
1、HBase定義
2、HBase與RDBMS的對比
3、數據模型
4、系統架構
5、HBase上的MapReduce
6、表的設計
八、HBase集群及其管理
1、集群的搭建過程講解
2、集群的監控
3、集群的管理
九、HBase客戶端
1、HBase Shell以及演示
2、Java客戶端以及代碼演示
十、Pig基礎知識,進行Hadoop計算的另一種框架
1、Pig概述
2、安裝Pig
3、使用Pig完成手機流量統計業務
十一、Hive,使用SQL進行計算的Hadoop框架
1、數據倉庫基礎知識
2、Hive定義
3、Hive體系結構簡介
4、Hive集群
5、客戶端簡介
6、HiveQL定義
7、HiveQL與SQL的比較
8、數據類型
9、表與表分區概念
10、表的操作與CLI客戶端演示
11、數據導入與CLI客戶端演示
12、查詢數據與CLI客戶端演示
13、數據的連接與CLI客戶端演示
14、用戶自定義函數(UDF)的開發與演示
十二、Sqoop,Hadoop與rdbms進行數據轉換的框架
1、配置Sqoop
2、使用Sqoop把數據從MySQL導入到HDFS中
3、使用Sqoop把數據從HDFS導出到MySQL中
十三、Storm
1、Storm基礎知識:包括Storm的基本概念和Storm應用
場景,體系結構與基本原理,Storm和Hadoop的對比
2、Storm集群搭建:詳細講述Storm集群的安裝和安裝時常見問題
3、Storm組件介紹: spout、bolt、stream groupings等
4、Storm消息可靠性:消息失敗的重發
5、Hadoop 2.0和Storm的整合:Storm on YARN
6、Storm編程實戰

希望有興趣學習大數據的朋友可以通過我之前的學習路線獲得一些思考和借鑒。後續也會逐步的完善,等到對整體有了比較全面的了解後,會專門針對安裝部署、使用實踐、原理解析進行介紹。

大數據學習群:716581014

技術分享圖片

零基礎如何高效快速的學習大數據?