1. 程式人生 > >Spark+Hadoop+Mahout大資料系列

Spark+Hadoop+Mahout大資料系列

大資料概述

Hadoop大資料分析生態環境;

資料分析與大資料分析:

(1)描述性分析:平均值、標準差;同比、環比發展速度;分位數、眾數;

(2)數理統計分析:抽樣估計;假設檢驗;方差分析;

(3)資料探勘方法:聚類分析; 分類分析(決策樹、神經網路、支援向量機、隨機森林);關聯規則;協同過濾;

(4)大資料分析:Hadoop(HDFS、mapreduce、hbase、mahout【聚類、分類、協同過濾】);spark;storm;

大資料學習之路

優秀的資料分析師的五維:

業務知識+SQL查詢+精通一種大資料分析工具+熟練掌握大資料分析和建模的方法+良好的溝通能力;

第一階段:系統架構篇

(1)大資料概述

(2)Linux作業系統

(3)Ubuntu系統介紹

(4)Hadoop單機、偽分佈、叢集搭建

第二階段:Hadoop實戰篇

(1)HDFS深入剖析

(2)Java程式設計基礎

(3)MapReduce基礎理論及高階程式設計實戰

(4)Hbase理論、部署及實戰

(5)Hive、impara理論及實戰

第三階段:大資料分析案例篇

(1)基於Hadoop+Mahout 的大資料分析案例實戰

(2)Spark 基礎原理、叢集安裝並執行Spark

(3)Spark SQL 原理及資料整合應用

(4)Hadoop+Spark大資料案例分析

總結

技術是基礎:

瞭解Java、Linux等基礎知識;

瞭解Hadoop、HDFS、MapReduce、Yarn原理及執行機制;

掌握Hive、Hbase、storm等技術;

分析是目標:

掌握主題推薦、分類、聚類等資料探勘技術和數理統計分析知識;

掌握Mahout、Spark等大資料分析工具;

實戰是硬道理:

會搭建大資料叢集,體會叢集模式下大資料分析的魅力;

參與幾個大資料分析專案的設計與開發;