大資料學習計劃（不斷改善）

我為什麼要學習大資料：因為我不喜歡現在國企的工作氛圍，不看好這個行業，另外我通過多方渠道瞭解到，其中包括李笑來、凱文凱利、和各種新聞及文章，現在我們正處於大資料時代，我是一個不安於現狀、喜歡探索順應時代發展趨勢學習新東西的人，希望通過努力來改變自己生活狀態渴望成功的人，我喜歡與朝氣蓬勃奮發向上的人一起活在未來。

前言：

一、背景介紹
二、大資料介紹

正文：

一、大資料相關的工作介紹
二、大資料工程師的技能要求
三、大資料學習規劃
四、持續學習資源推薦（書籍，部落格，網站）
五、專案案例分析（批處理+實時處理）

前言

一、背景介紹

本人目前是一名大資料工程師，專案資料50T，日均資料增長20G左右，個人是從Java後端開發，經過3個月的業餘自學成功轉型大資料工程師。

本人對於大資料學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習大資料。歡迎各位到來大資料學習群：868847735 一起討論視訊分享學習。大資料是未來的發展方向，正在挑戰我們的分析能力及對世界的認知方式，因此，我們與時俱進，迎接變化，並不斷的成長，掌握大資料核心技術，才是掌握真正的價值所在。

二、大資料介紹

大資料本質也是資料，但是又有了新的特徵，包括資料來源廣、資料格式多樣化（結構化資料、非結構化資料、Excel檔案、文字檔案等）、資料量大（最少也是TB級別的、甚至可能是PB級別）、資料增長速度快等。

針對以上主要的4個特徵我們需要考慮以下問題：

資料來源廣，該如何採集彙總？，對應出現了Sqoop，Cammel，Datax等工具。
資料採集之後，該如何儲存？，對應出現了GFS，HDFS，TFS等分散式檔案儲存系統。
由於資料增長速度快，資料儲存就必須可以水平擴充套件。
資料儲存之後，該如何通過運算快速轉化成一致的格式，該如何快速運算出自己想要的結果？

對應的MapReduce這樣的分散式運算框架解決了這個問題；但是寫MapReduce需要Java程式碼量很大，所以出現了Hive，Pig等將SQL轉化成MapReduce的解析引擎；

普通的MapReduce處理資料只能一批一批地處理，時間延遲太長，為了實現每輸入一條資料就能得到結果，於是出現了Storm/JStorm這樣的低時延的流式計算框架；

但是如果同時需要批處理

和流處理，按照如上就得搭兩個叢集，Hadoop叢集（包括HDFS+MapReduce+Yarn）和Storm叢集，不易於管理，所以出現了Spark這樣的一站式的計算框架，既可以進行批處理，又可以進行流處理（實質上是微批處理）。

而後Lambda架構，Kappa架構的出現，又提供了一種業務處理的通用架構。
為了提高工作效率，加快運速度，出現了一些輔助工具：

Ozzie，azkaban：定時任務排程的工具。
Hue，Zepplin：圖形化任務執行管理，結果檢視工具。
Scala語言：編寫Spark程式的最佳語言，當然也可以選擇用Python。
Python語言：編寫一些指令碼時會用到。
Allluxio，Kylin等：通過對儲存的資料進行預處理，加快運算速度的工具。

以上大致就把整個大資料生態裡面用到的工具所解決的問題列舉了一遍，知道了他們為什麼而出現或者說出現是為了解決什麼問題，進行學習的時候就有的放矢了。

正文

一、大資料相關工作介紹

大資料方向的工作目前主要分為三個主要方向:

大資料工程師
資料分析師
大資料科學家
其他（資料探勘等）

二、大資料工程師的技能要求

附上大資料工程師技能圖：

必須掌握的技能11條

Java高階(虛擬機器、併發)
Linux 基本操作
Hadoop（HDFS+MapReduce+Yarn ）
HBase（JavaAPI操作+Phoenix ）
Hive(Hql基本操作和原理理解）
Kafka
Storm/JStorm
Scala
Python
Spark (Core+sparksql+Spark streaming ）
輔助小工具(Sqoop/Flume/Oozie/Hue等)

高階技能6條

機器學習演算法以及mahout庫加MLlib
R語言
Lambda 架構
Kappa架構
Kylin
Alluxio

三、學習路徑

假設每天可以抽出3個小時的有效學習時間，加上週末每天保證10個小時的有效學習時間；

3個月會有（213+4210）3=423小時的學習時間。

第一階段（基礎階段）

1）Linux學習

Linux作業系統介紹與安裝。
Linux常用命令。
Linux常用軟體安裝。
Linux網路。
防火牆。
Shell程式設計等。

2）Java 高階學習（《深入理解Java虛擬機器》、《Java高併發實戰》）、

掌握多執行緒。
掌握併發包下的佇列。
瞭解JMS。
掌握JVM技術。
掌握反射和動態代理。

3）Zookeeper學習

Zookeeper分散式協調服務介紹。
Zookeeper叢集的安裝部署。
Zookeeper資料結構、命令。
Zookeeper的原理以及選舉機制。

第二階段（攻堅階段）

4）Hadoop （《Hadoop 權威指南》）、

HDFS

HDFS的概念和特性。
HDFS的shell操作。
HDFS的工作機制。
HDFS的Java應用開發。

MapReduce

執行WordCount示例程式。
瞭解MapReduce內部的執行機制。

MapReduce程式執行流程解析。
MapTask併發數的決定機制。
MapReduce中的combiner元件應用。
MapReduce中的序列化框架及應用。
MapReduce中的排序。
MapReduce中的自定義分割槽實現。
MapReduce的shuffle機制。
MapReduce利用資料壓縮進行優化。
MapReduce程式與YARN之間的關係。
MapReduce引數優化。

5）Hive（《Hive開發指南》）、

Hive 基本概念

Hive 應用場景。
Hive 與hadoop的關係。
Hive 與傳統資料庫對比。
Hive 的資料儲存機制。

Hive 基本操作

Hive 中的DDL操作。
在Hive 中如何實現高效的JOIN查詢。
Hive 的內建函式應用。
Hive shell的高階使用方式。
Hive 常用引數配置。
Hive 自定義函式和Transform的使用技巧。
Hive UDF/UDAF開發例項。

6）HBase（《HBase權威指南》）、

hbase簡介。
habse安裝。
hbase資料模型。
hbase命令。
hbase開發。
hbase原理。

7）Scala（《快學Scala》）、

Scala概述。
Scala編譯器安裝。
Scala基礎。
陣列、對映、元組、集合。
類、物件、繼承、特質。
模式匹配和樣例類。
瞭解Scala Actor併發程式設計。
理解Akka。
理解Scala高階函式。
理解Scala隱式轉換。

8）Spark （《Spark 權威指南》）---60小時

Spark core

Spark概述。
Spark叢集安裝。
執行第一個Spark案例程式（求PI）。

RDD概述。
建立RDD。
RDD程式設計API（Transformation 和 Action Operations）。
RDD的依賴關係
RDD的快取
DAG（有向無環圖）

Spark SQL and DataFrame/DataSet

Spark SQL概述。
DataFrames。
DataFrame常用操作。
編寫Spark SQL查詢程式。

Spark Streaming

park Streaming概述。
理解DStream。
DStream相關操作（Transformations 和 Output Operations）。

Structured Streaming
其他（MLlib and GraphX ）

這個部分一般工作中如果不是資料探勘，機器學習一般用不到，可以等到需要用到的時候再深入學習。

自己用虛擬機器搭建一個叢集，把所有工具都裝上，自己開發一個小demo ---30小時

可以自己用VMware搭建4臺虛擬機器，然後安裝以上軟體，搭建一個小叢集（本人親測，I7，64位，16G記憶體，完全可以執行起來，以下附上我學習時用虛擬機器搭建叢集的操作文件）

叢集搭建文件1.0版本

1. 叢集規劃

2. 前期準備

2.0 系統安裝

2.1 主機名配置

    2.1.0 vi /etc/sysconfig/network
        NETWORKING=yes

    2.1.1 vi /etc/sysconfig/network
        NETWORKING=yes
        HOSTNAME=ys02

    2.1.2 vi /etc/sysconfig/network
        NETWORKING=yes

    2.1.3 vi /etc/sysconfig/network
        NETWORKING=yes
        HOSTNAME=ys04

2.2 host檔案修改
    2.2.0 vi /etc/hosts
        10.1.1.149 ys01
        10.1.1.148 ys02
        10.1.1.146 ys03
        10.1.1.145 ys04
2.3 關閉防火牆(centos 7預設使用的是firewall，centos 6 預設是iptables)

    2.3.0 systemctl stop firewalld.service （停止firewall）

    2.3.1 systemctl disable firewalld.service （禁止firewall開機啟動）

    2.3.2 firewall-cmd --state （檢視預設防火牆狀態（關閉後顯示notrunning，開啟後顯示running）

2.4 免密登入(ys01 ->ys02,03,04)
    ssh-keygen -t rsa
    ssh-copy-id ys02(隨後輸入密碼)
    ssh-copy-id ys03（隨後輸入密碼）
    ssh-copy-id ys04（隨後輸入密碼）
    ssh ys02(測試是否成功)
    ssh ys03(測試是否成功)
    ssh ys04(測試是否成功)

2.5 系統時區與時間同步
    tzselect（生成日期檔案）
    cp /usr/share/zoneinfo/Asia/Shanghai  /etc/localtime（將日期檔案copy到本地時間中）

3. 軟體安裝

3.0 安裝目錄規劃（軟體為所有使用者公用）

    3.0.0所有軟體的安裝放到/usr/local/ys/soft目錄下(mkdir /usr/local/ys/soft)

    3.0.1所有軟體安裝到/usr/local/ys/app目錄下(mkdir /usr/local/ys/app)

 3.1 JDK（jdk1.7）安裝

    3.1.1 alt+p 後出現sftp視窗，cd /usr/local/ys/soft，使用sftp上傳tar包到虛機ys01的/usr/local/ys/soft目錄下

    3.1.2解壓jdk
      cd /usr/local/ys/soft
        #解壓
        tar -zxvf jdk-7u80-linux-x64.tar.gz -C /usr/local/ys/app

    3.1.3將java新增到環境變數中
    vim /etc/profile
    #在檔案最後新增
    export JAVA_HOME= /usr/local/ys/app/ jdk-7u80
    export PATH=$PATH:$JAVA_HOME/bin

    3.1.4 重新整理配置
    source /etc/profile

3.2 Zookeeper安裝

    3.2.0解壓
    tar -zxvf zookeeper-3.4.5.tar.gz -C /usr/local/ys/app（解壓）

    3.2.1 重新命名
    mv zookeeper-3.4.5 zookeeper（重新命名資料夾zookeeper-3.4.5為zookeeper）

    3.2.2修改環境變數
    vi /etc/profile(修改檔案)
    新增內容：
    export ZOOKEEPER_HOME=/usr/local/ys/app/zookeeper
    export PATH=$PATH:$ZOOKEEPER_HOME/bin

    3.2.3 重新編譯檔案：
    source /etc/profile
    注意：3臺zookeeper都需要修改

    3.2.4修改配置檔案
    cd zookeeper/conf
    cp zoo_sample.cfg zoo.cfg
    vi zoo.cfg
    新增內容：
    dataDir=/usr/local/ys/app/zookeeper/data
    dataLogDir=/usr/local/ys/app/zookeeper/log
    server.1=ys01:2888:3888 (主機名, 心跳埠、資料埠)
    server.2=ys02:2888:3888
    server.3=ys04:2888:3888

    3.2.5 建立資料夾
    cd /usr/local/ys/app/zookeeper/
    mkdir -m 755 data
    mkdir -m 755 log

    3.2.6 在data資料夾下新建myid檔案，myid的檔案內容為：
    cd data
    vi myid
    新增內容：
        1
    將叢集下發到其他機器上
    scp -r /usr/local/ys/app/zookeeper ys02:/usr/local/ys/app/
    scp -r /usr/local/ys/app/zookeeper ys04:/usr/local/ys/app/

    3.2.7修改其他機器的配置檔案
    到ys02上：修改myid為：2
    到ys02上：修改myid為：3

    3.2.8啟動（每臺機器）
    zkServer.sh start
    檢視叢集狀態
    jps（檢視程序）
    zkServer.sh status（檢視叢集狀態，主從資訊）

3.3 Hadoop（HDFS+Yarn）

    3.3.0 alt+p 後出現sftp視窗，使用sftp上傳tar包到虛機ys01的/usr/local/ys/soft目錄下

    3.3.1 解壓jdk
      cd /usr/local/ys/soft
        #解壓
        tar -zxvf cenos-7-hadoop-2.6.4.tar.gz -C /usr/local/ys/app

    3.3.2 修改配置檔案

core-site.xml

hdfs-site.xml

yarn-sifite.xml

svales

ys02
ys03
ys04

3.3.3叢集啟動（嚴格按照下面的步驟）
    3.3.3.1啟動zookeeper叢集（分別在ys01、ys02、ys04上啟動zk）
        cd /usr/local/ys/app/zookeeper-3.4.5/bin/
        ./zkServer.sh start
        #檢視狀態：一個leader，兩個follower
        ./zkServer.sh status

    3.3.3.2啟動journalnode（分別在在mini5、mini6、mini7上執行）
        cd /usr/local/ys/app/hadoop-2.6.4
        sbin/hadoop-daemon.sh start journalnode
        #執行jps命令檢驗，ys02、ys03、ys04上多了JournalNode程序

    3.3.3.3格式化HDFS
        #在ys01上執行命令:
        hdfs namenode -format
        #格式化後會在根據core-site.xml中的hadoop.tmp.dir配置生成個檔案，這裡我配置的是/usr/local/ys/app/hadoop-2.6.4/tmp，然後將/usr/local/ys/app/hadoop-2.6.4/tmp拷貝到ys02的/usr/local/ys/app/hadoop-2.6.4/下。
        scp -r tmp/ ys02:/usr/local/ys /app/hadoop-2.6.4/
        ##也可以這樣，建議hdfs namenode -bootstrapStandby

    3.3.3.4格式化ZKFC(在ys01上執行一次即可)
        hdfs zkfc -formatZK

    3.3.3.5啟動HDFS(在ys01上執行)
        sbin/start-dfs.sh

    3.3.3.6啟動YARN
        sbin/start-yarn.sh

3.3MySQL-5.6安裝
    略過

3.4 Hive

    3.4.1 alt+p 後出現sftp視窗，cd /usr/local/ys/soft，使用sftp上傳tar包到虛機ys01的/usr/local/ys/soft目錄下

    3.4.2解壓
    cd /usr/local/ys/soft
tar -zxvf hive-0.9.0.tar.gz -C /usr/local/ys/app

    3.4.3 .配置hive

        3.4.3.1配置HIVE_HOME環境變數  vi conf/hive-env.sh 配置其中的$hadoop_home

        3.4.3.2配置元資料庫資訊   vi  hive-site.xml

大資料學習計劃（不斷改善）

前言

一、背景介紹

二、大資料介紹

正文

一、大資料相關工作介紹

二、大資料工程師的技能要求

三、學習路徑

大資料學習計劃（不斷改善）

大資料學習筆記（十四）-- hadoop

大資料學習筆記（十六）-Hue的安裝部署和使用

大資料學習記錄（hadoop hive flume azkaban sqoop）

大資料學習路線圖（技術+專案雙管齊下）

入門到精通：資深程式設計師規劃JAVA大資料學習路線（附視訊教程）

大資料學習路線（轉載）

大資料學習筆記（Map Reduce在叢集上的執行架構）

大資料學習路線（完整詳細版）

大資料學習路線圖（附上大資料學習資料）

史上最全的“大資料”學習資源（上）

2018年最新大資料學習路線（清華大學大資料專業趙老師制定）

大資料學習總結（一）分散式Hadoop系統

大資料學習筆記（六）-Spark環境配置

十小時入門大資料學習筆記（二）

大資料學習路線（自己制定的，從零開始）

大資料開發----Hive（入門篇）

大資料開發----Fabric（入門篇）

FMI-人工智慧&大資料高峰論壇（深圳站）

正在學習的比較詳細的機器學習教程（不斷更新）

大資料學習計劃（不斷改善）

前言

一、背景介紹

二、大資料介紹

正文

一、大資料相關工作介紹

二、大資料工程師的技能要求

三、學習路徑

相關推薦