大資料都學什麼？（初學者）

阿新 • • 發佈：2019-01-18

一、學習大資料需要的基礎

   java SE，EE(SSM)
       90%的大資料框架都是java寫的
   MySQL
       SQL on Hadoop
   Linux
       大資料的框架安裝在Linux作業系統上

二、需要學什麼

第一方面：大資料離線分析

       一般處理T+1資料
           Hadoop 2.X：（common、HDFS、MapReduce、YARN）
               環境搭建，處理資料的思想
           Hive:
               大資料資料倉庫
               通過寫SQL對資料進行操作，類似於mysql資料庫中的sql
           HBase
               基於HDFS的NOSQL資料庫
               面向列的儲存

           協作框架：
               sqoop（橋樑：HDFS 《==》RDBMS）
               flume:收集日誌檔案中資訊

               排程框架anzkaban,瞭解：crotab（Linux自帶）、zeus(Alibaba)、Oozie(cloudera)

           擴充套件前沿框架：
               kylin、impala、ElasticSearch（ES）

注意：關於第一方面的內容我的另一篇部落格有詳細的總結（是我搜索大量網上資料所得，可以幫你省下不少時間）

第二方面：大資料實時分析

           以spark框架為主
           Scala：OOP + FP
           sparkCore:類比MapReduce
           sparkSQL:類比hive
           sparkStreaming：實時資料處理
           kafka:訊息佇列
       前沿框架擴充套件：flink
           阿里巴巴 blink

第三方面：大資料機器學習（擴充套件）

           spark MLlib:機器學習庫
           pyspark程式設計：Python和spark的結合
           推薦系統
           python資料分析

Python機器學習

大資料框架安裝功能來劃分

海量資料儲存：

HDFS、Hive（本質儲存資料還是hdfs）、HBASE、ES

海量資料分析：

MapReduce、Spark、SQL

最原始的Hadoop框架

資料儲存：HDFS（Hadoop Distributed File System）
資料分析：MapReduce

Hadoop的起源

Google的三篇論文

   雖然Google沒有公佈這三個產品的原始碼，
   但是他釋出了這三個產品的詳細設計論文，
   奠定了風靡全球的大資料演算法的基礎！

Google FS HDFS

MapReduce MapReduce

BigTable HBase

   將任務分解然後在多臺處理能力較弱的計算節點中同時處理，然後將結果合併從而完成大資料處理。

   google:android,搜尋，大資料框架，人工智慧框架
   pagerank

Hadoop介紹

   大資料絕大多數框架，都屬於Apache頂級專案
   http://apache.org/
   hadoop官網：
   http://hadoop.apache.org/

分散式
   相對於【集中式】
   需要多臺機器，進行協助完成。

   元資料：記錄資料的資料
   架構：
       主節點Master   老大，管理者
           管理
       從節點Slave   從屬，奴隸，被管理者
           幹活

Hadoop也是分散式架構

common

HDFS:

       主節點：NameNode
           決定著資料儲存到那個DataNode上
       從節點：DataNode
           儲存資料

MapReduce:

       分而治之思想
       將海量的資料劃分為多個部分，每部分資料進行單獨的處理，最後將所有結果進行合併
       map task
           單獨處理每一部分的資料、

       reduce task
           合併map task的輸出

YARN:

       分散式叢集資源管理框架，管理者叢集的資源（Memory,cpu core）
       合理排程分配給各個程式（MapReduce）使用
       主節點：resourceManager
           掌管叢集中的資源
       從節點：nodeManager
           管理每臺叢集資源

總結：Hadoop的安裝部署

       都屬於java程序，就是啟動了JVM程序，執行服務。
       HDFS：儲存資料，提供分析的資料
           NameNode/DataNode
       YARN:提供程式執行的資源

ResourceManager/NodeManager