1. 程式人生 > >大資料學習知識框架

大資料學習知識框架

轉載自:https://blog.csdn.net/qq_38314823/article/details/80628981

- 學習大資料需要的基礎

1、java SE、EE(SSM)
    90%的大資料框架都是Java寫的
2、MySQL
    SQL on Hadoop
3、Linux
    大資料的框架安裝在Linux作業系統

- 需要學什麼

大資料離線分析

    一般處理T+1資料(T:可能是1天、一週、一個月、一年)
    a、Hadoop :一般不選用最新版本,踩坑難解決
        (common、HDES、MapReduce、YARN)
        環境搭建、處理資料的思想
    b、Hive:大資料的資料倉庫
        通過寫SQL對資料進行操作,類似於MySQL資料庫的sql
    c、HBase:基於HDFS的NOSQL資料庫
        面向列儲存
    d、協作框架:
        sqoop(橋樑:HDFS《==》RDBMS)
        flume:蒐集日誌檔案中的資訊
    e、排程框架
        anzkaban
        瞭解:crotab(Linux自帶)
        zeus(Alibaba)
        Oozie(cloudera)
    f、前沿框架擴充套件:
            kylin、impala、ElasticSearch(ES)


大資料實時分析

    以spark框架為主
    Scala:OOP(面向物件程式設計)+FP(函式是程式設計)
    sparkCore:類比MapReduce
    sparkSQL:類比hive
    sparkStreaming:實時資料處理
    kafka:訊息佇列
    前沿框架擴充套件:flink
        阿里巴巴:blink

大資料機器學習

    spark MLlib:機器學習庫
    pyspark程式設計:Python和spark的結合
    推薦系統
    python資料分析
    python機器學習