1. 程式人生 > >簡單瞭解大資料

簡單瞭解大資料

一、學習大資料需要的基礎
 java SE,EE(SSM)
  90%的大資料框架都是java寫的
 MySQL
  SQL on Hadoop
 Linux
  大資料的框架安裝在Linux作業系統上

二、需要學什麼
 第一方面:大資料離線分析
  一般處理T+1資料
   Hadoop 2.X:(common、HDFS、MapReduce、YARN)
    環境搭建,處理資料的思想
   Hive:
    大資料資料倉庫
    通過寫SQL對資料進行操作,類似於mysql資料庫中的sql
   HBase
    基於HDFS的NOSQL資料庫
    面向列的儲存
    
   協作框架:
    sqoop(橋樑:HDFS 《==》RDBMS)
    flume:收集日誌檔案中資訊
    
    排程框架anzkaban,瞭解:crotab(Linux自帶)、zeus(Alibaba)、Oozie(cloudera)
   
   擴充套件前沿框架:
    kylin、impala、ElasticSearch(ES)
    
 第二方面:大資料實時分析
   以spark框架為主
   Scala:OOP + FP
   sparkCore:類比MapReduce
   sparkSQL:類比hive
   sparkStreaming:實時資料處理
   kafka:訊息佇列
  前沿框架擴充套件:flink 
   阿里巴巴 blink
 
 第三方面:大資料機器學習(擴充套件)
   spark MLlib:機器學習庫
   pyspark程式設計:Python和spark的結合
   推薦系統
   python資料分析
   Python機器學習