簡單瞭解大資料
阿新 • • 發佈:2019-02-19
一、學習大資料需要的基礎
java SE,EE(SSM)
90%的大資料框架都是java寫的
MySQL
SQL on Hadoop
Linux
大資料的框架安裝在Linux作業系統上
二、需要學什麼
第一方面:大資料離線分析
一般處理T+1資料
Hadoop 2.X:(common、HDFS、MapReduce、YARN)
環境搭建,處理資料的思想
Hive:
大資料資料倉庫
通過寫SQL對資料進行操作,類似於mysql資料庫中的sql
HBase
基於HDFS的NOSQL資料庫
面向列的儲存
協作框架:
sqoop(橋樑:HDFS 《==》RDBMS)
flume:收集日誌檔案中資訊
排程框架anzkaban,瞭解:crotab(Linux自帶)、zeus(Alibaba)、Oozie(cloudera)
擴充套件前沿框架:
kylin、impala、ElasticSearch(ES)
第二方面:大資料實時分析
以spark框架為主
Scala:OOP + FP
sparkCore:類比MapReduce
sparkSQL:類比hive
sparkStreaming:實時資料處理
kafka:訊息佇列
前沿框架擴充套件:flink
阿里巴巴 blink
第三方面:大資料機器學習(擴充套件)
spark MLlib:機器學習庫
pyspark程式設計:Python和spark的結合
推薦系統
python資料分析
Python機器學習