大資料學習知識框架
阿新 • • 發佈:2019-01-07
轉載自:https://blog.csdn.net/qq_38314823/article/details/80628981
- 學習大資料需要的基礎
1、java SE、EE(SSM)
90%的大資料框架都是Java寫的
2、MySQL
SQL on Hadoop
3、Linux
大資料的框架安裝在Linux作業系統
- 需要學什麼
大資料離線分析 一般處理T+1資料(T:可能是1天、一週、一個月、一年) a、Hadoop :一般不選用最新版本,踩坑難解決 (common、HDES、MapReduce、YARN) 環境搭建、處理資料的思想 b、Hive:大資料的資料倉庫 通過寫SQL對資料進行操作,類似於MySQL資料庫的sql c、HBase:基於HDFS的NOSQL資料庫 面向列儲存 d、協作框架: sqoop(橋樑:HDFS《==》RDBMS) flume:蒐集日誌檔案中的資訊 e、排程框架 anzkaban 瞭解:crotab(Linux自帶) zeus(Alibaba) Oozie(cloudera) f、前沿框架擴充套件: kylin、impala、ElasticSearch(ES) 大資料實時分析 以spark框架為主 Scala:OOP(面向物件程式設計)+FP(函式是程式設計) sparkCore:類比MapReduce sparkSQL:類比hive sparkStreaming:實時資料處理 kafka:訊息佇列 前沿框架擴充套件:flink 阿里巴巴:blink 大資料機器學習 spark MLlib:機器學習庫 pyspark程式設計:Python和spark的結合 推薦系統 python資料分析 python機器學習