大資料入門指南(GitHub開源專案)
阿新 • • 發佈:2019-06-15
專案GitHub地址:https://github.com/heibaiying/BigData-Notes
✒️ 前 言
- 大資料技術棧思維導圖
- 大資料常用軟體安裝指南
一、Hadoop
- 分散式檔案儲存系統——HDFS
- 分散式計算框架——MapReduce
- 叢集資源管理器——YARN
- Hadoop單機偽叢集環境搭建
- Hadoop叢集環境搭建
- HDFS常用Shell命令
- HDFS Java API的使用
- 基於Zookeeper搭建Hadoop高可用叢集
二、Hive
- Hive簡介及核心概念
- Linux環境下Hive的安裝部署
- Hive CLI和Beeline命令列的基本使用
- Hive 常用DDL操作
- Hive 分割槽表和分桶表
- Hive 檢視和索引
- Hive常用DML操作
- Hive 資料查詢詳解
三、Spark
Spark Core :
- Spark簡介
- Spark開發環境搭建
- 彈性式資料集RDD
- RDD常用運算元詳解
- Spark執行模式與作業提交
- Spark累加器與廣播變數
- 基於Zookeeper搭建Spark高可用叢集
Spark SQL :
- DateFrame 和 DataSet
- Structured API的基本使用
- Spark SQL外部資料來源
- Spark SQL常用聚合函式
- Spark SQL JOIN 操作
Spark Streaming :
- Spark Streaming 簡介
- Spark Streaming 基本操作
- Spark Streaming 整合 Flume
- Spark Streaming 整合 Kafka
四、Storm
- Storm和流處理簡介
- Storm核心概念詳解
- Storm單機環境搭建
- Storm叢集環境搭建
- Storm程式設計模型詳解
- Storm專案三種打包方式對比分析
- Storm整合Redis詳解
- Storm整合HDFS/HBase
- Storm整合Kafka
五、Flink
TODO
六、HBase
- Hbase 簡介
- HBase系統架構及資料結構
- HBase基本環境搭建(Standalone /pseudo-distributed mode)
- HBase叢集環境搭建
- HBase常用Shell命令
- HBase Java API
- Hbase 過濾器詳解
- HBase 協處理器詳解
- HBase 容災與備份
- HBase的SQL中間層——Phoenix
- Spring/Spring Boot 整合 Mybatis + Phoenix
七、Kafka
- Kafka 簡介
- 基於Zookeeper搭建Kafka高可用叢集
- Kafka 生產者詳解
- Kafka 消費者詳解
- 深入理解Kafka副本機制
八、Zookeeper
- Zookeeper 簡介及核心概念
- Zookeeper單機環境和叢集環境搭建
- Zookeeper常用Shell命令
- Zookeeper Java 客戶端——Apache Curator
- Zookeeper ACL許可權控制
九、Flume
- Flume簡介及基本使用
- Linux環境下Flume的安裝部署
- Flume整合Kafka
十、Sqoop
- Sqoop簡介與安裝
- Sqoop的基本使用
十一、Azkaban
- Azkaban簡介
- Azkaban3.x 編譯及部署
- Azkaban Flow 1.0 的使用
- Azkaban Flow 2.0 的使用
十二、Scala
- Scala簡介及開發環境配置
- 基本資料型別和運算子
- 流程控制語句
- 陣列——Array
- 集合型別綜述
- 常用集合型別之——List & Set
- 常用集合型別之——Map & Tuple
- 類和物件
- 繼承和特質
- 函式 & 閉包 & 柯里化
- 模式匹配
- 型別引數
- 隱式轉換和隱式引數
十三、公共內容
- 大資料應用常用打包方式