Spark 2.x企業級大資料專案實戰（實時統計、離線分析和實時ETL）

阿新 • • 發佈：2018-12-18

Spark 2.x企業級大資料專案實戰（實時統計、離線分析和實時ETL）
全套課程下載：https://pan.baidu.com/s/1mje6bAoLLPrxUIrM-C2VMg 提取碼: 9n1x

本門課程來源於一線生產專案，所有程式碼都是在現網大資料叢集上穩定執行，拒絕Demo。課程涵蓋了離線分析、實時分析絕大部分的場景，通過三個實際生產專案教授如何優雅地整合Hadoop、Spark、HBase、Kafka、Redis、MySQL等相關大資料技術，並實際落地。

本門課程全程實操，不用擔心基礎不好，講師將會從每個專案的演進過程詳細分析，手把手搭建開發環境，每個功能點都有程式碼實操，拿到生產上可以直接使用。

本門課程大量生產上的較佳實踐，不僅能為技術選型提供參考，也能大幅度提升個人的知識和技術水平，學完可以勝任PB級大資料的開發和優化，面試中說出來都是亮點，是跳槽、轉型、加薪的利器，讓你輕鬆實現華麗轉身。只要你有一點Hadoop、Spark和Scala基礎，並且能保持學習的熱情，那麼就跟隨老師來吧。

第一章：流式資料實時分析（Kafka+SparkStreaming+Redis）

1、流式實時資料分析專案實戰內容提綱（企業級開發、仿雙十一訂單實時統計及效能優化）
2、SparkStreaming實時狀態統計應用引出容災恢復（高可用）和更新狀態效能問題
3、SparkStreaming應用程式碼初步重構及引出實時累加應用高可用性（設定檢查點及恢復）
4、StreamingContext建立優化（非第一次啟動應用從檢查點目錄構建）及程式碼演示（高可用性）
5、SparkStreaming中mapWithState實時狀態更新函式使用說明
6、模擬電商購物節訂單分析：訂單分析需求說明及準備（建立Topic及開發環境）
7、模擬電商購物節訂單分析：呼叫Kafka Producer API模擬產生JSON格式訂單資料傳送Topic中（一）
8、模擬電商購物節訂單分析：呼叫Kafka Producer API模擬產生JSON格式訂單資料傳送Topic中（二）
9、模擬電商購物節訂單分析：針對SparkStreaming實時流式應用資料分析利用Scala貸出模式編寫應用開發模組
10、模擬電商購物節訂單分析：採用Direct方式獲取KAFKA資料並解析JSON格式
11、模擬電商購物節訂單分析：updateStateByKey實時累加統計各省份銷售額（過載函式使用）
12、模擬電商購物節訂單分析：Redis記憶體資料庫介紹、下載和配置、啟動服務及CLI基本使用
13、模擬電商購物節訂單分析：實時累加統計各省份銷售額儲存Redis 資料庫雜湊Hash
14、模擬電商購物節訂單分析：最近視窗資料Top5省份訂單量（整合SparkSQL，註冊臨時檢視，SQL分析）
15、模擬電商購物節訂單分析：實時應用效能優化（設定分割槽最大數目、資料本地性等待時間、反壓機制、記憶體GC等）

第二章：離線日誌分析專案（SparkCore+HBase+MySQL）

16、某旅遊電商使用者行為分析系統資料、業務調研深入剖析
17、某旅遊電商使用者行為分析系統專案架構設計（技術架構）-架構三原則
18、基於SparkCore實現使用者行為分析環境準備
19、資料ETL：SparkCore讀取資料及解析日誌資料
20、資料ETL：過濾不合格的資料（解析異常或事件型別不對）和引出廣播變數
21、資料ETL：使用廣播變數優化程式過濾資料
22、資料ETL：如何設計HBase表及RowKey組成設計
23、資料ETL：實現RowKey拼接及構建Put物件
24、資料ETL：定義函式依據傳遞處理日期引數來建立HBase表（先判斷，再刪除）
25、資料ETL：指定預分割槽、設定壓縮等建立表及測試儲存資料至HBase表
26、資料ETL：ETL操作時程式程式碼優化點詳細剖析（預分割槽、廣播變數及批量載入資料：跳過WAL和轉換HFile）
27、新增使用者分析：需求調研的說明（不同維度分析）及讀取HBase表的不同欄位值
28、新增使用者分析：從HBase表中讀取資料，設定Scan過濾條件（一）
29、新增使用者分析：從HBase表中讀取資料，設定Scan過濾條件（二）
30、新增使用者分析：轉換讀取HBase表資料並進行維度資料組合
31、新增使用者分析：基本維度分析和瀏覽器維度分析
32、讀寫HBase表資料引出優化：針對HFile資料檔案進行讀寫操作（提高效能、減輕叢集負載）
33、優化資料ETL：閱讀ImportTsv原始碼找出HFile資料變換、修改資料轉換格式為KeyValue及細節處理
34、優化資料ETL：完成資料寫入至HFile檔案、載入HFiles至HBase表中及本地測試
35、提交執行：將資料ETL程式打JAR包，編寫Shell指令碼，提交執行（查詢程式依賴第三方JAR包）
36、提交執行：增加屬性檔案配置，針對本地測試和叢集測試讀取IP地址解析模擬資料檔案進行優化
37、使用SparkSQL針對新增使用者業務程式設計分析：將RDD轉換為DataFrame
38、使用SparkSQL針對新增使用者業務程式設計分析：分別使用DSL和SQL進行指標分析和引出如何儲存結果資料至MySQL表中
39、綜合回顧複習Spark讀取HBase資料三種方式（Scan、HFile、HBaseContext）及優缺點剖析
40、HBase中快照SnapShot使用及採用TableSnapshotInputFormat讀取HBase表中資料（以銷售訂單表為例，讀取HFile檔案）
41、優化新增使用者分析：修改程式讀取表的HFiles進行資料分析（建立快照，使用TableSnapshotInputFormat）
42、優化新增使用者分析：使用foreachPartition方式將分析結果儲存至MySQL表中（Key存在更新及不存在插入）一
43、優化新增使用者分析：使用foreachPartition方式將分析結果儲存至MySQL表中（Key存在更新及不存在插入）二

第三章：企業資料實時ETL（Kafka+SparkStreaming+HBase+Redis）

44、實時資料ETL：分析需求（實時將資料ETL到不同HBase表中）及準備開發環境（模擬測試資料，建立Topic等）
45、實時資料ETL：SparkStreaming讀取Kafka Topic資料，解析orderType，自定義分割槽器將同類型資料重分割槽到一個分割槽
46、實時資料ETL：不同支付型別訂單資料建立不同HBase表（封裝插入資料方法）
47、實時資料ETL：編寫程式碼資料插入HBase表、聯動測試（模擬實時產生資料，實時消費，分割槽資料，插入表中）
48、SparkStreaming採用Direct方式讀取Kafka Topic資料的自動管理Offsets方法深入剖析、使用Redis或Zookeeper等管理偏移量
49、優化實時資料ETL：從Redis中讀取Topic的各個分割槽消費偏移量資訊（使用雜湊Hash儲存）及編碼測試
50、優化實時資料ETL：當每批次資料插入HBase表以後，將Topic各個分割槽資料消費偏移量儲存Redis中
51、監控擴充套件：Zookeeper Cluster常見監控工具及zkUI監控工具使用詳解
52、監控擴充套件：Kafka Cluster常見監控工具及Kafka Eagle監控工具使用詳解

Spark 2.x企業級大資料專案實戰（實時統計、離線分析和實時ETL）

Spark 2.x企業級大資料專案實戰（實時統計、離線分析和實時ETL）

Spark 2.x企業級大數據項目實戰（實時統計、離線分析和實時ETL）

大資料專案實戰之六:6.工具類編寫和說明

大資料專案實戰之十三:13.Spark上下文構建以及模擬資料生成

大資料專案實戰之 --- 使用者畫像專案分析

大資料專案實戰之 --- 某App管理平臺的手機app日誌分析系統（三）

大資料專案實戰30天搞定大資料爬蟲專案超清視訊教程

大資料專案實戰之十二:12.JSON資料格式講解以及fastjson介紹

大資料專案實戰之十一:11.工廠模式講解以及DAOFactory開發

大資料專案實戰之十:10.DAO模式講解以及TaskDAO開發

大資料專案實戰之九:9.JavaBean概念講解

大資料專案實戰之八:8.JDBC元件開發

大資料專案實戰之七:7.JDBC原理

大資料專案實戰之新聞話題統計分析

大資料專案實戰之新聞話題的實時統計分析

大資料學習筆記（Map Reduce在叢集上的執行架構）

Cloudera Manager安裝之Cloudera Manager 5.3.X安裝（三）（tar方式、rpm方式和yum方式）

Cloudera Manager安裝之Cloudera Manager 5.6.X安裝（tar方式、rpm方式和yum方式）（Ubuntu14.04）（三）

[大資料專案]-秒殺系統企業級實戰應用（真實工業界案例）

[大資料專案]-0010-深入淺出Spark機器學習實戰（使用者行為分析）

Spark 2.x企業級大資料專案實戰（實時統計、離線分析和實時ETL）

相關推薦