1. 程式人生 > >Spark 2.x企業級大資料專案實戰(實時統計、離線分析和實時ETL)

Spark 2.x企業級大資料專案實戰(實時統計、離線分析和實時ETL)

Spark 2.x企業級大資料專案實戰(實時統計、離線分析和實時ETL)
全套課程下載:https://pan.baidu.com/s/1mje6bAoLLPrxUIrM-C2VMg 提取碼: 9n1x

本門課程來源於一線生產專案, 所有程式碼都是在現網大資料叢集上穩定執行, 拒絕Demo。課程涵蓋了離線分析、實時分析絕大部分的場景,通過三個實際生產專案教授如何優雅地整合Hadoop、Spark、HBase、Kafka、Redis、MySQL等相關大資料技術,並實際落地 。

本門課程全程實操,不用擔心基礎不好, 講師將會從每個專案的演進過程詳細分析, 手把手搭建開發環境, 每個功能點都有程式碼實操, 拿到生產上可以直接使用。

本門課程大量生產上的較佳實踐,不僅能為技術選型提供參考, 也能大幅度提升個人的知識和技術水平, 學完可以勝任PB級大資料的開發和優化,面試中說出來都是亮點, 是跳槽、轉型、加薪的利器,讓你輕鬆實現華麗轉身。 只要你有一點Hadoop、Spark和Scala基礎,並且能保持學習的熱情, 那麼就跟隨老師來吧。

第一章:流式資料實時分析(Kafka+SparkStreaming+Redis)

1、流式實時資料分析專案實戰內容提綱(企業級開發、仿雙十一訂單實時統計及效能優化)
2、SparkStreaming實時狀態統計應用引出容災恢復(高可用)和更新狀態效能問題
3、SparkStreaming應用程式碼初步重構及引出實時累加應用高可用性(設定檢查點及恢復)
4、StreamingContext建立優化(非第一次啟動應用從檢查點目錄構建)及程式碼演示(高可用性)
5、SparkStreaming中mapWithState實時狀態更新函式使用說明
6、模擬電商購物節訂單分析:訂單分析需求說明及準備(建立Topic及開發環境)
7、模擬電商購物節訂單分析:呼叫Kafka Producer API模擬產生JSON格式訂單資料傳送Topic中(一)
8、模擬電商購物節訂單分析:呼叫Kafka Producer API模擬產生JSON格式訂單資料傳送Topic中(二)
9、模擬電商購物節訂單分析:針對SparkStreaming實時流式應用資料分析利用Scala貸出模式編寫應用開發模組
10、模擬電商購物節訂單分析:採用Direct方式獲取KAFKA資料並解析JSON格式
11、模擬電商購物節訂單分析:updateStateByKey實時累加統計各省份銷售額(過載函式使用)
12、模擬電商購物節訂單分析:Redis記憶體資料庫介紹、下載和配置、啟動服務及CLI基本使用
13、模擬電商購物節訂單分析:實時累加統計各省份銷售額儲存Redis 資料庫雜湊Hash
14、模擬電商購物節訂單分析:最近視窗資料Top5省份訂單量(整合SparkSQL,註冊臨時檢視,SQL分析)
15、模擬電商購物節訂單分析:實時應用效能優化(設定分割槽最大數目、資料本地性等待時間、反壓機制、記憶體GC等)

第二章:離線日誌分析專案(SparkCore+HBase+MySQL)

16、某旅遊電商使用者行為分析系統資料、業務調研深入剖析
17、某旅遊電商使用者行為分析系統專案架構設計(技術架構)-架構三原則
18、基於SparkCore實現使用者行為分析環境準備
19、資料ETL:SparkCore讀取資料及解析日誌資料
20、資料ETL:過濾不合格的資料(解析異常或事件型別不對)和引出廣播變數
21、資料ETL:使用廣播變數優化程式過濾資料
22、資料ETL:如何設計HBase表及RowKey組成設計
23、資料ETL:實現RowKey拼接及構建Put物件
24、資料ETL:定義函式依據傳遞處理日期引數來建立HBase表(先判斷,再刪除)
25、資料ETL:指定預分割槽、設定壓縮等建立表及測試儲存資料至HBase表
26、資料ETL:ETL操作時程式程式碼優化點詳細剖析(預分割槽、廣播變數及批量載入資料:跳過WAL和轉換HFile)
27、新增使用者分析:需求調研的說明(不同維度分析)及讀取HBase表的不同欄位值
28、新增使用者分析:從HBase表中讀取資料,設定Scan過濾條件(一)
29、新增使用者分析:從HBase表中讀取資料,設定Scan過濾條件(二)
30、新增使用者分析:轉換讀取HBase表資料並進行維度資料組合
31、新增使用者分析:基本維度分析和瀏覽器維度分析
32、讀寫HBase表資料引出優化:針對HFile資料檔案進行讀寫操作(提高效能、減輕叢集負載)
33、優化資料ETL:閱讀ImportTsv原始碼找出HFile資料變換、修改資料轉換格式為KeyValue及細節處理
34、優化資料ETL:完成資料寫入至HFile檔案、載入HFiles至HBase表中及本地測試
35、提交執行:將資料ETL程式打JAR包,編寫Shell指令碼,提交執行(查詢程式依賴第三方JAR包)
36、提交執行:增加屬性檔案配置,針對本地測試和叢集測試讀取IP地址解析模擬資料檔案進行優化
37、使用SparkSQL針對新增使用者業務程式設計分析:將RDD轉換為DataFrame
38、使用SparkSQL針對新增使用者業務程式設計分析:分別使用DSL和SQL進行指標分析和引出如何儲存結果資料至MySQL表中
39、綜合回顧複習Spark讀取HBase資料三種方式(Scan、HFile、HBaseContext)及優缺點剖析
40、HBase中快照SnapShot使用及採用TableSnapshotInputFormat讀取HBase表中資料(以銷售訂單表為例,讀取HFile檔案)
41、優化新增使用者分析:修改程式讀取表的HFiles進行資料分析(建立快照,使用TableSnapshotInputFormat)
42、優化新增使用者分析:使用foreachPartition方式將分析結果儲存至MySQL表中(Key存在更新及不存在插入)一
43、優化新增使用者分析:使用foreachPartition方式將分析結果儲存至MySQL表中(Key存在更新及不存在插入)二

第三章:企業資料實時ETL(Kafka+SparkStreaming+HBase+Redis)

44、實時資料ETL:分析需求(實時將資料ETL到不同HBase表中)及準備開發環境(模擬測試資料,建立Topic等)
45、實時資料ETL:SparkStreaming讀取Kafka Topic資料,解析orderType,自定義分割槽器將同類型資料重分割槽到一個分割槽
46、實時資料ETL:不同支付型別訂單資料建立不同HBase表(封裝插入資料方法)
47、實時資料ETL:編寫程式碼資料插入HBase表、聯動測試(模擬實時產生資料,實時消費,分割槽資料,插入表中)
48、SparkStreaming採用Direct方式讀取Kafka Topic資料的自動管理Offsets方法深入剖析、使用Redis或Zookeeper等管理偏移量
49、優化實時資料ETL:從Redis中讀取Topic的各個分割槽消費偏移量資訊(使用雜湊Hash儲存)及編碼測試
50、優化實時資料ETL:當每批次資料插入HBase表以後,將Topic各個分割槽資料消費偏移量儲存Redis中
51、監控擴充套件:Zookeeper Cluster常見監控工具及zkUI監控工具使用詳解
52、監控擴充套件:Kafka Cluster常見監控工具及Kafka Eagle監控工具使用詳解