1. 程式人生 > >Spark 2.x企業級大數據項目實戰(實時統計、離線分析和實時ETL)

Spark 2.x企業級大數據項目實戰(實時統計、離線分析和實時ETL)

sql表中 完成 行數據 text rtt stream context 查找 保存

Spark 2.x企業級大數據項目實戰(實時統計、離線分析和實時ETL)
全套課程下載:https://pan.baidu.com/s/1mje6bAoLLPrxUIrM-C2VMg 提取碼: 9n1x

本門課程來源於一線生產項目, 所有代碼都是在現網大數據集群上穩定運行, 拒絕Demo。課程涵蓋了離線分析、實時分析絕大部分的場景,通過三個實際生產項目教授如何優雅地集成Hadoop、Spark、HBase、Kafka、Redis、MySQL等相關大數據技術,並實際落地 。

本門課程全程實操,不用擔心基礎不好, 講師將會從每個項目的演進過程詳細分析, 手把手搭建開發環境, 每個功能點都有代碼實操, 拿到生產上可以直接使用。

本門課程大量生產上的較佳實踐,不僅能為技術選型提供參考, 也能大幅度提升個人的知識和技術水平, 學完可以勝任PB級大數據的開發和優化,面試中說出來都是亮點, 是跳槽、轉型、加薪的利器,讓你輕松實現華麗轉身。 只要你有一點Hadoop、Spark和Scala基礎,並且能保持學習的熱情, 那麽就跟隨老師來吧。

第一章:流式數據實時分析(Kafka+SparkStreaming+Redis)

1、流式實時數據分析項目實戰內容提綱(企業級開發、仿雙十一訂單實時統計及性能優化)
2、SparkStreaming實時狀態統計應用引出容災恢復(高可用)和更新狀態性能問題
3、SparkStreaming應用代碼初步重構及引出實時累加應用高可用性(設置檢查點及恢復)

4、StreamingContext創建優化(非第一次啟動應用從檢查點目錄構建)及代碼演示(高可用性)
5、SparkStreaming中mapWithState實時狀態更新函數使用說明
6、模擬電商購物節訂單分析:訂單分析需求說明及準備(創建Topic及開發環境)
7、模擬電商購物節訂單分析:調用Kafka Producer API模擬產生JSON格式訂單數據發送Topic中(一)
8、模擬電商購物節訂單分析:調用Kafka Producer API模擬產生JSON格式訂單數據發送Topic中(二)
9、模擬電商購物節訂單分析:針對SparkStreaming實時流式應用數據分析利用Scala貸出模式編寫應用開發模塊
10、模擬電商購物節訂單分析:采用Direct方式獲取KAFKA數據並解析JSON格式
11、模擬電商購物節訂單分析:updateStateByKey實時累加統計各省份銷售額(重載函數使用)
12、模擬電商購物節訂單分析:Redis內存數據庫介紹、下載和配置、啟動服務及CLI基本使用
13、模擬電商購物節訂單分析:實時累加統計各省份銷售額保存Redis 數據庫哈希Hash
14、模擬電商購物節訂單分析:最近窗口數據Top5省份訂單量(集成SparkSQL,註冊臨時視圖,SQL分析)
15、模擬電商購物節訂單分析:實時應用性能優化(設置分區最大數目、數據本地性等待時間、反壓機制、內存GC等)

第二章:離線日誌分析項目(SparkCore+HBase+MySQL)

16、某旅遊電商用戶行為分析系統數據、業務調研深入剖析
17、某旅遊電商用戶行為分析系統項目架構設計(技術架構)-架構三原則
18、基於SparkCore實現用戶行為分析環境準備
19、數據ETL:SparkCore讀取數據及解析日誌數據
20、數據ETL:過濾不合格的數據(解析異常或事件類型不對)和引出廣播變量
21、數據ETL:使用廣播變量優化程序過濾數據
22、數據ETL:如何設計HBase表及RowKey組成設計
23、數據ETL:實現RowKey拼接及構建Put對象
24、數據ETL:定義函數依據傳遞處理日期參數來創建HBase表(先判斷,再刪除)
25、數據ETL:指定預分區、設置壓縮等創建表及測試保存數據至HBase表
26、數據ETL:ETL操作時程序代碼優化點詳細剖析(預分區、廣播變量及批量加載數據:跳過WAL和轉換HFile)
27、新增用戶分析:需求調研的說明(不同維度分析)及讀取HBase表的不同字段值
28、新增用戶分析:從HBase表中讀取數據,設置Scan過濾條件(一)
29、新增用戶分析:從HBase表中讀取數據,設置Scan過濾條件(二)
30、新增用戶分析:轉換讀取HBase表數據並進行維度數據組合
31、新增用戶分析:基本維度分析和瀏覽器維度分析
32、讀寫HBase表數據引出優化:針對HFile數據文件進行讀寫操作(提高性能、減輕集群負載)
33、優化數據ETL:閱讀ImportTsv源碼找出HFile數據變換、修改數據轉換格式為KeyValue及細節處理
34、優化數據ETL:完成數據寫入至HFile文件、加載HFiles至HBase表中及本地測試
35、提交運行:將數據ETL程序打JAR包,編寫Shell腳本,提交運行(查找程序依賴第三方JAR包)
36、提交運行:增加屬性文件配置,針對本地測試和集群測試讀取IP地址解析仿真數據文件進行優化
37、使用SparkSQL針對新增用戶業務編程分析:將RDD轉換為DataFrame
38、使用SparkSQL針對新增用戶業務編程分析:分別使用DSL和SQL進行指標分析和引出如何保存結果數據至MySQL表中
39、綜合回顧復習Spark讀取HBase數據三種方式(Scan、HFile、HBaseContext)及優缺點剖析
40、HBase中快照SnapShot使用及采用TableSnapshotInputFormat讀取HBase表中數據(以銷售訂單表為例,讀取HFile文件)
41、優化新增用戶分析:修改程序讀取表的HFiles進行數據分析(創建快照,使用TableSnapshotInputFormat)
42、優化新增用戶分析:使用foreachPartition方式將分析結果保存至MySQL表中(Key存在更新及不存在插入)一
43、優化新增用戶分析:使用foreachPartition方式將分析結果保存至MySQL表中(Key存在更新及不存在插入)二

第三章:企業數據實時ETL(Kafka+SparkStreaming+HBase+Redis)

44、實時數據ETL:分析需求(實時將數據ETL到不同HBase表中)及準備開發環境(模擬測試數據,創建Topic等)
45、實時數據ETL:SparkStreaming讀取Kafka Topic數據,解析orderType,自定義分區器將同類型數據重分區到一個分區
46、實時數據ETL:不同支付類型訂單數據創建不同HBase表(封裝插入數據方法)
47、實時數據ETL:編寫代碼數據插入HBase表、聯動測試(模擬實時產生數據,實時消費,分區數據,插入表中)
48、SparkStreaming采用Direct方式讀取Kafka Topic數據的自動管理Offsets方法深入剖析、使用Redis或Zookeeper等管理偏移量
49、優化實時數據ETL:從Redis中讀取Topic的各個分區消費偏移量信息(使用哈希Hash存儲)及編碼測試
50、優化實時數據ETL:當每批次數據插入HBase表以後,將Topic各個分區數據消費偏移量保存Redis中
51、監控擴展:Zookeeper Cluster常見監控工具及zkUI監控工具使用詳解
52、監控擴展:Kafka Cluster常見監控工具及Kafka Eagle監控工具使用詳解

Spark 2.x企業級大數據項目實戰(實時統計、離線分析和實時ETL)