1. 程式人生 > >【備忘】2017Spark 2.0大型專案實戰:移動電商app互動式資料分析

【備忘】2017Spark 2.0大型專案實戰:移動電商app互動式資料分析

一、大資料叢集搭建- 
第1講-課程介紹1
第2講-課程環境搭建:CentOS 6.4叢集搭建% 
第3講-課程環境搭建:hadoop-2.5.0-cdh5.3.6叢集搭建3
第4講-課程環境搭建:hive-0.13.1-cdh5.3.6安裝
第5講-課程環境搭建:zookeeper-3.4.5-cdh5.3.6叢集搭建
第6講-課程環境搭建:kafka_2.9.2-0.8.1叢集搭建
第7講-課程環境搭建:flume-ng-1.5.0-cdh5.3.6安裝
第8講-課程環境搭建:離線日誌採集流程介紹
第9講-課程環境搭建:實時資料採集流程介紹
第10講-課程環境搭建:Spark 1.5.1客戶端安裝以及基於YARN的提交模式

二、使用者訪問session分析: 
第11講-使用者訪問session分析:模組介紹
第12講-使用者訪問session分析:基礎資料結構以及大資料平臺架構介紹:
第13講-使用者訪問session分析:需求分析% \% \: g) 
第14講-使用者訪問session分析:技術方案設計
第15講-使用者訪問session分析:資料表設計9 ~
第16講-使用者訪問session分析:Eclipse工程搭建以及工具類說明& 
第17講-使用者訪問session分析:開發配置管理元件
第18講-使用者訪問session分析:JDBC原理介紹以及增刪改查示範$ 
第19講-使用者訪問session分析:資料庫連線池原理-
第20講-使用者訪問session分析:單例設計模式
第21講-使用者訪問session分析:內部類以及匿名內部類 
第22講-使用者訪問session分析:開發JDBC輔助元件(上)
第23講-使用者訪問session分析:開發JDBC輔助元件(下)
第24講-使用者訪問session分析:JavaBean概念講解9
第25講-使用者訪問session分析:DAO模式講解以及TaskDAO開發6
第26講-使用者訪問session分析:工廠模式講解以及DAOFactory開發"
第27講-使用者訪問session分析:JSON資料格式講解以及fastjson介紹/ 
第28講-使用者訪問session分析:Spark上下文構建以及模擬資料生成 
第29講-使用者訪問session分析:按session粒度進行資料聚合
第30講-使用者訪問session分析:按篩選引數對session粒度聚合資料進行過濾
第31講-使用者訪問session分析:session聚合統計之自定義Accumulator/
第32講-使用者訪問session分析:session聚合統計之重構實現思路與重構session聚合
第33講-使用者訪問session分析:session聚合統計之重構過濾進行統計6
第34講-使用者訪問session分析:session聚合統計之計算統計結果並寫入MySQL+
第35講-使用者訪問session分析:session聚合統計之本地測試6 
第36講-使用者訪問session分析:session聚合統計之使用Scala實現自定義Accumulator
第37講-使用者訪問session分析:session隨機抽取之實現思路分析: 
第38講-使用者訪問session分析:session隨機抽取之計算每天每小時session數量0 
第39講-使用者訪問session分析:session隨機抽取之按時間比例隨機抽取演算法實現(
第40講-使用者訪問session分析:session隨機抽取之根據隨機索引進行抽取6 
第41講-使用者訪問session分析:session隨機抽取之獲取抽取session的明細資料
第42講-使用者訪問session分析:session隨機抽取之本地測試
第43講-使用者訪問session分析:top10熱門品類之需求回顧以及實現思路分析
第44講-使用者訪問session分析:top10熱門品類之獲取session訪問過的所有品類8
第45講-使用者訪問session分析:top10熱門品類之計算各品類點選、下單和支付的次數. 
第46講-使用者訪問session分析:top10熱門品類之join品類與點選下單支付次數
第47講-使用者訪問session分析:top10熱門品類之自定義二次排序key1 
第48講-使用者訪問session分析:top10熱門品類之進行二次排序8 
第49講-使用者訪問session分析:top10熱門品類之獲取top10品類並寫入MySQL
第50講-使用者訪問session分析:top10熱門品類之本地測試
第51講-使用者訪問session分析:top10熱門品類之使用Scala實現二次排序
第52講-使用者訪問session分析:top10活躍session之開發準備以及top10品類RDD生成* 
第53講-使用者訪問session分析:top10活躍session之計算top10品類被各sessoin點選的次數: 
第54講-使用者訪問session分析:top10活躍session之分組取TopN演算法獲取top10活躍session;
第55講-使用者訪問session分析:top10活躍session之本地測試以及階段總結4 

三、企業級效能調優、troubleshooting經驗與資料傾斜解決方案:5
第56講-使用者訪問session分析:效能調優之在實際專案中分配更多資源)
第57講-使用者訪問session分析:效能調優之在實際專案中調節並行度;
第58講-使用者訪問session分析:效能調優之在實際專案中重構RDD架構以及RDD持久化* 
第59講-使用者訪問session分析:效能調優之在實際專案中廣播大變數
第60講-使用者訪問session分析:效能調優之在實際專案中使用Kryo序列化
第61講-使用者訪問session分析:效能調優之在實際專案中使用fastutil優化資料格式
第62講-使用者訪問session分析:效能調優之在實際專案中調節資料本地化等待時長4 
第63講-使用者訪問session分析:JVM調優之原理概述以及降低cache操作的記憶體佔比/
第64講-使用者訪問session分析:JVM調優之調節executor堆外記憶體與連線等待時長
第65講-使用者訪問session分析:Shuffle調優之原理概述
第66講-使用者訪問session分析:Shuffle調優之合併map端輸出檔案5 
第67講-使用者訪問session分析:Shuffle調優之調節map端記憶體緩衝與reduce端記憶體佔比
第68講-使用者訪問session分析:Shuffle調優之HashShuffleManager與SortShuffleManager" 
第69講-使用者訪問session分析:運算元調優之MapPartitions提升Map類操作效能
第70講-使用者訪問session分析:運算元調優之filter過後使用coalesce減少分割槽數量: 
第71講-使用者訪問session分析:運算元調優之使用foreachPartition優化寫資料庫效能
第72講-使用者訪問session分析:運算元調優之使用repartition解決Spark SQL低並行度的效能問題
第73講-使用者訪問session分析:運算元調優之reduceByKey本地聚合介紹9 
第74講-使用者訪問session分析:troubleshooting之控制shuffle reduce端緩衝大小以避免OOM
第75講-使用者訪問session分析:troubleshooting之解決JVM GC導致的shuffle檔案拉取失敗* 
第76講-使用者訪問session分析:troubleshooting之解決YARN佇列資源不足導致的application直接失敗
第77講-使用者訪問session分析:troubleshooting之解決各種序列化導致的報錯
第78講-使用者訪問session分析:troubleshooting之解決運算元函式返回NULL導致的問題7 y$ B3 
第79講-使用者訪問session分析:troubleshooting之解決yarn-client模式導致的網絡卡流量激增問題
第80講-使用者訪問session分析:troubleshooting之解決yarn-cluster模式的JVM棧記憶體溢位問題
第81講-使用者訪問session分析:troubleshooting之錯誤的持久化方式以及checkpoint的使用9
第82講-使用者訪問session分析:資料傾斜解決方案之原理以及現象分析,
第83講-使用者訪問session分析:資料傾斜解決方案之聚合源資料以及過濾導致傾斜的key 
第84講-使用者訪問session分析:資料傾斜解決方案之提高shuffle操作reduce並行度
第85講-使用者訪問session分析:資料傾斜解決方案之使用隨機key實現雙重聚合6 
第86講-使用者訪問session分析:資料傾斜解決方案之將reduce join轉換為map join% 
第87講-使用者訪問session分析:資料傾斜解決方案之sample取樣傾斜key單獨進行join
第88講-使用者訪問session分析:資料傾斜解決方案之使用隨機數以及擴容表進行join

四、頁面單跳轉化率統計:
第89講-頁面單跳轉化率:模組介紹
第90講-頁面單跳轉化率:需求分析、技術方案設計、資料表設計$ 
第91講-頁面單跳轉化率:編寫基礎程式碼, 
第92講-頁面單跳轉化率:頁面切片生成以及頁面流匹配演算法實現
第93講-頁面單跳轉化率:計算頁面流起始頁面的pv-
第94講-頁面單跳轉化率:計算頁面切片的轉化率/ 
第95講-頁面單跳轉化率:將頁面切片轉化率寫入MySQL
第96講-頁面單跳轉化率:本地測試
第97講-頁面單跳轉化率:生產環境測試& 
第98講-使用者訪問session分析:生產環境測試

五、各區域熱門商品統計:
第99講-各區域熱門商品統計:模組介紹
第100講-各區域熱門商品統計:需求分析、技術方案設計以及資料設計
第101講-各區域熱門商品統計:查詢使用者指定日期範圍內的點選行為資料
第102講-各區域熱門商品統計:異構資料來源之從MySQL中查詢城市資料
第103講-各區域熱門商品統計:關聯城市資訊以及RDD轉換為DataFrame後註冊臨時表1 
第104講-各區域熱門商品統計:開發自定義UDAF聚合函式之group_concat_distinct(),
第105講-各區域熱門商品統計:查詢各區域各商品的點選次數並拼接城市列表6 _:
第106講-各區域熱門商品統計:關聯商品資訊並使用自定義get_json_object函式和內建if函式標記經營型別
第106講-各區域熱門商品統計:使用開窗函式統計各區域的top3熱門商品8 
第107講-各區域熱門商品統計:使用內建case when函式給各個區域打上級別標記$
第108講-各區域熱門商品統計:將結果資料寫入MySQL中6 P3 
第109講-各區域熱門商品統計:Spark SQL資料傾斜解決方案4 z"
第110講-各區域熱門商品統計:生產環境測試  k:

六、廣告點選流量實時統計:
第111講-廣告點選流量實時統計:需求分析、技術方案設計以及資料設計
第112講-廣告點選流量實時統計:為動態黑名單實時計算每天各使用者對各廣告的點選次數1 
第113講-廣告點選流量實時統計:使用高效能方式將實時計算結果寫入MySQL中6 ]1
第114講-廣告點選流量實時統計:過濾出每個batch中的黑名單使用者以生成動態黑名單
第115講-廣告點選流量實時統計:基於動態黑名單進行點選行為過濾:
第116講-廣告點選流量實時統計:計算每天各省各城市各廣告的點選量
第117講-廣告點選流量實時統計:計算每天各省的top3熱門廣告9 
第118講-廣告點選流量實時統計:計算每天各廣告最近1小時滑動視窗內的點選趨勢,
第119講-廣告點選流量實時統計:實現實時計算程式的HA高可用性
第120講-廣告點選流量實時統計:對實時計算程式進行效能調優
第121講-廣告點選流量實時統計:生產環境測試
第122講-課程總結:都學到了什麼?

新升級增加課程大綱:'
第123講-(贈送)Spark 2.0-新特性介紹
第124講-(贈送)Spark 2.0-新特性介紹-易用性:標準化SQL支援以及更合理的API
第125講-(贈送)Spark 2.0-新特性介紹-高效能:讓Spark作為編譯器來執行,
第126講-(贈送)Spark 2.0-新特性介紹-智慧化:Structured Streaming介紹
第127講-(贈送)Spark 2.0-新特性介紹-Spark 1.x的Volcano Iterator Model技術缺陷分析*
第128講-(贈送)Spark 2.0-新特性介紹-whole-stage code generation技術和vectorization技術
第129講-(贈送)Spark 2.0-Spark 2.x與1.x對比以及分析、學習建議以及使用建議
第130講-(贈送)Spark 2.0-課程環境搭建:虛擬機器、CentOS、Hadoop、Spark等4
第131講-(贈送)Spark 2.0-開發環境搭建:Eclipse+Maven+Scala+Spark1 
第132講-基於Spark 2.0的使用者活躍度分析:模組介紹以及互動式使用者行為分析系統的解釋3 l4 
第133講-基於Spark 2.0的使用者活躍度分析:統計指定時間內訪問次數最多的10個使用者
第134講-基於Spark 2.0的使用者活躍度分析:統計指定時間內購買金額最多的10個使用者
第135講-基於Spark 2.0的使用者活躍度分析:統計最近一個週期相比上一個週期訪問次數增長最多的10個使用者1 
第136講-基於Spark 2.0的使用者活躍度分析:統計最近一個週期相比上一個週期購買金額增長最多的10個使用者
第137講-基於Spark 2.0的使用者活躍度分析:統計指定註冊時間範圍內頭7天訪問次數最高的10個使用者

第138講-基於Spark 2.0的使用者活躍度分析:統計指定註冊時間範圍內頭7天購買金額最高的10個使用者