2018-11-30
實戰培訓班的通知
當下是大資料時代,為構建大資料平臺,技術人員需要對分散式計算平臺有一定深入的理解和應用。MapReduce作為一個經典的分散式計算框架,已經廣為人知,且得到了廣泛的應用,但MapReduce自身存在很多問題,包括迭代式計算和DAG計算等型別的資料探勘與機器學習演算法效能低下,不能很好地利用記憶體資源,程式設計複雜度較高等。為了克服MapReduce的眾多問題,新型計算框架出現了。Spark已經被不少網際網路公司採用,大部分資料探勘演算法和迭代式演算法在逐步MapReduce平臺遷移到Spark平臺中,包括阿里巴巴,騰訊,百度,優酷土豆,360,支付寶等網際網路公司已經在線上產品中使用spark,且取得了令人滿意的效果,另外,部分省份的運營商也正在嘗試使用spark解決資料探勘和分析問題,部分銀行,如工商銀行,也正在嘗試spark平臺。因此北京中科軟培科技有限公司決定開展“Spark大資料處理與案例分析高階工程師”實戰培訓班,本次培訓由北京中科軟培科技有限公司具體承辦,望相關單位收到通知後積極參加。相關培訓事宜如下:
一、培訓時間及地點:可諮詢:13932327338 微信同號或掃下方二維碼,關注微信公眾號
2018年12月18日---12月22日 北京(18日全天報到)
2019年01月15日---01月19日 杭州(15日全天報到)

二、課程目標
1、 深入理解Spark計算原理和程式設計模型,掌握Spark Core和SparkSql、SparkStreaming等上層系統的結合方式
2、深入掌握SparkCore、SparkSql使用調優技巧
3、深入掌握SparkStreaming和SparkMllib使用和調優技巧
4、 深入掌握Spark和其他元件的結合使用
5、 瞭解Spark與MapReduce分散式計算模型的區別和各自適合的使用場景。
6、 能夠使用java、python和scala進行spark應用開發(如果要講解三種語言開發spark,工作量會非常大,建議只講解一種(可以根據企業的要求來定,)
7、熟練使用spark、spark streaming、spark SQL、spark mllib
8、深入瞭解spark在大型網際網路的架構和使用場景
三、培訓物件
各地企事業單位大資料產業相關人員,運營商 IT資訊化和運維工程師相關人員,金融業資訊化相關人員,或對大資料spark感興趣的相關人員。
四、師資介紹
張老師:阿里大資料高階專家,國內資深的Spark、Hadoop技術專家、虛擬化專家,對HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生態系統中的技術進行了多年的深入的研究,更主要的是這些技術在大量的實際專案中得到廣泛的應用,因此在Hadoop開發和運維方面積累了豐富的專案實施經驗。近年主要典型的專案有:某電信集團網路優化、中國移動某省移動公司請賬單系統和某省移動詳單實時查詢系統、中國銀聯大資料資料票據詳單平臺、某大型銀行大資料記錄系統、某大型通訊運營商全國使用者上網記錄、某省交通部門違章系統、某區域醫療大資料應用專案、網際網路公共資料大雲(DAAS)和構建遊戲雲(Web Game Daas)平臺專案等。
五、頒發證書
參加相關培訓並通過考試的學員,可以獲得:
1.工業和資訊化部全國網路與資訊科技專案管理中心頒發的-大資料高階工程師職業技能證書。該證書可作為專業技術人員職業能力考核的證明,以及專業技術人員崗位聘用、任職、定級和晉升職務的重要依據。
注:請學員帶一寸彩照2張(背面註明姓名)、身份證影印件一張。
六、培訓特色
本課程基於最新的spark 2講解,內容涵蓋了企業中大資料處理的四大場景:
離線批處理、流式計算、SQL處理、機器學習。Spark是一個廣泛應用的分散式記憶體計算模型,旨在大幅提升的迭代演算法和互動低延遲資料探勘的效能。Spark更適合於迭代運算比較多的ML和DM運算,one stack rule them all!Spark號稱一個平臺可以適合所有的應用,如SparkSql可以處理結構化資料,SparkStreaming旨在提供實時的計算能力,而SparkMllib則提供了豐富機器學習演算法庫。
七、培訓費用及須知
培訓費6800元。(含培訓費、資料費、考試費、證書費、講義光碟費等)。需要住宿學員請提前通知,可統一安排,費用自理。
八、培訓大綱
課程模組 課程主題 主要內容
模組一 Spark 2.1概述 1、Spark產生背景,包括mapreduce缺陷,多計算框架並存等
2、Spark 基本特點
3、Spark版本演化
4、Spark核心概念,包括RDD, transformation, action, cache等
5、Spark生態系統,包括Spark生態系統構成,以及與Hadoop生態系統關係
6、Spark在網際網路公司中的地位與應用
7、介紹當前網際網路公司的Spark應用案例
8、Spark叢集搭建,包括測試叢集搭建和生產環境中叢集搭建方法,並親手演示整個過程
9、背景知識補充介紹
模組二
1、Spark執行模式介紹
Spark執行元件構成,spark執行模式(local、standalone、mesos/yarn等)
2、Spark開發環境構建
整合開發環境選擇,親手演示spark程式開發與除錯,spark執行
3、常見transformation與action用法
介紹常見transformation與action使用方法,以及程式碼片段剖析
4、常見控制函式介紹
包括cache、broadcast、accumulator等
5、Spark 應用案例:點選流日誌分析
包括:背景介紹,資料匯入,資料分析,常見Spark transformation和action用法線上演示
模組三 Spark
內部原理剖析與原始碼閱讀 1、Spark執行模式剖析
深入分析spark執行模式,包括local,standalone以及spark on yarn
2、Spark執行流程剖析
包括spark邏輯查詢計劃,物理查詢計劃以及分散式執行
3、Spark shuffle剖析
深入介紹spark shuffle的實現,主要介紹hash-based和sort-based兩種實現
4、Spark 原始碼閱讀
Spark原始碼構成以及閱讀方法
模組三 Spark
程式調優技巧 1、資料儲存格式調優資料儲存格式選擇,資料壓縮演算法選擇等
2、資源調優
如何設定合理的executor、cpu和記憶體數目,YARN多租戶排程器合理設定,啟用YARN的標籤排程策略等
3、程式引數調優
介紹常見的調優引數,包括避免不必要的檔案分發,調整任務併發度,提高資料本地性,JVM引數調優,序列化等
4、程式實現調優
如何選擇最合適的transformation與action函式
5、調優案例分享與演示
演示一個調優案例,如何將一個spark程式的效能逐步優化20倍以上。
模組四 Spark sql 2.1 Spark SQL基本原理
1、Spark SQL是什麼
2、Spark SQL基本原理
3、Spark Dataframe與DataSet
4、Spark SQL與Spark Core的關係
模組五 Spark SQL
程式設計與企業級應用案例 1、Spark SQL程式設計
a. 如何訪問MySQL、HDFS等資料來源,如何處理parquet格式資料
b. 常用的DSL語法有哪些,如何使用
c. Spark SQL調優技巧
d. 資料傾斜解決方案
模組六 Spark Streaming程式設計及應用案例 1、Spark Streaming基本原理
a. Spark Streaming是什麼
b. Spark Streaming基本原理
c. Structured Streaming
d. Spark Streaming 程式設計介面介紹
e. Spark Streaming應用案例
2、Spark Streaming程式設計與企業級應用案例
a. 常見流式資料處理模式
b. Spark Streaming與Kafka 互動
c. Spark Streaming與Redis互動
d. Spark Streaming部署與執行
e. Spark Streaming企業級案例:使用者行為實時分析系統
模組七 Spark Mllib
Spark MLlib
企業級案例 1. Spark MLlib簡介
2. 資料表示方式
3. MLlib中的聚類、分類和推薦演算法
4. 如何使用MLlib的演算法
5. Spark MLLib企業級案例:使用者畫像之性別預測
模組八 Spark綜合案例
信用評分實時分析系統 1. 背景介紹
2. 什麼是Lambda architecture
3. 利用Spark Core+MLlib+構建離線處理
4. 利用flume+Spark Streaming+Redis構建實時處理線
5. 整合批處理和實時處理線
模組八 Spark綜合案例
信用評分實時分析系統 1. 背景介紹
2. 什麼是Lambda architecture
3. 利用Spark Core+MLlib+構建離線處理
4. 利用flume+Spark Streaming+Redis構建實時處理線
5. 整合批處理和實時處理線
模組九 典型專案
案例實戰 基於spark日誌分析
個性化推薦系統:帶你揭開其神祕面紗
線上投放引擎
揭開淘寶點選推薦系統的神祕面紗
淘寶資料服務架構—實時計算平臺
掃碼加群,共享資源
