關於舉辦“Hadoop大資料平臺開發與案例分析 ”高階工程師 實戰培訓
一、 課程介紹
1. 需求理解
Hadoop 設計之初的目標就定位於高可靠性、高可拓展性、高容錯性和高效性,正是這些設計上與生俱來的優點,才使得Hadoop 一出現就受到眾多大公司的青睞,同時也引起了研究界的普遍關注。
對電信運營商而言,使用者上網日誌包含了大量使用者個性化需求、喜好資訊,對其進行分析和挖掘,能更好地瞭解客戶需求。傳統經營分析系統小型機加關係型資料庫的架構無法滿足對海量非結構化資料的處理需求,搭建基於X86的Hadoop 平臺,引入大資料處理技術的方式,實現高效率、低成本、易擴充套件的經營分析系統混搭架構成為電信運營商最為傾向的選擇。本課程將全面介紹Hadoop平臺開發和運維的各項技術,對學員使用該項技術具有很高的應用價值。
2. 培訓課程架構與設計思路
(1)培訓架構:
本課程分為三個主要部分:
第一部分:重點講述大資料技術在的應用,使學員對大資料技術的廣泛應用有清晰的認識,在這環節當中會重點介紹Hadoop技術在整個大資料技術應用中的重要地位和應用情況。
第二部分:具體對hadoop技術進行模組化分拆,從大資料檔案儲存系統技術和分散式檔案系統平臺及其應用談起,介紹Hadoop技術各主要應用工具和方法,以及在運維維護當中的主流做法,使學員全面瞭解和掌握Hadoop技術的精華。
第三部分:重點剖析大資料的應用案例,使學員在案例當中對該項技術有更深入的感觀印象
(2)設計思路:
本課程採用模組化教學方法,以案例分析為主線,由淺入深、循序漸進、由理論到實踐操作進行設計。
(3)與企業的貼合點:
本課程結合企業轉型發展及大資料發展戰略,圍繞企業大資料業務及行業應用市場拓展發展目標,重點講授Hadoop的應用技術,提升企業IT技術人員的開發和運維能力,有很強的貼合度。
二、培訓時間及地點 可諮詢:13932327338
2018年11月20日-11月24日 珠海 (20日報到)
2018年12月18日-12月22日 北京 (18日報到)
2019年01月15日-01月19日 杭州 (15日報到)
三、培訓物件
業務支撐建設維護室、業務維護室、經營分析室人員;網路部、網管中心、網優中心從事大資料相關工作的人員
四、培訓目標
掌握大資料處理平臺(Hadoop、Spark、Storm)技術架構、以及平臺的安裝部署、運維配置、應用開發;掌握主流大資料Hadoop平臺和Spark實時處理平臺的技術架構和實際應用;利用Hadoop+Spark對行業大資料進行儲存管理和分析挖掘的技術應用;講解Hadoop生態系統元件,包括Storm,HDFS,MapReduce,HIVE,HBase,Spark,GraphX,MLib,Shark, ElasticSearch等大資料儲存管理、分散式資料庫、大型資料倉庫、大資料查詢與搜尋、大資料分析挖掘與分散式處理技術
五、培訓大綱
(1)課程框架
時間 培訓內容 教學方式
第一天 上午 第一部分:移動網際網路、大資料、雲端計算相關技術介紹
第二部分:大資料的挑戰和發展方向 理論講授+案例分析
下午 第三部分:大資料檔案儲存系統技術和分散式檔案系統平臺及其應用
第四部分:Hadoop檔案系統HDFS最佳實戰 理論講授+案例分析+小組討論
第二天 上午 第五部分:Hadoop運維管理與效能調優
第六部分:NOSQL資料庫Hbase與Redis 理論講授+案例分析+實戰演練
下午 第七部分:類SQL語句工具——Hive
第八部分:資料探勘SPARK建模基礎介紹 理論講授+案例分析+實戰演練
第三天 上午 第九部分:Kafka基礎介紹
第十部分:大資料典型應用與開發案例分析:網際網路資料運營 理論講授+案例分析
下午 第十一部分:當前資料中心的改造和轉換分析-以國內外運營商、網際網路公司為例
第十二部分:課程總結與問題答疑
評估培訓 理論講授+案例分析+小組討論
詳細培訓內容介紹
課程模組 課程主題 主要內容及案例和演示
模組一 移動網際網路、大資料、雲端計算相關技術介紹 1、 資料中心與雲端計算技術應用
2、 智慧城市與雲端計算技術應用
3、 移動網際網路、大資料與雲端計算關聯技術
4、 移動雲端計算的生態系統及產業鏈
5、 大資料技術在運營商、金融業、銀行業、電子商務行業、零售業、製造業、政務資訊化、網際網路、教育資訊化等行業中的應用實踐
6、 國內外主流的大資料解決方案介紹
7、 當前大資料解決方案與傳統資料庫方案的剖析比較
8、 Cloudera Hadoop 大資料平臺方案剖析
9、 開源的大資料生態系統平臺剖析
模組二 大資料的挑戰和發展方向 1、 大資料時代的挑戰
戰略決策能力
技術開發和資料處理能力
組織和運營能力
2、 大資料時代的發展方向
雲端計算是基礎設施架構
大資料是靈魂資產
分析、挖掘是手段
發現和預測是最終目標
3、 大資料探勘在各行業應用情況
電信行業應用及案例分析
網際網路行業應用及案例分析
金融行業應用及案例研究
銷售行業應用案例分析
模組三 大資料檔案儲存系統技術和分散式檔案系統平臺及其應用 1、 Hadoop的發展歷程
Hadoop大資料平臺架構
基於Hadoop平臺的PB級大資料儲存管理與分析處理的工作原理與機制
Hadoop 的核心元件剖析
2、 分散式檔案系統HDFS
概述、功能、作用、優勢
應用範疇、應用現狀
發展趨勢
3、 分散式檔案系統HDFS架構及原理
核心關鍵技術
設計精髓
基本工作原理
系統架構
檔案儲存模式
工作機制
儲存擴容與吞吐效能擴充套件
4、 分散式檔案系統HDFS操作
SHELL命令操作
I/O流式操作
檔案資料讀取、寫入、追加、刪除
檔案狀態查詢
資料塊分佈機制
資料同步與一致性
元資料管理技術
主節點與從節點工作機制
大資料負載均衡技術
HDFS大資料儲存叢集管理技術
5、 Hadoop生態系統元件
Storm
HDFS
MapReduce
HIVE
HBase
Spark
GraphX
MLib
Shark
模組四 Hadoop檔案系統HDFS最佳實戰 1、 HDFS的設計
2、 HDFS的概念
資料塊
namenode和datanode
聯邦HDFS
HDFS的高可用性
3、 命令列介面
4、 Hadoop檔案系統
5、 Java介面
從Hadoop URL讀取資料
通過FileSystem API讀取資料
寫入資料
目錄
查詢檔案系統
刪除資料
6、 資料流
剖析檔案讀取
剖析檔案寫入
一致模型
7、 通過Flume和Sqoop匯入資料
8、 通過distcp並行複製
9、 Hadoop存檔
使用Hadoop存檔工具
不足
模組五 Hadoop運維管理與效能調優 1、 第二代大資料處理框架
Yarn的工作原理及
DAG並行執行機制
Yarn大資料分析處理案例分析
Yarn 框架並行應用程式實踐
2、 叢集配置管理
Hadoop叢集配置
Hadoop效能調優與引數配置
Hadoop機架感知策略與配置
Hadoop壓縮機制
Hadoop任務負載均衡
Hadoop 叢集維護
Hadoop監控管理
3、 HDFS的靜態調優技巧
HDFS 的高吞吐量I/O效能調優技巧
MapReduce/Yarn的並行處理效能調優技巧
Hadoop叢集的執行故障剖析,以及解決方案
基於Hadoop大資料應用程式的效能瓶頸剖析與提
Hadoop 大資料運維監控管理系統 HUE 平臺的安裝部署與應用配置
Hadoop運維管理監控系統Ambari平臺的安裝部配置
Hadoop 叢集運維繫統 Ganglia, Nagios的安裝部署與應用配置
模組六 NOSQL資料庫Hbase與Redis 1、 NOSQL基礎
CAP理論
Base與ACID
NOSQL資料庫儲存型別
鍵值儲存
列儲存
文件儲存
圖形儲存
2、 HBase分散式資料基礎
3、 安裝Hbase
4、 Hbase應用
HBase的邏輯資料模型,HBase的表、行、列族、列、單元格、版本、row key排序
HBase的物理模型,名稱空間(表空間)、表模式(Schema)的設計法則
HBase 主節點HMaster的工作原理,HMaster的高可用配置,以及效能調優
HBase 從節點RegionServer(分割槽服務節點)的工作原理,表分割槽及儲存I/O高併發配置,以及效能調優
HBase的儲存引擎工作原理,以及HBase表資料的鍵值儲存結構,以及HFile儲存結構剖析
HBase表設計與資料操作以及資料庫管理操作
HBase叢集的安裝部署、引數配置和效能優化
5、 HBase分散式資料庫簡介、發展歷程、應用場景、工作原理、以及應用優勢與不足之處
HBase分散式資料庫叢集的主從式平臺架構和關鍵技術剖析
HBase偽分散式和物理叢集分散式的控制與執行配置
HBase從節點RegionServer(分割槽服務節點)的工作原理,表分割槽及儲存I/O高併發配置,以及效能調優
HBase的儲存引擎工作原理,以及HBase表資料的鍵值儲存結構,以及HFile儲存結構剖析
HBase表設計與資料操作以及資料庫管理操作
HBase叢集的安裝部署、引數配置和效能優化
ZooKeeper分散式協調服務系統的工作原理、平臺架構、叢集部署應用實戰
ZooKeeper叢集的原理架構,以及應用配置
6、 Redis記憶體資料庫介紹,以及業界應用案例
Redis記憶體資料庫叢集架構以及核心技術剖析
Redis 叢集的安裝部署與應用開發實戰
模組七 類SQL語句工具——Hive 1、 安裝Hive
2、 示例
3、 執行Hive
配置Hive
Hive服務
Metastore
4、 Hive與傳統資料庫相比
讀時模式vs.寫時模式
更新、事務和索引
5、 HiveQL
資料型別
操作與函式
6、 表
託管表和外部表
分割槽和桶
儲存格式
匯入資料
表的修改
表的丟棄
7、 查詢資料
排序和聚集
MapReduce指令碼
連線
子查詢
檢視
8、 使用者定義函式
寫UDF
寫UDAF
模組八 資料探勘SPARK建模基礎介紹
1、 Spark簡介
Spark是什麼
Spark生態系統BDAS
2、 Spark架構
Spark分散式架構與單機多核架構的異同
3、 Spark叢集的安裝與部署
Spark的安裝與部署
Spark叢集初試
4、 Spark硬體配置
Spark硬體
Spark硬體配置流程
模組九 Kafka基礎介紹 1、 Kafka介紹
2、 kafka體系結構
3、 kafka設計理念簡介
4、 kafka通訊協議
5、 kafka的偽分佈安裝、叢集安裝
6、 kafka的shell操作、java操作
7、 kafka設計理念*
8、 kafka producer和consumer開發
9、 Kafka分散式訊息訂閱系統的應用介紹、平臺架構、叢集部署與配置應用實戰
10、 Flume-NG資料採集系統的資料流模型、平臺架構、叢集部署與配置應用實戰
11、 Hadoop與DBMS之間資料互動工具Sqoop的應用實踐,
12、 Sqoop匯入匯出資料以及Sqoop叢集部署與配置
13、 Kettle 叢集的平臺架構、核心技術、部署配置和應用實戰
14、 利用Sqoop實現 MySQL 與 Hadoop 叢集之間
模組十 大資料典型應用與開發案例分析:網際網路資料運營 1、 案例1:貴州資料交易中心
交易所交易形式:電子交易
交易所服務:大資料交易、大資料清洗建模分析、大資料定向採購、大資料平臺技術開發
大資料交易安全性探討分析
資料交易中心商業模式探討分析
2、 案例2:大資料應用案例:公共交通線路的智慧規劃
UrbanInsights:為公交公司提供基於訂閱訪問的大資料工具以及大資料諮詢服務
Urban Insights資料來源、資料收集、資料倉庫、資料分析——設計運營線路
Urban Insights通過網際網路資料的運營
3、 討論:浙江移動大資料應用與開發方向
模組十一 當前資料中心的改造和轉換分析-以國內外運營商、網際網路公司為例 1、 流商業大資料解決方案比較
2、 主流開源雲端計算系統比較
3、 國內外代表性大資料平臺比較
4、 各廠商最新的大資料產品介紹
5、 案例分析
Facebook的SNS平臺應用
Google的搜尋引擎應用
Rackspace的日誌處理
Verizon成立精準市場營銷部
TelefonicaDynamicInsights推出的名為“智慧足跡”的商業服務
中國聯通的“行動通訊使用者上網記錄集中查詢與分析支撐系統”
模組十二 課程總結與問題答疑
六、師資介紹
張老師:阿里大資料高階專家,國內資深的Spark、Hadoop技術專家、虛擬化專家,對HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生態系統中的技術進行了多年的深入的研究,更主要的是這些技術在大量的實際專案中得到廣泛的應用,因此在Hadoop開發和運維方面積累了豐富的專案實施經驗。近年主要典型的專案有:網際網路公共資料大雲(DAAS)和構建遊戲雲(Web Game Daas)平臺專案等。
七、頒發證書
參加相關培訓並通過考試的學員,可以獲得:
工業和資訊化部全國網路與資訊科技專案管理中心頒發的-《大資料開發高階工程師證書》。該證書可作為專業技術人員職業能力考核的證明,以及專業技術人員崗位聘用、任職、定級和晉升職務的重要依據。注:請學員帶一寸彩照2張(背面註明姓名)、身份證影印件一張。
八、培訓費用及須知