1. 程式人生 > >以慕課網日誌分析為例 進入大資料 Spark SQL 的世界

以慕課網日誌分析為例 進入大資料 Spark SQL 的世界

第1章 初探大資料
本章將介紹為什麼要學習大資料、如何學好大資料、如何快速轉型大資料崗位、本專案實戰課程的內容安排、本專案實戰課程的前置內容介紹、開發環境介紹。同時為大家介紹專案中涉及的Hadoop、Hive相關的知識
1-1 導學
1-2 -如何學好大資料
1-3 -開發環境介紹
1-4 -OOTB映象檔案使用介紹
1-5 -大資料概述
1-6 -Hadoop概述
1-7 -HDFS概述及設計目標
1-8 -HDFS架構
1-9 -HDFS副本機制
1-10 -Hadoop下載及JDK安裝
1-11 -機器引數設定
1-12 -HDFS核心配置檔案內容配置
1-13 -HDFS格式化及啟停
1-14 -HDFS shell常用操作
1-15 -HDFS優缺點
1-16 -MapReduce概述
1-17 -MapReduce程式設計模型及WordCount案例
1-18 -YARN產生背景
1-19 -YARN架構和執行流程
1-20 -YARN環境搭建及提交作業到YARN上執行
1-21 -Hive產生背景及Hive是什麼
1-22 -為什麼要使用Hive及Hive發展歷程
1-23 -Hive體系架構及部署架構
1-24 -Hive環境搭建
1-25 -Hive基本使用

第2章 Spark及其生態圈概述
Spark作為近幾年最火爆的大資料處理技術,是成為大資料工程師必備的技能之一。本章將從如下幾個方面對Spark進行一個巨集觀上的介紹:Spark產生背景、特點、發展史、Databricks官方調查結果、Spark與Hadoop的對比、Spark開發語言及執行模式介紹 ...
2-1 -課程目錄
2-2 -Spark概述及特點
2-3 -Spark產生背景
2-4 -Spark發展歷史
2-5 -Spark Survey
2-6 -Spark對比Hadoop
2-7 -Spark和Hadoop的協作性

第3章 實戰環境搭建
工欲善其事必先利其器,本章講述Spark原始碼編譯、Spark Local模式執行、Spark Standalone模式執行
3-1 -課程目錄
3-2 -Spark原始碼編譯
3-3 補錄:Spark原始碼編譯中的坑
3-4 Spark Local模式環境搭建
3-5 Spark Standalone模式環境搭建
3-6 Spark簡單使用

第4章 Spark SQL概述
Spark SQL面世已來,它不僅接過了Shark的接力棒,繼續為Spark使用者提供高效能SQL on Hadoop解決方案,還為Spark帶來了通用、高效、多元一體的結構化資料處理能力。本章將從Spark SQL前世今生、SQL on Hadoop框架、Spark SQL概述、願景、架構,這幾個角度進行展開講解...
4-1 課程目錄
4-2 -Spark SQL前世今生
4-3 -SQL on Hadoop常用框架介紹
4-4 -Spark SQL概述
4-5 -Spark SQL願景
4-6 -Spark SQL架構

第5章 從Hive平滑過渡到Spark SQL
Hive是SQL-on-Hadoop的解決方案和預設的標準,如何將資料處理從Hive過渡到Spark SQL上來是我們必須要掌握的。本章我們將講解在Spark中操作Hive中的資料幾種方式
5-1 -課程目錄
5-2 -A SQLContext的使用
5-3 -B HiveContext的使用
5-4 -C SparkSession的使用
5-5 spark-shell&spark-sql的使用
5-6 -thriftserver&beeline的使用
5-7 -jdbc方式程式設計訪問

第6章 DateFrame&Dataset
DataFrame&Dataset是Spark2.x中最核心的程式設計物件,Spark2.x中的子框架能夠使用DataFrame或Dataset來進行資料的互動操作。本章將從DataFrame的產生背景、DataFrame對比RDD、DataFrame API操作等方面對DataFrame做詳細的程式設計開發講解
6-1 -課程目錄
6-2 -DataFrame產生背景
6-3 -DataFrame概述
6-4 -DataFrame和RDD的對比
6-5 -DataFrame基本API操作
6-6 -DataFrame與RDD互操作方式一
6-7 -DataFrame與RDD互操作方式二
6-8 -DataFrame API操作案例實戰
6-9 -Dataset概述及使用

第7章 External Data Source
Spark SQL中的核心功能,可以使用外部資料來源非常方便的對儲存在不同系統上的不同格式的資料進行操作。本章將講解如何使用外部資料來源來操作Hive、Parquet、MySQL中的資料以及綜合使用
7-1 -課程目錄
7-2 -產生背景
7-3 -概述
7-4 -目標
7-5 -操作Parquet檔案資料
7-6 -操作Hive表資料
7-7 -操作MySQL表資料
7-8 -Hive和MySQL綜合使用

第8章 SparkSQL願景
本章將講解Spark的願景:寫更少的程式碼、讀更少的資料、讓優化器自動優化程式
8-1 -A SparkSQL願景之一寫更少的程式碼(程式碼量和可讀性)
8-2 -B SparkSQL願景之一寫更少的程式碼(統一訪問操作介面)
8-3 -C SparkSQL願景之一寫更少的程式碼(強有力的API支援)
8-4 -D SparkSQL願景之一些更少的程式碼(Schema推導)
8-5 -E SparkSQL願景之一寫更少的程式碼(Schema Merge)
8-6 -F SparkSQL願景之一寫更少的程式碼(Partition Discovery)
8-7 -G SparkSQL願景之一寫更少的程式碼(執行速度更快)
8-8 -SparkSQL願景之二讀取更少的資料
8-9 -SparkSQL願景之三讓查詢優化器幫助我們優化執行效率
8-10 -SparkSQL願景總結

第9章 慕課網日誌實戰
本章使用Spark SQL對慕課網主站的訪問日誌進行各個維度的統計分析操作,涉及到的過程有:資料清洗、資料統計、統計結果入庫、資料的視覺化、調優及Spark on YARN。通過本實戰專案將Spark SQL中的知識點融會貫通,達到舉一反三的效果 ...
9-1 -課程目錄
9-2 -使用者行為日誌概述
9-3 -離線資料處理架構
9-4 -專案需求
9-5 imooc網主站日誌內容構成
9-6 資料清洗之第一步原始日誌解析
9-7 -資料清洗之二次清洗概述
9-8 -資料清洗之日誌解析
9-9 -資料清洗之ip地址解析
9-10 -資料清洗儲存到目標地址
9-11 -需求一統計功能實現
9-12 -Scala操作MySQL工具類開發
9-13 -需求一統計結果寫入到MySQL
9-14 -需求二統計功能實現
9-15 -需求二統計結果寫入到MySQL
9-16 -需求三統計功能實現
9-17 -需求三統計結果寫入到MySQL
9-18 -程式碼重構之刪除指定日期已有的資料
9-19 -功能實現之資料視覺化展示概述
9-20 -ECharts餅圖靜態資料展示
9-21 -ECharts餅圖動態展示之一查詢MySQL中的資料
9-22 -ECharts餅圖動態展示之二前端開發
9-23 -使用Zeppelin進行統計結果的展示
9-24 -Spark on YARN基礎
9-25 -資料清洗作業執行到YARN上
9-26 -統計作業執行在YARN上
9-27 -效能優化之儲存格式的選擇
9-28 -效能調優之壓縮格式的選擇
9-29 -效能優化之程式碼優化
9-30 -效能調優之引數優化

第10章 Spark SQL擴充套件和總結
本章將列舉Spark SQL在工作中經常用到的方方方面的總結
10-1 -課程目錄
10-2 -Spark SQL使用場景
10-3 -Spark SQL載入資料
10-4 -DataFrame與SQL的對比
10-5 -Schema
10-6 -SaveMode
10-7 -處理複雜的JSON資料
10-8 -SQL的覆蓋程度
10-9 -外部資料來源

第11章 補充內容
Spark SQL自定義外部資料來源使用實戰
11-1 -課程安排
11-2 -外部資料來源介面
11-3 -JDBC外部資料來源實現原始碼分析
11-4 -文字資料自定義外部資料來源實現案例分享

下載地址:以慕課網日誌分析為例 進入大資料 Spark SQL 的世界