1. 程式人生 > >大資料機器學習培訓提綱

大資料機器學習培訓提綱

(一)統計分析、資料倉庫與視覺化表達

1、  綜述(大資料、人工智慧、資料探勘、機器學習:這些詞的確切含義)

2、  假設檢驗:“小資料”時代是怎麼玩的?

3、  “迴歸”是資料探勘演算法嗎?

4、  度量、指標與維度

5、  星型模型與雪花模型

6、  下鑽與上卷

7、  資料倉庫的應用案例

8、  圖表該怎麼畫才對?

 

(二)大資料相關技術綜述

1、  hadoop:HDFS、Map-Reduce、Hbase、Hive、sqoop、pig、oozie等

2、  spark:scala、spark-SQL、spark-Streaming等

3、  搜尋引擎:lucene(solr)、ES

4、  併發的機器學習工具:R-hadoop、spark-MLLIB、 spark-R、pyspark

 

(三)儲存在hbase中的資料

1、  NoSQL(key-value)

2、  Hbase:安裝

3、  行鍵與列簇

4、  如何利用Hbase的特點儲存行業資料

5、  應用程式如何訪問Hbase中的資料

6、  資料遷移工具:sqoop

7、  Hbase的應用場景

 

(四)Hive:為SQL開發者留的活路

1、  Hive:安裝(單使用者與多使用者)

2、  Hive:基本操作

3、  Hive:與典型的關係型資料庫的區別

4、  儲存業務資料時的注意點

5、  如果“想慢”,你還可以這樣…(不恰當使用hive的案例介紹)

6、  Hive的應用場景

 

(六)Spark各元件的應用

1、  Hadoop最大的特點是什麼?

2、  Spark概述與安裝

3、  Scala:你可以一直“點”下去

4、  RDD:“對映”、“轉換”解決一切

5、  spark-SQL

6、  spark-streaming

7、  spark-graphX

8、  spark-MLLIB

9、  應用場景

 

(七)機器學習-1

1、  資料探勘、知識發現與機器學習

2、  工具:(早期)SPSS、SAS;

3、  目前流行的工具R、Python等

4、  決策樹(熵、貪心法、連續的和離散的)

5、  聚類(k-means、k-medoid)

6、  監督學習、無監督學習的差異

7、  機器學習效能評價指標

 

(八)機器學習-2

1、  KNN

2、  關聯規則(頻繁項集、Apriori、支援度、置信度、提升度)

3、  神經網路(神經元、激勵函式、前饋神經網路的BP演算法)

4、  SVM(最大間隔、核函式、多分類的支援向量機)

 

(九)機器學習-3

1、   “概率派”與“貝葉斯派”

2、  樸素貝葉斯模型(皮馬印第安人患糖尿病風險預測)

3、  極大似然估計與EM演算法

4、  HMM(三個基本問題:評估、解碼、學習)

 

(十)機器學習-4

1、  遺傳演算法 (交叉、選擇、變異,“同宿舍”問題)

2、  無監督學習

3、  整合學習(adaboost、RF)

4、  強化學習

 

(十一)深度學習-1

1、  連線主義的興衰

2、  地形要更陡:改進的目標函式

3、  0.9的100次方等於幾?克服梯度消散的方法(改進的激勵函式、BN)

4、  利用“慣性”下山:改進的優化演算法(Adagrad、RMSprop、Adam)

5、  防止“大鍋飯”:dropout

6、  記憶的關鍵是“合理的忘記”:weight decay

 

(十二)深度學習-2

1、  讓AI理解影象:典型CNN

2、  各種CNN

3、  讓AI理解語言:RNN與LSTM、GRU

4、  左右互搏術:GAN

5、  電子遊戲的新玩法:DQN