1. 程式人生 > >資料探勘--模型選擇

資料探勘--模型選擇

本文轉自:https://blog.csdn.net/qq_20800249/article/details/80046476

名稱

假設

/關鍵

優缺點

模型

策略

演算法

感知機

拉格朗日對偶

1.初值不同結果不同

2.無法處理非線性

3.對偶形式將內積儲存(Gram矩陣),加速計算

 

 

 


誤分類點總數最小

梯度下降

 

KNN

1.k值選擇(交叉驗證法)

2.距離度量

3.分類決策規則

1.對異常點不敏感

2.不具有顯示學習過程(可解釋行差)

3.適用於多分類問題

4.計算量大(佔記憶體)

距離度量:p範數(L1、L2)

(各個座標距離最大值 )

決策規則:多數表決(=經驗風險最小化)

 

1.計算與x最近的k個點(Nk)

2.分類規則(多數表決)

3.kd樹(適用於訓練例項遠大於空間維數的搜素)

聚類分析

(無監督)

1.k值選擇

2.相似度量(距離)

1.初值敏感

2.異常點敏感

3.kmeans適合球狀

4.大資料集伸縮性好,高效,高斯分佈效果好

質心:

 

MSE(均方差):

 

K選擇:SSE(和方差)

 

選擇最小的k

K-means:

1.隨機初始化k個質心

2.對所有樣本計算x到k的距離,找最近的簇,新增類標記Ci;重新計算質心(均值)

3.重複直到中止(迭代次數、最小平方MSE、簇中心點變化率)

密度聚類、層次聚類

樸素貝葉斯

1.特徵條件獨立

2.貝葉斯定理

1.小規模表現良好,速度快,引數估計的個數銳減

2.在特徵關聯性較強的任務效能差

3.適用於多分類

極大似然估計:


貝葉斯估計

(λ=1 拉普拉斯平滑):

 

 

1.學習輸入輸出聯合概率分佈

2.求出最大後驗概率輸出y

迴歸模型

1.正則化:

L1會引入稀疏性,而L2會充分利用更多的特徵

2.LR迴歸:

1)假設特徵與分類結果存線上性關係

2)使用sigmoid函式對映到0-1(非線性對映將遠離分類面的點作用減弱)

LR:1適合分類概率的場景

2時間和記憶體需求高效(分散式資料、線上演算法)

3 對於小噪聲魯棒

4.易欠擬合精度不高

5資料特徵有缺失或者特徵空間很大時表現效果不好

6.必須線性可分

最小二乘:

1.均值迴歸,異常點敏感,魯棒性不高

2.存在最優解

 

LR迴歸(二項):

 

 對數機率:(概率->迴歸)

 

1.線性迴歸

 

2.嶺迴歸


3.lasso迴歸

4.LR迴歸(極大似然估計,求極大,也可增加L1、L2正則項)

 

1.梯度下降法

2.擬牛頓法(二階)

SVM

非線性對映

 

1.低泛化誤差,易解釋

2.只考慮支援向量的影響,對異常敏感,但也剔除冗餘

3.大規模訓練樣本,耗記憶體佔時間

4.多分類問題困難

核技巧:

1. 如果Feature的數量很大,跟樣本數量差不多,這時候選用LR或者是Linear Kernel的SVM

2. 如果Feature的數量比較小,樣本數量一般,不算大也不算小,選用SVM+Gaussian Kernel

3. 如果Feature的數量比較小,而樣本數量很多,需要手工新增一些feature變成第一種情況

 

硬間隔(線性可分):


軟間隔(線性不可分):

 

核技巧:

1.將原空間對映到新空間

2.新空間中線性分類

 

多項式核:

高斯核:

(最小間隔最大化)

拉格朗日對偶將minmax->maxmin

便有優化求導得到最優解

硬間隔:

軟間隔:

核技巧:

 

解出優化方程

得到相應引數

決策樹

1.特徵選擇

2.決策樹生成

3.決策樹修剪

1. 資料準備簡單,可解釋性強

2. 能夠同時處理資料型和常規型屬性

3. 在相對短的時間內能夠對大型資料來源做出可行且效果良好的結果

4.適合處理缺失屬性樣本

5.易過擬合

特徵準則—資訊增益(ID3):

(熵越大不確定性越大)


特徵準則—資訊增益比(C4.5):

 (比值解決了偏向取值較多的屬性的問題)

特徵準則—Gini(CART):

(越小集合D不確定性越小)

 

決策樹剪枝:

極小化決策樹整體損失,遞歸回縮,若C(Ta)<=C(Tb),剪枝

 

1.分類:遞迴選擇最優特徵

2.迴歸:最小二乘

1)選擇最優切分變數和切分點

 

2)計算每個劃分區域相應的輸出值

 


提升樹

採用加法模型與前向分步演算法,同時基函式採用決策樹演算法,對待分類問題採用二叉分類樹,對於迴歸問題採用二叉迴歸樹

Adboost:

1.低泛化誤差

2.易實現,分類準確率高,沒太多引數可調

3.對異常點較敏感

GBDT:

1.可用於多有分類和迴歸(線性/非線性)

2.可篩選特徵

3.解決過擬合問題

4.不好並行,複雜度高,不適合高維稀疏特徵

5.需要特徵歸一化

加法模型:

 

前向分部演算法:

經驗風險最小化:

 

(分類0-1損失,

迴歸平方損失,擬合殘差)

 

引數調優(GBDT):

樹個數、樹深度、縮放因子、損失函式、資料取樣比、特徵取樣比

Adboost:指數損失(e為誤差率)

(分類)

GBDT:對數、平方(殘差),0-1,似然損失,CART樹(迴歸),負梯度擬合(在上一輪分類器殘差上訓練,從而降低偏差)

 

構造特徵:(每個類別一棵樹)

新特徵維度為葉子節點總數,樣本落入每顆樹的節點為1,其餘為0,與RF結合輸入效果較好

預測:每個樹的預測值與縮放因子相乘求和。分類需轉化為(0-1)

樣本在每個樹的輸出f,計算概率


Xgboost:支援線性分類器;模型複雜度作為正則項加到優化目標中;使用二階導(泰勒展開);自動學習特徵缺失樣本的分裂向;特徵粒度上的並行(特徵儲存排序);列抽樣(降低過擬合);Shrinkage(縮減),相當於學習率

Adboost:

1.初始化權值分佈

2.學習基本分類器Gm(x)

3.計算誤差率

4.計算Gm係數α

5.更新權值分佈(誤差率越小樹權值越大,誤分類樣本權值增加)

 

GBDT:

1.初始化弱學習器

 

2.計算負梯度

3.對殘差擬合迴歸樹

3.葉子節點擬合


4.得到迴歸樹

整合模型

1.Bagging

2.隨機特徵

隨機森林:

1.難以解釋,平均很多樹的結果。

2.構造過程長,可以採用多核並行

3.隨機性:不易過擬合、較好的抗噪聲

4.高維資料,無特徵選擇,離散連續均可

隨機森林:

從d個特徵中隨機K個生成決策樹,若K=d為原始決策樹;若k=1為完全隨機樹,一般令K=logd

 

1.取樣T個取樣集(有放回),隨機抽取含m個特徵的取樣集

2.基於每個取樣集訓練一個基學習器

3. 分類問題:由投票表決;迴歸問題:k個模型預測結果的均值

關於調參:手動搜尋、網格搜尋、隨機搜尋、貝葉斯方法(通過計算在已知資料的情況下,哪種模型的後驗概率大即選擇哪種模型)

更多案例請關注“思享會Club”公眾號或者關注思享會部落格:http://gkhelp.cn/

在這裡插入圖片描述

名稱

假設

/關鍵

優缺點

模型

策略

演算法

感知機

拉格朗日對偶

1.初值不同結果不同

2.無法處理非線性

3.對偶形式將內積儲存(Gram矩陣),加速計算

 

 

 


誤分類點總數最小

梯度下降

 

KNN

1.k值選擇(交叉驗證法)

2.距離度量

3.分類決策規則

1.對異常點不敏感

2.不具有顯示學習過程(可解釋行差)

3.適用於多分類問題

4.計算量大(佔記憶體)

距離度量:p範數(L1、L2)

(各個座標距離最大值 )

決策規則:多數表決(=經驗風險最小化)

 

1.計算與x最近的k個點(Nk)

2.分類規則(多數表決)

3.kd樹(適用於訓練例項遠大於空間維數的搜素)

聚類分析

(無監督)

1.k值選擇

2.相似度量(距離)

1.初值敏感

2.異常點敏感

3.kmeans適合球狀

4.大資料集伸縮性好,高效,高斯分佈效果好

質心:

 

MSE(均方差):

 

K選擇:SSE(和方差)

 

選擇最小的k

K-means:

1.隨機初始化k個質心

2.對所有樣本計算x到k的距離,找最近的簇,新增類標記Ci;重新計算質心(均值)

3.重複直到中止(迭代次數、最小平方MSE、簇中心點變化率)

密度聚類、層次聚類

樸素貝葉斯

1.特徵條件獨立

2.貝葉斯定理

1.小規模表現良好,速度快,引數估計的個數銳減

2.在特徵關聯性較強的任務效能差

3.適用於多分類

極大似然估計:


貝葉斯估計

(λ=1 拉普拉斯平滑):

 

 

1.學習輸入輸出聯合概率分佈

2.求出最大後驗概率輸出y

迴歸模型

1.正則化:

L1會引入稀疏性,而L2會充分利用更多的特徵

2.LR迴歸:

1)假設特徵與分類結果存線上性關係

2)使用sigmoid函式對映到0-1(非線性對映將遠離分類面的點作用減弱)

LR:1適合分類概率的場景

2時間和記憶體需求高效(分散式資料、線上演算法)

3 對於小噪聲魯棒

4.易欠擬合精度不高

5資料特徵有缺失或者特徵空間很大時表現效果不好

6.必須線性可分

最小二乘:

1.均值迴歸,異常點敏感,魯棒性不高

2.存在最優解

 

LR迴歸(二項):

 

 對數機率:(概率->迴歸)

 

1.線性迴歸

 

2.嶺迴歸


3.lasso迴歸

4.LR迴歸(極大似然估計,求極大,也可增加L1、L2正則項)

 

1.梯度下降法

2.擬牛頓法(二階)

SVM

非線性對映

 

1.低泛化誤差,易解釋

2.只考慮支援向量的影響,對異常敏感,但也剔除冗餘

3.大規模訓練樣本,耗記憶體佔時間

4.多分類問題困難

核技巧:

1. 如果Feature的數量很大,跟樣本數量差不多,這時候選用LR或者是Linear Kernel的SVM

2. 如果Feature的數量比較小,樣本數量一般,不算大也不算小,選用SVM+Gaussian Kernel

3. 如果Feature的數量比較小,而樣本數量很多,需要手工新增一些feature變成第一種情況

 

硬間隔(線性可分):


軟間隔(線性不可分):

 

核技巧:

1.將原空間對映到新空間

2.新空間中線性分類

 

多項式核:

高斯核:

(最小間隔最大化)

拉格朗日對偶將minmax->maxmin

便有優化求導得到最優解

硬間隔:

軟間隔:

核技巧:

 

解出優化方程

得到相應引數

決策樹

1.特徵選擇

2.決策樹生成

3.決策樹修剪

1. 資料準備簡單,可解釋性強

2. 能夠同時處理資料型和常規型屬性

3. 在相對短的時間內能夠對大型資料來源做出可行且效果良好的結果

4.適合處理缺失屬性樣本

5.易過擬合

特徵準則—資訊增益(ID3):

(熵越大不確定性越大)


特徵準則—資訊增益比(C4.5):

 (比值解決了偏向取值較多的屬性的問題)

特徵準則—Gini(CART):

(越小集合D不確定性越小)

 

決策樹剪枝:

極小化決策樹整體損失,遞歸回縮,若C(Ta)<=C(Tb),剪枝

 

1.分類:遞迴選擇最優特徵

2.迴歸:最小二乘

1)選擇最優切分變數和切分點

 

2)計算每個劃分區域相應的輸出值

 


提升樹

採用加法模型與前向分步演算法,同時基函式採用決策樹演算法,對待分類問題採用二叉分類樹,對於迴歸問題採用二叉迴歸樹

Adboost:

1.低泛化誤差

2.易實現,分類準確率高,沒太多引數可調

3.對異常點較敏感

GBDT:

1.可用於多有分類和迴歸(線性/非線性)

2.可篩選特徵

3.解決過擬合問題

4.不好並行,複雜度高,不適合高維稀疏特徵

5.需要特徵歸一化

加法模型:

 

前向分部演算法:

經驗風險最小化:

 

(分類0-1損失,

迴歸平方損失,擬合殘差)

 

引數調優(GBDT):

樹個數、樹深度、縮放因子、損失函式、資料取樣比、特徵取樣比

Adboost:指數損失(e為誤差率)

(分類)

GBDT:對數、平方(殘差),0-1,似然損失,CART樹(迴歸),負梯度擬合(在上一輪分類器殘差上訓練,從而降低偏差)

 

構造特徵:(每個類別一棵樹)

新特徵維度為葉子節點總數,樣本落入每顆樹的節點為1,其餘為0,與RF結合輸入效果較好

預測:每個樹的預測值與縮放因子相乘求和。分類需轉化為(0-1)

樣本在每個樹的輸出f,計算概率


Xgboost:支援線性分類器;模型複雜度作為正則項加到優化目標中;使用二階導(泰勒展開);自動學習特徵缺失樣本的分裂向;特徵粒度上的並行(特徵儲存排序);列抽樣(降低過擬合);Shrinkage(縮減),相當於學習率

Adboost:

1.初始化權值分佈

2.學習基本分類器Gm(x)

3.計算誤差率

4.計算Gm係數α

5.更新權值分佈(誤差率越小樹權值越大,誤分類樣本權值增加)

 

GBDT:

1.初始化弱學習器

 

2.計算負梯度

3.對殘差擬合迴歸樹

3.葉子節點擬合


4.得到迴歸樹

整合模型

1.Bagging

2.隨機特徵

隨機森林:

1.難以解釋,平均很多樹的結果。

2.構造過程長,可以採用多核並行

3.隨機性:不易過擬合、較好的抗噪聲

4.高維資料,無特徵選擇,離散連續均可

隨機森林:

從d個特徵中隨機K個生成決策樹,若K=d為原始決策樹;若k=1為完全隨機樹,一般令K=logd

 

1.取樣T個取樣集(有放回),隨機抽取含m個特徵的取樣集

2.基於每個取樣集訓練一個基學習器

3. 分類問題:由投票表決;迴歸問題:k個模型預測結果的均值

關於調參:手動搜尋、網格搜尋、隨機搜尋、貝葉斯方法(通過計算在已知資料的情況下,哪種模型的後驗概率大即選擇哪種模型)

更多案例請關注“思享會Club”公眾號或者關注思享會部落格:http://gkhelp.cn/