1. 程式人生 > >常用機器學習算法優缺點及應用匯總

常用機器學習算法優缺點及應用匯總

apr 分析 完成 垃圾 支持向量機 pvc 遙感 銀行 決策

一、K-Means聚類算法

優點:

(1)原理簡單,實現容易,收斂速度快

(2)球形邊界效果較好

缺點:

(1)k取值不好把握

(2)非球形邊界效果較差

(3)對噪音和異常點較敏感

應用:

(1)被大多數搜索引擎用於通過相似性對網頁進行聚類,並識別搜索結果的相關率,有助於搜索引擎減少用戶的計算時間

(2)用戶畫像

(3)對數據集內部進行探索

(4)用於數據離散壓縮

(5)處理數據不平衡問題(樣本不平衡專題細講)

相似度衡量:

(1)離散變量采用曼哈頓距離

(2)連續變量采用歐式距離

(3)文本采用余弦相似度或者傑卡德系數

二、支持向量機

優點:

(1)可以通過核函數解決非線性問題

(2)解決高維度特征問題是很有效,在特征維度大於樣本數時依然有效

(3)分類準確率較高、泛化能力強

缺點:

(1)特征維度遠遠大於樣本數,表現一般(維度災難)

(2)SVM在樣本量較大時,核函數映射維度非常高時,計算量過大

(3)核函數選擇沒有統一標準

(4)不適合大數據時代大樣本

(5)SVM是二元分類算法,雖然經擴展支持多分類,但計算量巨大。目前spark只實現了二分類

應用:
(1)常用於各種金融機構的股票市場預測

三、決策樹

優點:

(1)簡單直觀,提供可視化展示

(2)基本不需要對數據進行預處理,不需要歸一化、不需要處理缺失值

(3)對於異常點容錯性較高,健壯性高

(4)解釋性好

缺點:

(1)容易過擬合,泛化能力弱,可通過設置節點最少樣本數量或限制決策樹深度改進

(2)會因為樣本發生一點點的變化導致樹的結構發生變化,可以通過集成學習來改善

應用:

(1)財務中對期權定價有很大用處

(2)遙感是基於決策樹的模式識別的應用領域

(3)銀行使用決策樹算法按貸款申請人違約付款的概率進行分類

(4)Gerber產品公司,一個流行的嬰兒產品公司,使用決策樹機器學習算法來決定他們是否應繼續使用塑料PVC(聚氯乙烯)在他們的產品。

(5)Rush大學醫學中心開發了一個名為Guardian的工具,它使用決策樹機器學習算法來識別有風險的患者和疾病趨勢

四、隨機森林

優點:

(1)訓練可以高度並行化,對於大數據時代的大樣本訓練速度有優勢

(2)對缺失值、異常值不敏感

(3)泛化能力強,不需要剪枝

(4)很難建立一個壞的隨機森林、分類精度較高

缺點:

(1)容易使用,但理論上分析較困難

(2)速度較慢,因為內含多個決策樹弱分類器

(3)取值劃分比較多的特征容易對隨機森林的決策產生影響,從而影響模型效果

應用:

(1)被銀行用來預測貸款申請人是否可能為高風險人群

(2)汽車工業中預測機械部件是否存在故障

(3)醫療保健行業預測患者是否可能發展為慢性疾病

(4)回歸,預測社交媒體份額和績效分數的平均數

(5)預測語音識別軟件中的模式,並對圖像和文本進行分類

五、樸素貝葉斯

優點:

(1)對小規模的數據表現較好,能處理多分類任務

(2)對缺失數據不敏感,算法簡單,常用於文本分類

缺點:

(1)樸素貝葉斯建立在屬性之間相互獨立的假設之上

(2)通過先驗和數據來決定後驗的概率從而決定分類,所以分類決策存在一定的錯誤率

應用:

(1)情緒分析

(2)文檔分類

(3)垃圾郵件過濾

六、Aprior頻繁項挖掘

基本原理:

(1)如果項集合頻繁出現,則項集合的所有子集也頻繁出現。

(2)如果項集合不經常出現,則項集合的所有超集都不經常出現。

優點:

(1)易於實現,且容易並行化

(2)頻繁項集挖掘經典算法,很懂算法都是基於Aprior實現的,包括FP-Tree,GSP,CBA等

缺點:

(1)效率較低

應用:

(1)市場籃子分析

(2)自動完成應用程序

常用機器學習算法優缺點及應用匯總