1. 程式人生 > >常用機器學習演算法優缺點

常用機器學習演算法優缺點

一、邏輯迴歸
1、優點
(1)簡單、訓練速度快
(2)容易理解
(3)可以用來進行特徵的選擇
2、缺點
(1)一般只能處理線性可分的二分類問題
(2)特徵空間很大時,效能不是很好
(3)欠擬合
(4)兩邊的概率變化太小,沒有區分度
(5)不能很好的處理大量多類特徵
(6)多重共線性,但可以用L2正則化解決

二、KNN演算法
1、優點
(1)容易理解和視覺化
(2)訓練時間複雜度為O(n)
(3)可用於非線性分類
2、缺點
(1)計算量大
(2)需要消耗大量記憶體
(3)類別不平衡問題時,準確率不高

三、RF演算法
1、優點
(1)容易理解
(2)容易並行化
(3)能夠給出特徵重要性
(4)對缺失值不太敏感
2、缺點
(1)對小資料或者低維資料效果不好
(2)對噪音較大的資料容易過擬合
(3)如果基於資訊增益的劃分方式,偏向於屬性值較多的特徵

四、XGBoost
1、優點
(1)不僅是CART樹,還可以線性分類器
(2)引入正則化,提高模型的泛化能力
(3)基於預排序演算法,並行訓練
(4)對損失函式進行二階泰勒展開,利用了一階和二階導數
2、缺點
(1)基於level-wise的分裂方式
(2)預排序方法空間消耗比較大,不僅要儲存特徵值,也要儲存特徵的排序索引,同時時間消耗也大

五、lightGBM
1、優點
(1)直方圖做差加速
(2)基於leaf-wise
(3)lightgbm使用了基於histogram的決策樹演算法,這一點不同與xgboost中的exact演算法,histogram演算法在記憶體和計算代價上都有不小優勢。

相關推薦

常用機器學習演算法優缺點

一、邏輯迴歸 1、優點 (1)簡單、訓練速度快 (2)容易理解 (3)可以用來進行特徵的選擇 2、缺點 (1)一般只能處理線性可分的二分類問題 (2)特徵空間很大時,效能不是很好 (3)

常見機器學習演算法優缺點總結

一、樸素貝葉斯 1.1主要優點: 1)樸素貝葉斯模型發源於古典數學理論,有穩定的分類效率。 2)對小規模的資料表現很好,能個處理多分類任務,適合增量式訓練,尤其是資料量超出記憶體時,我們可以一批批的去增量訓練。 3)對缺失資料不太敏感,演算法也比較簡單,常用於文字分類

盤點|最實用的機器學習演算法優缺點分析,沒有比這篇說得更好了

AI技術年度盛會即將開啟!11月8-9日,來自Google、Amazon、微軟、Facebook、LinkedIn、阿里巴巴、百度、騰訊、美團、京東、小米、位元組跳動、滴滴、商湯、曠視、思必馳、第四正規化、雲知聲等企業的技術大咖將帶來工業界AI應用的最新思維。 如果你是某

【面試複習系列】常用機器學習演算法知識點及其解析,面試官會考的幾乎都有,歡迎補充

圖片慢慢上傳,看不到圖片的請點這裡: LR:logistic regression  對數機率迴歸/邏輯迴歸 sigmoid函式的作用就是用於把輸出歸一到1和0,也就

主流機器學習演算法優缺點總結

1. 決策樹:判別模型,多分類與迴歸,正則化的極大似然估計 特點: 適用於小資料集 優點: 計算量簡單,可解釋性強,比較適合處理有缺失屬性值的樣本,能夠處理不相關的特徵; 缺點: 容易過擬合(後續出現了隨機森林,減小了過擬合現象),使用剪枝來避免過擬合; 適用

常用機器學習算法優缺點及應用匯總

apr 分析 完成 垃圾 支持向量機 pvc 遙感 銀行 決策 一、K-Means聚類算法 優點: (1)原理簡單,實現容易,收斂速度快 (2)球形邊界效果較好 缺點: (1)k取值不好把握 (2)非球形邊界效果較差 (3)對噪音和異常點較敏感 應用: (1)被大多數搜索引

資料分析師最常用的10個機器學習演算法

在機器學習領域,有種說法叫做“世上沒有免費的午餐”,簡而言之,它是指沒有任何一種演算法能在每個問題上都能有最好的效果,這個理論在監督學習方面體現得尤為重要。   舉個例子來說,你不能說神經網路永遠比決策樹好,反之亦然。模型執行被許多因素左右,例如資料集的大小和結構。  

迴歸、分類與聚類:三大方向剖解機器學習演算法優缺點

在本教程中,作者對現代機器學習演算法進行一次簡要的實戰梳理。雖然類似的總結有很多,但是它們都沒有真正解釋清楚每個演算法在實踐中的好壞,而這正是本篇梳理希望完成的。因此本文力圖基於實踐中的經驗,討論每個演算法的優缺點。而機器之心也在文末給出了這些演算法的具體實現細節。 對機器學習演算法進行分類不是一

常用的幾種機器學習演算法迴歸模型python程式碼實現

       由於在論文實驗過程中一直使用的是python語言完成的論文實驗,所以在論文需要使用機器學習方法時就考慮使用了scikit-learn。        scikit-learn是一款很好的Python機器學習庫,它包含以下的特點:        (1)簡單高效的資

各種機器學習演算法優缺點(轉知乎)

##各種演算法的優缺點 ###K近鄰:演算法採用測量不同特徵值之間的距離的方法進行分類。 優點: 1.簡單好用,容易理解,精度高,理論成熟,既可以用來做分類也可以用來做迴歸; 2.可用於數值型資料和離散型資料; 3.訓練時間複雜度為O(n);無資料輸入假定; 4

[Algorithm] 機器學習演算法常用指標總結

  考慮一個二分問題,即將例項分成正類(positive)或負類(negative)。對一個二分問題來說,會出現四種情況。如果一個例項是正類並且也被 預測成正類,即為真正類(True positive),如果例項是負類被預測成正類,稱之為假正類(False positive)。相應地,如果例項是負類被預測成負

常見機器學習演算法簡述及其優缺點

以此作第一篇吧。。 一、The k-means algorithm 即K-Means演算法 k-meansalgorithm演算法是一個聚類演算法,把n的物件根據他們的屬性分為k個分割(k< n)。 它與處理混合正態分佈的最大期望演算法(本十大演算法第五條)很相似,

自動駕駛中常用的四類機器學習演算法

機器學習演算法已經被廣泛應用於自動駕駛各種解決方案,電控單元中的感測器資料處理大大提高了機器學習

資料科學家常用的十大機器學習演算法,都在這了!

導語:本文列出了資料科學家使用的十大機器學習演算法,並且介紹了這十大演算法的特點,供各位機器學習

機器學習演算法常用策略

求解優化問題方面            1、固定A優化B再固定B優化A(代表演算法:ACS、EM)            2、引入白噪聲(randomness injection)提升模型的魯棒性,比如:建立模型方面            1、分層迭代(learning,se

CS231n——機器學習演算法——最優化

線上性分類的筆記中,介紹了影象分類任務中的兩個關鍵部分: 基於引數的評分函式。該函式將原始影象畫素對映為分類評分值(例如:一個線性函式)。 損失函式。該函式能夠根據分類評分和訓練集影象資料實際分類的一致性,衡量某個具體引數集的質量好壞。損失函式有多種版本和不同的實現方式(例

CS231n——機器學習演算法——線性分類(下:Softmax及其損失函式)

在前兩篇筆記中,基於線性分類上,線性分類中繼續記筆記。 1. Softmax分類器 SVM和Softmax分類器是最常用的兩個分類器,Softmax的損失函式與SVM的損失函式不同。對於學習過二元邏輯迴歸分類器的讀者來說,Softmax分類器就可以理解為邏輯迴歸分類器面對多個分類的一

CS231n——機器學習演算法——線性分類(中:SVM及其損失函式)

損失函式 Loss function 在線性分類(上)筆記中,定義了從影象畫素值到所屬類別的評分函式(score function),該函式的引數是權重矩陣W。 在函式中,資料 (

機器學習演算法--關聯分析

1.主要概念 關聯分析:從大規模資料集中尋找物品間隱含關係 頻繁項集:經常出現在一起的物品的集合 關聯規則:兩種物品之間可能存在的關係 支援度:資料集中包含該項集的記錄所佔的比例 置信度(可信度): 對於規則A-->B      定義可信度=支

機器學習演算法--聚類

常見的無監督學習型別:聚類任務  密度估計  異常檢測 聚類演算法試圖將樣本分成k個不想交的子集,每個子集稱為一個簇,對應一些潛在的概念。 樣本集x={x1, x2....xm} 每個樣本Xi={xi1,xi2...xin}對應n個特徵 劃分為K個不同的類別C={C1