1. 程式人生 > >【方法論】機器學習算法概覽

【方法論】機器學習算法概覽

bootstra c4.5 enc letter 當下 重要 dial 最大 local

http://blog.itpub.net/31542119/viewspace-2168911/

1、 監督式學習

工作機制:這個算法由一個目標變量或結果變量(或因變量)組成。這些變量由已知的一系列預示變量(自變量)預測而來。利用這一系列變量,我們生成一個將輸入值映射到期望輸出值的函數。這個訓練過程會一直持續,直到模型在訓練數據上獲得期望的精確度。監督式學習的例子有:回歸、決策樹、隨機森林、K – 近鄰算法、邏輯回歸等。

2、非監督式學習

工作機制:在這個算法中,沒有任何目標變量或結果變量要預測或估計。這個算法用在不同的組內聚類分析。這種分析方式被廣泛地用來細分客戶,根據幹預的方式分為不同的用戶組。非監督式學習的例子有:關聯算法和 K – 均值算法。

3、強化學習

工作機制:這個算法訓練機器進行決策。它是這樣工作的:機器被放在一個能讓它通過反復試錯來訓練自己的環境中。機器從過去的經驗中進行學習,並且嘗試利用了解最透徹的知識作出精確的商業判斷。 強化學習的例子有馬爾可夫決策過程。


回歸(Regression)

回歸是在自變量和需要預測的變量之間構建一個模型,並使用叠代的方法逐漸降低預測值和真實值之間的誤差。回歸方法是統計機器學習的一種 。

常用的回歸算法如下:

  • Ordinary Least Squares(最小二乘法)

  • Logistic Regression(邏輯斯底回歸)

  • Stepwise Regression(逐步回歸)

  • Multivariate Adaptive Regression Splines(多元自適應回歸樣條法)

  • Locally Estimated Scatterplot Smoothing(局部加權散點平滑法)

基於樣例的方法(Instance-based Methods)

基於樣例的方法需要一個樣本庫,當新樣本出現時,在樣本庫中找到最佳匹配的若幹個樣本,然後做出推測。基於樣例的方法又被成為勝者為王的方法和基於內存的學習,該算法主要關註樣本之間相似度的計算方法和存儲數據的表示形式。

  • k-Nearest Neighbour (kNN)

  • Learning Vector Quantization (LVQ)

  • Self-Organizing Map (SOM)

正則化方法(Regularization Methods)

這是一個對其他方法的延伸(通常是回歸方法),這個延伸就是在模型上加上了一個懲罰項,相當於奧卡姆提到,對越簡單的模型越有利,有防止過擬合的作用,並且更擅長歸納。我在這裏列出它是因為它的流行和強大。

  • Ridge Regression

  • Least Absolute Shrinkage and Selection Operator (LASSO)

  • Elastic Net

決策樹模型(Decision Tree Learning)

決策樹方法建立了一個根據數據中屬性的實際值決策的模型。決策樹用來解決歸納和回歸問題。

  • Classification and Regression Tree (CART)

  • Iterative Dichotomiser 3 (ID3)

  • C4.5

  • Chi-squared Automatic Interaction Detection (CHAID)

  • Decision Stump

  • Random Forest

  • Multivariate Adaptive Regression Splines (MARS)

  • Gradient Boosting Machines (GBM)

貝葉斯(Bayesian)

貝葉斯方法是在解決歸類和回歸問題中應用了貝葉斯定理的方法。

  • Naive Bayes

  • Averaged One-Dependence Estimators (AODE)

  • Bayesian Belief Network (BBN)

核方法(Kernel Methods)

核方法中最有名的是Support Vector Machines(支持向量機)。這種方法把輸入數據映射到更高維度上,將其變得可分,使得歸類和回歸問題更容易建模。

  • Support Vector Machines (SVM)

  • Radial Basis Function (RBF)

  • Linear Discriminate Analysis (LDA)

聚類(Clustering Methods)

聚類本身就形容了問題和方法。聚類方法通常是由建模方式分類的比如基於中心的聚類和層次聚類。所有的聚類方法都是利用數據的內在結構來組織數據,使得每組內的點有最大的共同性。

  • K-Means

  • Expectation Maximisation (EM)

聯合規則學習(Association Rule Learning)

聯合規則學習是用來對數據間提取規律的方法,通過這些規律可以發現巨量多維空間數據之間的聯系,而這些重要的聯系可以被組織拿來使用或者盈利。

  • Apriori algorithm

  • Eclat algorithm

人工神經網絡(Artificial Neural Networks)

受生物神經網絡的結構和功能的啟發誕生的人工神經網絡屬於模式匹配一類,經常被用於回歸和分類問題,但是它存在上百個算法和變種組成。其中有一些是經典流行的算法(深度學習拿出來單獨講):

  • Perceptron

  • Back-Propagation

  • Hopfield Network

  • Self-Organizing Map (SOM)

  • Learning Vector Quantization (LVQ)

深度學習(Deep Learning)

Deep Learning(深度學習)方法是人工神經網絡在當下的一個變種。相比傳統的神經網絡,它更關註更加復雜的網絡構成,許多方法都是關心半監督學習,就是一個大數據集中只有少量標註數據的那種問題。

  • Restricted Boltzmann Machine (RBM)

  • Deep Belief Networks (DBN)

  • Convolutional Network

  • Stacked Auto-encoders

降維(Dimensionality Reduction)

與聚類方法類似,對數據中的固有結構進行利用,使用無監督的方法學習一種方式,該方式用更少的信息來對數據做歸納和描述。這對於對數據進行可視化或者簡化數據很有用,也有去除噪聲的影響,經常采用這種方法使得算法更加高效。

  • Principal Component Analysis (PCA)

  • Partial Least Squares Regression (PLS)

  • Sammon Mapping

  • Multidimensional Scaling (MDS)

  • Projection Pursuit

組合方法(Ensemble Methods)

Ensemble methods(組合方法)由許多小的模型組成,這些模型經過獨立訓練,做出獨立的結論,最後匯總起來形成最後的預測。組合方法的研究點集中在使用什麽模型以及這些模型怎麽被組合起來。

  • Boosting

  • Bootstrapped Aggregation (Bagging)

  • AdaBoost

  • Stacked Generalization (blending)

  • Gradient Boosting Machines (GBM)

  • Random Forest

【方法論】機器學習算法概覽