1. 程式人生 > >機器學習---分類、迴歸、聚類、降維的區別

機器學習---分類、迴歸、聚類、降維的區別

這裡寫圖片描述

由上圖我們可以看到,機器學習分為四大塊,分別是

 classification (分類),

 regression (迴歸), 

 clustering (聚類), 

 dimensionality reduction (降維)。

給定一個樣本特徵 x, 我們希望預測其對應的屬性值 y, 如果 y 是離散的, 那麼這就是一個分類問題,反之,如果 y 是連續的實數, 這就是一個迴歸問題

如果給定一組樣本特徵S={xRD}, 我們沒有對應的屬性值 y, 而是想發掘這組樣本在 D 維空間的分佈, 比如分析哪些樣本靠的更近,哪些樣本之間離得很遠, 這就是屬於聚類問題

如果我們想用維數更低的子空間來表示原來高維的特徵空間, 那麼這就是降維問題

classification & regression

       無論是分類還是迴歸,都是想建立一個預測模型 H,給定一個輸入  x, 可以得到一個輸出 y

y=H(x)

     不同的只是在分類問題中, y 是離散的; 而在迴歸問題中 y 是連續的。所以總得來說,兩種問題的學習演算法都很類似。所以在這個圖譜上,我們看到在分類問題中用到的學習演算法,在迴歸問題中也能使用。分類問題最常用的學習演算法包括 SVM (支援向量機) , SGD (隨機梯度下降演算法), Bayes (貝葉斯估計), Ensemble, KNN 等。

迴歸問題也能使用 SVR, SGD, Ensemble 等算法,以及其它線性迴歸演算法。

clustering

      聚類也是分析樣本的屬性, 有點類似classification, 不同的就是classification 在預測之前是知道 y 的範圍, 或者說知道到底有幾個類別, 而聚類是不知道屬性的範圍的。所以 classification 也常常被稱為 supervised learning, 而clustering就被稱為unsupervised learning。 
clustering 事先不知道樣本的屬性範圍,只能憑藉樣本在特徵空間的分佈來分析樣本的屬性。這種問題一般更復雜。而常用的演算法包括 k-means (K-均值), GMM (高斯混合模型) 等。

dimensionality reduction

      降維是機器學習另一個重要的領域, 降維有很多重要的應用, 特徵的維數過高, 會增加訓練的負擔與儲存空間, 降維就是希望去除特徵的冗餘, 用更加少的維數來表示特徵.降維演算法最基礎的就是PCA了, 後面的很多演算法都是以PCA為基礎演化而來。