1. 程式人生 > >機器學習(二):有監督學習、無監督學習和半監督學習

機器學習(二):有監督學習、無監督學習和半監督學習

機器學習分類.png

一、基本概念

1 特徵(feature)
資料的特徵。

舉例:書的內容

2 標籤(label)
資料的標籤。

舉例:書屬於的類別,例如“計算機”“圖形學”“英文書”“教材”等。

3 學習(learning)
將很多資料丟給計算機分析,以此來訓練該計算機,培養計算機給資料分類的能力。換句話說,學習指的就是找到特徵與標籤的對映(mapping)關係。這樣當有特徵而無標籤的未知資料輸入時,我們就可以通過已有的關係得到未知資料標籤。

舉例:把很多書交給一個學生,培養他給書本分類的能力。

4 分類(classification)
定性輸出稱為分類,或者說是離散變數預測。

舉例:預測明天是陰、晴還是雨,就是一個分類任務。

5 迴歸(regression)
定量輸出稱為迴歸,或者說是連續變數預測;

舉例:預測明天的氣溫是多少度,這是一個迴歸任務;

6 聚類(clustering)
無監督學習的結果。聚類的結果將產生一組集合,集合中的物件與同集合中的物件彼此相似,與其他集合中的物件相異。

舉例:沒有標準參考的學生給書本分的類別,表示自己認為這些書可能是同一類別的(具體什麼類別不知道)。

二、有監督學習(supervised learning)

不僅把訓練資料丟給計算機,而且還把分類的結果(資料具有的標籤)也一併丟給計算機分析。
計算機進行學習之後,再丟給它新的未知的資料,它也能計算出該資料導致各種結果的概率,給你一個最接近正確的結果。
由於計算機在學習的過程中不僅有訓練資料,而且有訓練結果(標籤),因此訓練的效果通常不錯。

舉例:不僅把書給學生進行訓練給書本分類的能力,而且把分類的結果(哪本書屬於哪些類別)也給了學生做標準參考。

有監督學習的結果可分為兩類:分類或迴歸。

三、無監督學習(unsupervised learning)

只給計算機訓練資料,不給結果(標籤),因此計算機無法準確地知道哪些資料具有哪些標籤,只能憑藉強大的計算能力分析資料的特徵,從而得到一定的成果,通常是得到一些集合,集合內的資料在某些特徵上相同或相似。

舉例:只給學生進行未分類的書本進行訓練,不給標準參考,學生只能自己分析哪些書比較像,根據相同與相似點列出清單,說明哪些書比較可能是同一類別的。

四、半監督學習(semi-supervised learning)

有監督學習和無監督學習的中間帶就是半監督學習(semi-supervised learning)。對於半監督學習,其訓練資料的一部分是有標籤的,另一部分沒有標籤,而沒標籤資料的數量常常遠遠大於有標籤資料數量(這也是符合現實情況的)。
隱藏在半監督學習下的基本規律在於:資料的分佈必然不是完全隨機的,通過一些有標籤資料的區域性特徵,以及更多沒標籤資料的整體分佈,就可以得到可以接受甚至是非常好的分類結果。

舉例:給學生很多未分類的書本與少量的清單,清單上說明哪些書屬於同一類別。

從不同的學習場景看,SSL可分為四大類:

1 半監督分類
半監督分類(Semi-Supervised Classification):是在無類標籤的樣例的幫助下訓練有類標籤的樣本,獲得比只用有類標籤的樣本訓練得到的分類器效能更優的分類器,彌補有類標籤的樣本不足的缺陷,其中類標籤 取有限離散值。

2 半監督迴歸
半監督迴歸(Semi-Supervised Regression):在無輸出的輸入的幫助下訓練有輸出的輸入,獲得比只用有輸出的輸入訓練得到的迴歸器效能更好的迴歸器,其中輸出取連續值。

3 半監督聚類
半監督聚類(Semi-Supervised Clustering):在有類標籤的樣本的資訊幫助下獲得比只用無類標籤的樣例得到的結果更好的簇,提高聚類方法的精度。

4 半監督降維
半監督降維(Semi-Supervised Dimensionality Reduction):在有類標籤的樣本的資訊幫助下找到高維輸入資料的低維結構,同時保持原始高維資料和成對約束(Pair-Wise Constraints)的結構不變,即在高維空間中滿足正約束(Must-Link Constraints)的樣例在低維空間中相距很近,在高維空間中滿足負約束(Cannot-Link Constraints)的樣例在低維空間中距離很遠。