監督學習與無監督學習
監督學習與無監督學習的區別_機器學習
最近發現很多人還是不能真正分清機器學習的學習方法,我以個人的愚見結合書本簡單說一下這個
機器學習中,可以根據學習任務的不同,分為監督學習(Supervised Learning),無監督學習(Unsupervised Learning)、半監督學習(Semi-Supervised Learning)和強化學習(Reinforcement Learning).
監督學習和無監督學習是使用較多的兩種學習方法,我們下面主要解釋這兩種學習方法
監督學習
監督學習中的數據中是提前做好了分類的信息的,如垃圾郵件檢測中,他的訓練樣本是提前存在分類的信息,也就是對垃圾郵件和非垃圾郵件的標記信息
垃圾郵件篩選
監督學習中,他的訓練樣本中是同時包含有特征和標簽信息的,
監督學習中,比較典型的問題就是像上面說的分類問題(Classfication)和回歸問題(Regression)
它們兩者最主要的特點就是分類算法中的標簽是離散的值,就像上面說的郵件分類問題中的標簽為{1, -1},分別表示了垃圾郵件和非垃圾郵件
而回歸算法中的標簽值一般是連續的值,如預測一個人的年齡,一般要根據身高、性別、體重等標簽,這是因為年齡是連續的正整數
在這個上面比較典型的算法有哦LR(Logistic Regression)、BP神經網絡算法以及常見的線性回歸算法
無監督學習
無監督學習是另一種常用的機器學習算法,與監督學習不同的是,無監督學習的樣本是不包含標簽信息的,只有一定的特征,所以由於沒有標簽信息,學習過程中並不知道分類結果是否正確
比較典型的是一些聚合新聞網站,利用爬蟲爬取新聞後對新聞進行分類的問題
例如 百度新聞
它們都是沒有新聞工作者的,只是聚合全網的新聞
例如我們搜索5G試點城市
所有有關這個關鍵字的新聞都會出現,它們被作為一個集合,在這裏我們稱它為聚合(Clustering)問題
無監督學習的典型問題就是上面說的聚類問題,比較有代表性的算法有K-Means算法(K均值算法)、DBSCAN算法等
聚類算法是無監督學習算法中最典型的一種學習算法,它是利用樣本的特征,將具有相似特征的樣本劃分到同一個類別中,而不會去關心這個類別是什麽
除了聚類算法外,無監督學習中還有一類重要的算法就是降維的算法,原理是將樣本點從輸入空間通過線性或非線性變換映射到一個低維空間,從而獲得一個關於原數據集的低維表示
比較常用的就是聚類算法
如果沒有弄明白,你可以去聽Andrew Ng在Coursera上面的有關這一部分的視頻
源鏈接 https://www.coursera.org/learn/machine-learning
b站上的鏈接
https://www.bilibili.com/video/av9912938/?p=4
我的個人博客:www.susmote.com
官方博客 www.susmote.com
分類: 機器學習
監督學習與無監督學習