1. 程式人生 > >機器學習筆記(1)監督學習和無監督學習

機器學習筆記(1)監督學習和無監督學習

結果 關系 不同 情況 屬於 預測 數據 自己 復雜

監督學習

監督學習是指我們給予算法一個數據集,這個數據集可以是以往相同類型問題的結果,或者絕對正確的經驗答案的集合,也就是統計中常說的樣本,並且這些數據都是有其固有的“正確答案”,然後算法根據這個集合做出對當前相同類型的問題的結果預測。絕大部分的情況我們給予算法的數據集都是離散的數據。所謂監督(supervised),就是利用已有的正確樣本(“特征-結果”對)約束了算法的預測。

簡單的說就是你看著這些練習冊和參考答案給我學會了,然後給我根據關系類比出類似的問題答案。

針對於不同類型的問題,需要給出不同類型的結果,所以對於這些問題分為:

  • 回歸問題:結果是連續的,對此可能是線性的,可能是非線性的。(一個連續值的結果)
  • 分類問題:結果是離散的(一個離散值的結果)

對於這兩類問題,一般的判斷方法,當你最後需要獲得的預測結果的值域是連續的,可以認為是回歸問題,最後需要獲得的結果是離散的,例如0 or 1,或者有限個數類型的結果,則就屬於分類問題。很多時候在自然語言中會更好理解。


無監督學習

對於無監督學習,我們依然給予算法一個數據集,但是這個數據集不具有明確的“特征-結果”對,或者說就是一堆較為單純無標簽的數據。這時候我們就需要算法對這堆數據進行自我分析,歸類,整理。

  • 聚類算法:算法最終就會告訴我們哪些數據是一類的,哪些數據是另一個類的,就是在我們並沒有告知他這個數據集特性以及分類方式的前提下,讓算法給出合理有效的分類方式。
    • 區分分類和聚類的區別:關於分類,是指給出已知標簽,將數據池子中的數據根據已知標簽分門別類,而聚類是指沒有明確的分類標簽,自己更具數據特征給出區分方式。
  • 雞尾酒會算法:關於原課中提到的這個算法其實也類似於聚類算法,但是更像是說是從復雜的重復集合型數據中根據特性剝離出單位個體的數據,就像是一個重復集合數據裏有{A,b},另一個裏是{a,B},這裏我們認為Aa是一個東西,所以最後算法會更具兩個集合型數據的特性,為我們剝離出Aa和Bb出來。

機器學習筆記(1)監督學習和無監督學習