1. 程式人生 > >什麽是機器學習

什麽是機器學習

大量 alt 啤酒 com 無需 nsh 我們 需要 發現

啤酒尿布

沃爾瑪根據它每天記錄的大量的客戶消費數據進行分析,發現了,購買了啤酒的顧客更可能同時購買尿布。所以他們把尿布和啤酒放到一塊,結果大幅度的提高了這兩者的銷售額。

購買尿布和購買啤酒看上去毫無關系,但是通過用戶購物數據作為樣本發現了其中的關聯和規律,對於沃爾瑪而言無需知道規律背後的本質,只需要發現這個規律就可以大幅度的提升銷售額,這就足夠了。

其實機器學習的核心思想也大概如此,就是讓計算機程序隨著數據樣本的積累,可以自動獲取精確的判斷和歸納能力。

可以把我們要進行分析的數據叫做訓練集,把現象歸納的過程叫訓練

在啤酒尿布的故事中,沃爾瑪使用的是一種叫Apriori的算法,可以用來挖掘關聯數據中的頻繁項集

,也就是找尋數據集合的內在聯系

另外我們還知道瑞雪兆豐年的故事,也就是勞動人民通過大量的現象進行分析,如果下了雪,很大程度上明年就是一個豐年。

瑞雪兆豐年和啤酒尿布有本質的區別

  • 瑞雪兆豐年是對一個新現象進行結果預測

  • 啤酒尿布是對相關性的挖掘。

下圖是對兩個故事的流程進行歸納。

對於瑞雪兆豐年來說,可以根據多年的降雪與來年的豐收情況進行分析,通過某種算法進行訓練,然後得到規律也即假設模型

根據降雪情況推斷出下一年的收成情況,這就是回歸

技術分享圖片

對於啤酒尿布屬於完全不一樣的機器學習類型,只需要找出關聯關系,並不需要回歸。

技術分享圖片

所以這兩種其實是完全不同的機器學習方法。

我們可以按照方式不同分為三類:

  • 有監督學習(supervised learning)
    也就是已經有了一部分輸入數據和數據數據之間的對應關系,可以生成一個函數,可以通過輸入獲得輸出。
    比如瑞雪兆豐年,頭年的降雪量就是輸入,來年產量就是輸出。
  • 無監督學習:直接對輸入進行建模,尋找關聯。
    比如啤酒尿布只需要尋找相關性,不需要目標輸出。
  • 半監督學習:
    就是上面兩種方法綜合起來。我們可以對有輸入輸出的數據+只有輸入的數據進行綜合分析

技術分享圖片

參考

本文為什麽是機器學習的筆記

什麽是機器學習