1. 程式人生 > >第九周(異常發現+推薦系統)-【機器學習-Coursera Machine Learning-吳恩達】

第九周(異常發現+推薦系統)-【機器學習-Coursera Machine Learning-吳恩達】

目錄
    異常檢測
    多元高斯分佈的異常檢測

    推薦系統


1 異常檢測

1)正態分佈或高斯分佈:


2)異常檢測演算法:


3)異常檢測與監督學習的比較

使用異常檢測演算法的情況

- 不正常的樣本較少,不利於學習;

- 導致不正常的原因有很多,不方便進行學習時

4)選擇特徵

當特徵不符合正態分佈時,可以利用log或者根號等運算改變所有樣本該特徵值,然後作圖觀察是否符合正態分佈


2 多元高斯分佈的異常檢測

1)多元高斯分佈

概率分佈:


引數:


多元高斯分佈與期望值μ和協方差有關,多元高斯分佈中期望值μ便為一個向量的。

例如二維資料的概率分佈:


2)多元高斯分佈的異常檢測演算法

首先,根據樣本計算多元高斯分佈引數(期望 和 協方差)

然後,針對新樣本計算P(x),如果小於設定值,則異常。

3)普通高斯模型 vs 多元高斯模型

 - 多元高斯模型能夠捕捉不同特徵之間的相關性
   必須 m>n,樣本數量要多於特徵變數數量
 - 普通高斯模型運算量小。

    如果要捕捉不同特徵之間的關係,可以手動增加額外特徵向量

錯題:



2 推薦系統

1)協同:
 - 協同就是在訓練過程中,每一個使用者都在一起幫助系統更好的訓練引數。
 - 每個使用者對多個電影進行評分,每個電影被多個使用者進行評分
 - 在知道使用者對電影的評分之後:(x即電影特徵、theta即使用者引數)
給定每部電影的成分(愛情、動作..)分佈 x,可以預測使用者的喜好(愛情、動作..)分佈 theta;

給定每個使用者的喜好(愛情、動作..)分佈 theta,可以預測每部電影的成分(愛情、動作..)分佈 x ;


合併優化函式:


2)協同過濾演算法:(預測使用者給電影的打分)

 - 原理


 - 尋找相關電影進行推薦

當得到所有電影的特徵分佈之後,可以選擇引數x距離最短的相關電影進行推薦

- 均值歸一化,將所有使用者針對某一電影的評分均一化有助於預測一個從來沒有打過分的使用者的評分,如果不均一化預測將總為0,如果均一化因為最後預測值中需要+平均值,所以預測就變為了平均值。

錯題:


題目參考:
http://blog.csdn.net/sundy0808/article/details/78997898