斯坦福大學機器學習筆記——推薦系統（協同過濾、低秩分解、推薦系統）

這個部落格讓我們來討論一下推薦系統，首先我們來討論一下為什麼學習推薦系統：
1. 推薦系統是機器學習中的一個重要應用，它已經用於很多企業中，比如淘寶、今日頭條、亞馬遜等。它們會根據你的瀏覽記錄，當你再次訪問時，會給你推薦一些你感興趣的東西。
2. 我們從前面學過的機器學習知道，對於一個演算法特徵的選擇，對演算法效能的影響很大。而後面講到的推薦系統的建立過程中，該演算法可以自動的學習一套很好的特徵，而不需要試圖手動設計。

下面我們用一個例子來簡單的介紹什麼是推薦系統的問題：
假如我們有一個電影推薦的問題，其中我們已有的資料為5部電影和4個使用者，使用者給電影打分，具體的打分如下：
這裡寫圖片描述
其中，前三部是愛情片，後兩部是動作片，“？”代表該使用者沒有給這不電影打分。
推薦問題是我們希望構建一個演算法來預測他們每個人可能會給他們沒有看過的電影打多少分，根據這個預測結果的高低來判斷是否將其推薦給使用者。

基於內容的推薦系統：
基於內容的推薦系統我們假設對於我們推薦的東西有一些資料，這些資料也就是這些東西的特徵。
我們還是以上面的那個例子來說明一下基於內容的推薦系統，我們假設每部電影有兩個特徵，其中x1代表電影的浪漫程度，x2代表電影的動作程度，則資料集可以表示為：
這裡寫圖片描述
下面我們基於這些特徵來構建一個推薦系統的演算法。假設我們採用線性迴歸模型，我們對每一個使用者都訓練一個線性迴歸模型，首先我們對使用的引數進行介紹。
θ(j)代表使用者j的引數向量；x(i)代表電影i的特徵向量；(θ(j))Tx(i)代表使用者j對電影i我們預測的評分；nu代表使用者的數量；nm代表電影的數量；i:r(

i,j)表示我們只計算那些使用者j評過分的電影。
於是針對使用者j，該線性模型的代價函式為預測誤差的平方，所以該代價函式的表示式為（帶有正則項）：
這裡寫圖片描述

對於推薦系統，我們對上式進行了簡化，將原來除以2m去掉，對最終的結果沒有影響。
上面的表示式只是針對第j個使用者建立的，為了學習所有使用者，我們可以將代價函式形式表示為：
這裡寫圖片描述

我們使用梯度下降法來求解最優解，我們的代價函式對引數求偏導數之後的更新公式為：
這裡寫圖片描述

上述的過程就是基於內容的推薦系統的構建過程。

協同過濾演算法：
前面我們講述了基於內容的推薦系統的設計，它是在我們掌握了可用的特徵之後，使用這些特徵訓練出每一個使用者的引數；相反地，如果我們擁有使用者的引數，我們也可以學習得出電影的特徵，資料集的形式如下：
這裡寫圖片描述

則對應的第i個電影的特徵建立的代價函式的表示式為：
這裡寫圖片描述

同樣我們可以學習所有電影的特徵，我們可以將代價函式的形式表示為：
這裡寫圖片描述

所以對於給定的x(1),...,x(nm)我們能夠估計出θ(1),...,θ(nu)；對於給定的θ(1),...,θ(nu)我們能夠估計出x(1),...,x(nm)。
但是，如果我們既沒有使用者的引數，也沒有電影的特徵，以上兩種方法都不能適用，所以我們引入了一種新的方法——協同過濾。它可以同時學習引數以及特徵，下面我們討論一下協同過濾演算法的構建過程：
1. 初始化x(1),...,x(nm)，θ(1),...,θ(nu)為隨機的很小的值
2. x(1),...,x(nm)和θ(1),...,θ(nu)構建代價函式：
這裡寫圖片描述

3. 使用梯度下降法最小化代價函式，對於每一個j=1,2,...,nu以及每一個i=1,2,...,nm更新公式為：
這裡寫圖片描述

4. 在訓練演算法完成後，我們預測(θ(j))Tx(i)為使用者j給電影i的評分。
協同過濾的過程可以理解為，初始化引數θ訓練得到更好的特徵，然後使用更好的特徵訓練得到更好的引數，然後更好的引數得到更好的特徵，不斷重複下去，直到得到最好的引數和特徵。
推薦過程的實現為：如果我們得到使用者j對於電影i的評價很高，同時電影的特徵向量為x(i)，則我們可以通過計算另一個電影的特徵向量x(j)與原來電影特徵向量x(i)的距離來進行推薦，如果他們之間的距離很小，則可以進行推薦，如果他們之間的距離很大，則不進行推薦。

協同過濾演算法（低秩矩陣分解）的向量化：
協同過濾演算法也稱為低秩矩陣分解，它可以通過向量化的方式實現。
這裡寫圖片描述
對於上面的資料集我們可以通過右邊的矩陣表示，同時我們能夠對每個使用者對每個電影的評估也可以用矩陣表示：

所以我們可以將每個電影的特徵逐行表示，將每個使用者的引數按行表示：

X=⎡⎣⎢⎢⎢⎢⎢−(x(1))T−−(x(2))T−⋮−(x(nm)

斯坦福大學機器學習筆記——推薦系統（協同過濾、低秩分解、推薦系統）

斯坦福大學機器學習筆記——聚類（k-均值聚類演算法、損失函式、初始化、聚類數目的選擇）

Machine Learning（Stanford）| 斯坦福大學機器學習筆記--第一週（1.監督學習與無監督學習的介紹）

Machine Learning（Stanford）| 斯坦福大學機器學習筆記--第二週（1.多元線性迴歸及多元線性迴歸的梯度下降）

斯坦福大學機器學習筆記——推薦系統（協同過濾、低秩分解、推薦系統）

斯坦福大學機器學習筆記——機器學習系統設計（誤差分析、查全率和查準率、F1值）

斯坦福大學機器學習筆記——異常檢測演算法（高斯分佈、多元高斯分佈、異常檢測演算法）

斯坦福大學機器學習筆記——多變數的線性迴歸以及梯度下降法注意事項（內有程式碼）

斯坦福大學機器學習筆記——單變數的線性迴歸以及損失函式和梯度下降法（包含程式碼）

斯坦福大學機器學習筆記——正則化的邏輯迴歸模型

斯坦福大學機器學習筆記——特徵和多項式迴歸以及正規方程

斯坦福大學機器學習筆記——邏輯迴歸、高階優化以及多分類問題

吳恩達斯坦福大學機器學習 CS229 課程學習筆記（一）

[吳恩達機器學習筆記]16推薦系統5-6協同過濾演算法/低秩矩陣分解/均值歸一化

斯坦福大學機器學習——誤差理論（Error Theory）

斯坦福大學機器學習——交叉驗證（Cross Validation）

斯坦福大學機器學習課程第二周筆記

斯坦福2014機器學習筆記七----應用機器學習的建議

吳恩達老師機器學習筆記異常檢測（一）

機器學習筆記——線性迴歸（Linear Regression）

機器學習筆記——梯度下降（Gradient Descent）

斯坦福大學機器學習筆記——推薦系統（協同過濾、低秩分解、推薦系統）

相關推薦