【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 16—Recommender Systems 推薦系統

阿新 • • 發佈：2019-01-04

Lecture 16 Recommender Systems 推薦系統

16.1 問題形式化 Problem Formulation

在機器學習領域，對於一些問題存在一些演算法，能試圖自動地替你學習到一組優良的特徵。通過推薦系統(recommender systems)，將領略一小部分特徵學習的思想。

假使有 5 部電影，3部愛情片、2部動作片。 4 個使用者為其中的部分電影打了分。現在希望構建一個演算法，預測每個人可能給沒看過的電影打多少分，以此作為推薦的依據。

下面引入一些標記:
n_u 代表使用者的數量
n_m

      代表電影的數量
r(i， j)   如果使用者 j 給電影 i 評過分則 r(i， j) = 1
y^(i，j)    代表使用者 j 給電影 i 的評分（注：這裡 i 和 j 不要搞反）
m_j       代表使用者 j 評過分的電影的總數

16.2 基於內容的推薦系統 Content Based Recommendations

1 定義

在一個基於內容的推薦系統演算法中，假設對於我們希望推薦的東西有一些資料，是這些東西的特徵。
現在假設每部電影都有兩個特徵， x₁

代表電影的浪漫程度，x₂代表電影的動作程度。

則每部電影都有一個特徵向量，如 x⁽¹⁾是第一部電影的特徵向量，為[0.9 0]。
下面我們採用線性迴歸模型，針對每一個使用者都訓練一個線性迴歸模型，如θ⁽¹⁾ 是第一個使用者的模型的引數。於是有:
θ^(j)使用者 j 的引數向量
x⁽ⁱ⁾電影 i 的特徵向量
對於使用者 j 和電影 i，我們預測其評分為：(θ^(j))^Tx⁽ⁱ⁾

2 代價函式

針對使用者 j，該線性迴歸模型的代價為預測誤差的平方和，加上正則化項:

其中 i: r(i， j) 表示我們只計算那些使用者 j 評過分的電影。在一般的線性迴歸模型中，誤差項和正則項應該都是乘以1/2m，在這裡我們將m去掉，且不對方差項θ₀

進行正則化處理。
上面的代價函式只是針對一個使用者的，為了學習所有使用者，我們將所有使用者的代價函式求和:

如果我們要用梯度下降法來求解最優解，我們計算代價函式的偏導數後得到梯度下降的更新公式為:

16.3 協同過濾 Collaborative Filtering

在之前的基於內容的推薦系統中，使用電影的特徵，訓練出了每一個使用者的引數。相反地，如果擁有使用者的引數，可以學習得出電影的特徵。

但是如果既沒有使用者的引數，也沒有電影的特徵，這兩種方法都不可行了。可以使用協同過濾演算法，同時學習這兩者。

優化目標便改為同時針對x和θ進行。是一個：預測 θ，再反過來預測 x，再預測 θ，再預測 x 的迭代過程。

16.4 協同過濾演算法 Collaborative Filtering Algorithm

協同過濾的代價函式定義為：

對代價函式求偏導數:

(注:在協同過濾從演算法中，通常不使用方差項，如果需要的話，演算法會自動學得。)
協同過濾演算法使用步驟如下:

1. 初始 x 和 θ 為一些隨機小值
2. 使用梯度下降演算法最小化代價函式 J
3. 在訓練完演算法後，通過計算 θ^Tx 預測使用者 j 給電影 i 的評分
通過這個學習過程獲得的特徵矩陣包含了有關電影的重要資料，這些資料不總是人能讀懂的，但是可以用這些資料作為給使用者推薦電影的依據。

總結：

16.5 向量化:低秩矩陣分解 Vectorization_ Low Rank Matrix Factorization

協同過濾演算法的向量化實現
舉例:
1）給出一件產品，能否找到與之相關的其它產品。
2）一位使用者最近看上一件產品，有沒有其它相關的產品可以推薦給他。

現在有5部電影，4位使用者，矩陣 Y 就是一個 5 行 4 列的矩陣，儲存每個使用者對每個電影的評分資料：

通過使用 θ 和 x 計算，可以預測出每個使用者對每個電影打的分數：

現在將所有 x 都集中在一個大的矩陣X中，每一部電影是一行；

將所有 θ 集中在一個大的Θ中，每個使用者是一行。

則有：

因為矩陣X乘Θ的轉置，在數學上具有低秩屬性。因此這個演算法也被稱為低秩矩陣分解 low rank matrix factorization。

現在已經學習到了特徵引數向量，那麼可以使用這些向量做一些別的事情，比如度量兩部電影之間的相似性。例如，如果一位使用者正在觀看電影 x⁽ⁱ⁾ ，可以根據兩部電影的特徵向量之間的距離 ∥x⁽ⁱ⁾ − x^(j)∥，尋找另一部相似電影 x^(j)：

16.6 推行工作上的細節:均值歸一化 Mean Normalization

現在新增一個使用者 Eve，她沒有為任何電影評分，那麼我們以什麼為依據為 Eve 推薦電影呢?

如果根據之前的模型，因為她沒有打分，代價函式第一項為0。演算法目標變為最小化最後一項，最後得到 θ⁽⁵⁾中的元素都是0。現在拿著 θ⁽⁵⁾預測出的瓶分都是0。這沒有什麼意義，因此需要做一些處理。

首先需要對結果 Y 矩陣進行均值歸一化處理，將每一個使用者對某一部電影的評分減去所有使用者對該電影評分的平均值:

然後利用這個新的 Y 矩陣來訓練演算法。最後在預測評分時，需要在預測值的基礎上加回平均值，即預測值等於 (θ^(j))^Tx⁽ⁱ⁾+ μ_i 。因此對於 Eve，新模型預測出的她的打分都是該電影的平均分。

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 16—Recommender Systems 推薦系統

Lecture 16 Recommender Systems 推薦系統 16.1 問題形式化 Problem Formulation 在機器學習領域，對於一些問題存在一些演算法，能試圖自動地替你學習到一組優良的特徵。通過推薦系統(recommender systems)，將領略一小部分特徵學習的思想。

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 10—Advice for applying machine learning

Lecture 10—Advice for applying machine learning 10.1 如何除錯一個機器學習演算法？有多種方案： 1、獲得更多訓練資料；2、嘗試更少特徵；3、嘗試更多特徵；4、嘗試新增多項式特徵；5、減小 λ；6、增大 λ 為了避免一個方案一個方

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 11—Machine Learning System Design

Lecture 11—Machine Learning System Design 11.1 垃圾郵件分類本章中用一個實際例子：垃圾郵件Spam的分類來描述機器學習系統設計方法。首先來看兩封郵件，左邊是一封垃圾郵件Spam，右邊是一封非垃圾郵件Non-Spam：垃圾郵件有很多features。如果我

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 12—Support Vector Machines 支援向量機

Lecture 12 支援向量機 Support Vector Machines 12.1 優化目標 Optimization Objective 支援向量機(Support Vector Machine) 是一個更加強大的演算法，廣泛應用於工業界和學術界。與邏輯迴歸和神經網路相比, SVM在學習複雜的非

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 14—Dimensionality Reduction 降維

Lecture 14 Dimensionality Reduction 降維 14.1 降維的動機一:資料壓縮 Data Compression 現在討論第二種無監督學習問題：降維。降維的一方面作用是資料壓縮，允許我們使用較少的記憶體或磁碟空間，也加快演算法速度。例子：假設我們用兩個特徵描述一個物

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 15—Anomaly Detection異常檢測

Lecture 15 Anomaly Detection 異常檢測 15.1 異常檢測問題的動機 Problem Motivation 異常檢測(Anomaly detection)問題是機器學習演算法的一個常見應用。這種演算法雖然主要用於無監督學習問題，但從某些角度看，它又類似於一些監督學習問題。舉例：

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 17—Large Scale Machine Learning 大規模機器學習

Lecture17 Large Scale Machine Learning大規模機器學習 17.1 大型資料集的學習 Learning With Large Datasets 如果有一個低方差的模型，通常通過增加資料集的規模，可以獲得更好的結果。但是如果資料集特別大，則首先應該檢查這麼大規模是否真

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 18—Photo OCR 應用例項:圖片文字識別

Lecture 18—Photo OCR 應用例項:圖片文字識別 18.1 問題描述和流程圖 Problem Description and Pipeline 影象文字識別需要如下步驟: 1.文字偵測(Text detection)——將圖片上的文字與其他環境物件分離開來2.字元切分(Character

【原】Coursera—Andrew Ng機器學習—Week 8 習題—聚類和降維

【1】無監督演算法【2】聚類【3】代價函式【4】【5】K的選擇【6】降維 Answer：本來是 n 維，降維之後變成 k 維（k ≤ n）【7】【8】 Answer：斜率-1 【9】 Answer： x 是一個向

【原】Coursera—Andrew Ng機器學習—Week 10 習題—大規模機器學習

【1】大規模資料【2】隨機梯度下降【3】小批量梯度下降【4】隨機梯度下降的收斂 Answer：BD A 錯誤。學習率太小，演算法容易很慢 B 正確。學習率小，效果更好 C 錯誤。應該是確定閾值吧 D 正確。曲線不下降，說明學習率選的太大【5】線上學習

【原】Coursera—Andrew Ng機器學習—彙總（課程筆記、測驗習題答案、程式設計作業原始碼）

一、Coursera 斯坦福機器學習課程，Andrew Ng Coursera連線不上，修改hosts檔案機器學習工具Octave安裝（Win10環境）課程地址和軟體下載

Stanford coursera Andrew Ng 機器學習課程程式設計作業（Exercise 1）Python3.x

Exercise 1：Linear Regression---實現一個線性迴歸在本次練習中，需要實現一個單變數的線性迴歸。假設有一組歷史資料<城市人口，開店利潤>，現需要預測在哪個城市中開店利潤比較好？歷史資料如下：第一列表示城市人口數，單位為萬人；第二

Andrew Ng機器學習課程筆記（四）之神經網絡

sca 優化介紹 www 之間 output 現在利用 href Andrew Ng機器學習課程筆記（四）之神經網絡版權聲明：本文為博主原創文章，轉載請指明轉載地址 http://www.cnblogs.com/fydeblog/p/7365730.html 前言

Andrew Ng機器學習課程筆記（十三）之無監督學習之EM演算法

Preface Jensen’s Inequality（Jensen不等式） Expectation-Maximization Algorithm（EM演算法） Jensen’s Inequality 對於凸函式令f(x)f(x)為

Andrew Ng機器學習課程筆記（十二）之無監督學習之K-means聚類演算法

Preface Unsupervised Learning（無監督學習） K-means聚類演算法 Unsupervised Learning 我們以前介紹的所有演算法都是基於有類別標籤的資料集，當我們對於沒有標籤的資料進行分類時，以前的方

Andrew NG機器學習課程筆記（十）

特徵選擇嚴格上來說也是模型選擇的一種。這裡不去辨析他們的關係，重點說明問題。假設我們想對維度為n的樣本進行迴歸，然後，n可能大多以至於遠遠大於訓練樣例數。但是我們感覺很多特徵對於結果是無用的，想剔除n中的無用特徵。n個特徵就有2^n種情況。如果我們去列舉這些情況，然後利用交叉驗證去選，太麻煩了。因此需要一些啟

Andrew Ng機器學習課程筆記（十六）之無監督學習之因子分析模型與EM演算法

Preface Marginals and Conditionals of Gaussians（高斯分佈的邊緣分佈與條件分佈） Restrictions of ΣΣ（限制協方差矩陣） Factor Analysis（因子分析模型） EM Alg

Andrew NG機器學習課程筆記系列之——Introduction to Machine Learning

引言本系列文章是本人對Andrew NG的機器學習課程的一些筆記，如有錯誤，請讀者以課程為準。在現實生活中，我們每天都可能在不知不覺中使用了各種各樣的機器學習演算法。例如，當你每一次使用 Google 時，它之所以可以執行良好，其中一個重要原因便是由 Google 實

Andrew NG機器學習課程筆記（六）

支援向量機學習方法包括構建由簡至繁的模型：線性可分支援向量機，線性支援向量機，以及非線性支援向量機。簡單模型是複雜模型的基礎，也是複雜模型的特殊情況。當訓練資料線性可分時，通過硬間隔最大化，學習一個線性的分類器，即線性支援向量機，又稱為硬間隔支援向量機。當訓練集近似線性可分時，通過軟間隔最大化，也學習一個線性

斯坦福大學(Andrew Ng)機器學習課程講義

Lecture notes 1 (ps)(pdf) Supervised Learning, Discriminative Algorithms Lecture notes 2 (ps)(pdf) Generative Algorithms Lecture notes 3 (ps)(pd