斯坦福機器學習公開課筆記 十三 推薦系統
也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!
授課老師:Andrew Ng
1、problem formulation(問題產生)
在平時購物的時候我們都會看到網站把向我們推薦的商品放在醒目位置,其實這就是推薦系統。現在考慮一個電影推薦系統的例子,我們擁有一些使用者對於一些電影的評分,如下:
從上面可以看到,使用者對電影的評分分為從0到5這六個等級,有些使用者沒有看過某部電影,故對該電影的評價未知。分析之下能發現電影列表中的電影可以分為兩個類別,上面三部都是愛情片,下面兩部為動作片。現在的問題是,如何根據使用者對電影的評分給使用者推薦電影?
2、content-based recommendations(基於內容的推薦 )
現在我們擁有使用者對電影的評分,同時我們也需要知道電影的特徵,基於內容的推薦的前提就是獲取待推薦物品的特徵資訊。針對上面的例子,可以認為這些電影中只含有兩類特徵,一種是romance,一種是action,特徵評分越高,證明該電影越傾向於這一特徵,提取特徵後得到的列表如下:
其中x1代表每部電影的romance等級,x2代表action等級,x(1)代表《love at last》這部電影的特徵資訊,其餘類似,這樣我們就把電影轉換成了向量形式。和機器學習中的其他方法類似,我們對向量增加一維常量1,最後把每部電影轉換為一個3*1的向量。現在,光有電影的特徵是不夠的,如果要預測使用者對電影的評分,顯然還需要知道使用者的喜好,這裡用
可以看到,theta也是一個3*1的向量,第一維依然是常量,後兩維是對兩類電影的喜好,theta(1)代表第一個使用者自己的喜好。有了這些資訊後,就可以用theta*x來預測某個使用者對於某部電影的評分情況了。不過通常情況下theta值不可能一下子看出來,是需要通過學習得到的,問題轉換為求出theta,寫成更規範的形式如下:
和迴歸類似,寫出代價函式,然後用梯度下降求解:
通過這樣,我們就能求出theta。
3、collaborative filtering(協同過濾)
上面求出了theta,不過細細分析後會發現關於x也是我們人為指定的,如果不指定電影的特徵資訊應該如下:
為了求出x,我們需要指定出
這下我們犯難了,theta和x都沒給,那怎麼求?這是一個雞生蛋蛋生雞的問題!這就是協同過濾要解決的難題。
4、collaborative filtering algorithm(協同過濾演算法)
先對之前提出的問題進行一下總結:
可以發現,合併之後引數變成了x和theta兩類,針對這個代價函式梯度下降時只能交替處理x和theta:
這樣就能夠在不知道x和theta的情況下進行求解了。
5、vectorization:low rank matrix factorization(向量化-小秩矩陣分解)
其實在獲取上面使用者對電影的評分之後,可以用矩陣的形式進行表述:
其實Y矩陣中的元素都是通過theta和x計算得來,展開如下:
上面的矩陣可以分解為X和theta兩個向量,這就是小秩矩陣分解。如果要尋找哪兩種電影最相近,可以通過計算X向量中兩個值的差值來判斷,差值越小,則越相近:
6、implementational detail:Mean normalization(標準化)
現在我們在原來的資料上增加一列:
在這裡Eve還沒有對任何電影評過分,我們只能假設他對所有電影的評分都為0。此時,我們對其評分進行預測,得到的結果都為0。針對這種情況,我們先對Y進行標準化處理:
在求出均值後,對Y進行變換,用標準化後的Y來進行計算,得到的結果要加上均值,這樣就能確保Eve的評分不會一直為0,這樣還是比較有道理的。
------------------------------------------------------弱弱的分割線----------------------------------------------------
這一講主要介紹了推薦系統是怎麼回事,關鍵是要學習兩個向量,物品特徵向量和使用者偏好向量。協同過濾的思想就是在不知道這兩個向量時用梯度下降的方法對其進行求解。在把資料矩陣化之後,可以用矩陣分解的方法求解,關於具體做法很遺憾這裡沒有講,最常見的恐怕是SVD方法,關於SVD的具體內容可以看這裡:
另外給出一個具體的例子-電影推薦系統:
你好! 這是你第一次使用 **Markdown編輯器** 所展示的歡迎頁。如果你想學習如何使用Markdown編輯器, 可以仔細閱讀這篇文章,瞭解一下Markdown的基本語法知識。新的改變
我們對Markdown編輯器進行了一些功能拓展與語法支援,除了標準的Markdown編輯器功能,我們增加了如下幾點新功能,幫助你用它寫部落格:
- 全新的介面設計 ,將會帶來全新的寫作體驗;
- 在創作中心設定你喜愛的程式碼高亮樣式,Markdown 將程式碼片顯示選擇的高亮樣式 進行展示;
- 增加了 圖片拖拽 功能,你可以將本地的圖片直接拖拽到編輯區域直接展示;
- 全新的 KaTeX數學公式 語法;
- 增加了支援甘特圖的mermaid語法1 功能;
- 增加了 多螢幕編輯 Markdown文章功能;
- 增加了 焦點寫作模式、預覽模式、簡潔寫作模式、左右區域同步滾輪設定 等功能,功能按鈕位於編輯區域與預覽區域中間;
- 增加了 檢查列表 功能。
功能快捷鍵
撤銷:Ctrl/Command + Z 重做:Ctrl/Command + Y 加粗:Ctrl/Command + B 斜體:Ctrl/Command + I 標題:Ctrl/Command + Shift + H 無序列表:Ctrl/Command + Shift + U 有序列表:Ctrl/Command + Shift + O 檢查列表:Ctrl/Command + Shift + C 插入程式碼:Ctrl/Command + Shift + K 插入連結:Ctrl/Command + Shift + L 插入圖片:Ctrl/Command + Shift + G
合理的建立標題,有助於目錄的生成
直接輸入1次#,並按下space後,將生成1級標題。
輸入2次#,並按下space後,將生成2級標題。
以此類推,我們支援6級標題。有助於使用TOC
語法後生成一個完美的目錄。
如何改變文字的樣式
強調文字 強調文字
加粗文字 加粗文字
標記文字
刪除文字
引用文字
H2O is是液體。
210 運算結果是 1024.
插入連結與圖片
連結: link.
圖片:
帶尺寸的圖片:
當然,我們為了讓使用者更加便捷,我們增加了圖片拖拽功能。
如何插入一段漂亮的程式碼片
去部落格設定頁面,選擇一款你喜歡的程式碼片高亮樣式,下面展示同樣高亮的 程式碼片
.
// An highlighted block var foo = 'bar';
生成一個適合你的列表
- 專案
- 專案
- 專案
- 專案
- 專案1
- 專案2
- 專案3
- 計劃任務
- 完成任務
建立一個表格
一個簡單的表格是這麼建立的:
專案 | Value |
---|---|
電腦 | $1600 |
手機 | $12 |
導管 | $1 |
設定內容居中、居左、居右
使用:---------:
居中
使用:----------
居左
使用----------:
居右
第一列 | 第二列 | 第三列 |
---|---|---|
第一列文字居中 | 第二列文字居右 | 第三列文字居左 |
SmartyPants
SmartyPants將ASCII標點字元轉換為“智慧”印刷標點HTML實體。例如:
TYPE | ASCII | HTML |
---|---|---|
Single backticks | 'Isn't this fun?' |
‘Isn’t this fun?’ |
Quotes | "Isn't this fun?" |
“Isn’t this fun?” |
Dashes | -- is en-dash, --- is em-dash |
– is en-dash, — is em-dash |
建立一個自定義列表
- Markdown
- Text-to-HTML conversion tool
- Authors
- John
- Luke
如何建立一個註腳
一個具有註腳的文字。2
註釋也是必不可少的
Markdown將文字轉換為 HTML。
KaTeX數學公式
您可以使用渲染LaTeX數學表示式 KaTeX:
Gamma公式展示 是通過尤拉積分
你可以找到更多關於的資訊 LaTeX 數學表示式here.
新的甘特圖功能,豐富你的文章
gantt
dateFormat YYYY-MM-DD
title Adding GANTT diagram functionality to mermaid
section 現有任務
已完成 :done, des1, 2014-01-06,2014-01-08
進行中 :active, des2, 2014-01-09, 3d
計劃一 : des3, after des2, 5d
計劃二 : des4, after des3, 5d
- 關於 甘特圖 語法,參考 這兒,
UML 圖表
可以使用UML圖表進行渲染。 Mermaid. 例如下面產生的一個序列圖::
這將產生一個流程圖。:
- 關於 Mermaid 語法,參考 這兒,
FLowchart流程圖
我們依舊會支援flowchart的流程圖:
- 關於 Flowchart流程圖 語法,參考 這兒.
匯出與匯入
匯出
如果你想嘗試使用此編輯器, 你可以在此篇文章任意編輯。當你完成了一篇文章的寫作, 在上方工具欄找到 文章匯出 ,生成一個.md檔案或者.html檔案進行本地儲存。
匯入
如果你想載入一篇你寫過的.md檔案或者.html檔案,在上方工具欄可以選擇匯入功能進行對應副檔名的檔案匯入, 繼續你的創作。