機器學習 | 簡介推薦場景中的協同過濾演算法，以及SVD的使用

阿新 • • 發佈：2020-07-28

本文始發於個人公眾號：**TechFlow**，原創不易，求個關注

今天是機器學習專題的第29篇文章，我們來聊聊SVD在上古時期的推薦場景當中的應用。

協同過濾的原理

協同過濾的原理非常簡單，一句話概括，就是尋找相似的商品以及相似的人。

因為在平臺當中的商品和人可能數量都非常大，當我們要進行推薦的時候，我們不可能窮舉所有的商品來進行預測點選率，這顯然是機器無法抗住的。所以我們希望把使用者在平臺上的行為使用起來，讓使用者的行為給平臺作為指引。根據使用者的行為尋找出行為相似的使用者以及相似的商品。

所以協同過濾有兩套邏輯，也可以認為是兩種做法。第一種做法是user-based也就是尋找偏好相似的使用者，這個不難理解，比如說經常買文具、買書的大概率是學生。假設我們知道了A和B行為相似，也就是說他們可能有相似的喜好。那麼假設A購買過商品1並且給出了好評，而B沒有購買過，那麼很有可能B也會喜歡這個商品，所以我們就可以推薦給B。

第二種做法自然就是item-based，比如你搜索點選了一個商品A，平臺會將和這個商品類似的商品BCD推薦給你，會放在商品詳情頁的下方的猜你喜歡當中。比如你看的是襯衫，它可能會給你推薦別家的襯衫，也可能給你推薦西褲或者是領帶。本質上邏輯是一樣的，因為這些商品和這件襯衫的相關度比較高。

下一個問題是使用者和使用者，商品和商品之間的相關度是怎麼來的呢？

答案很簡單，是通過這個矩陣來的：

我們觀察一下這個矩陣，這是一個使用者和商品的相關行為矩陣，每一行表示一個使用者的行為，每一列表示每一個商品的銷售情況。也就是說我們可以用這個矩陣當中的行向量表示使用者，列向量表示商品。既然我們把使用者和商品用向量表示出來了，接下來的事情就很簡單了，我們只需要計算向量之間的相似度就可以找到相似的使用者以及商品了。

我們要計算向量的相似度有很多種辦法，我們可以計算兩個向量的餘弦值，可以計算歐式距離、皮爾遜值等等。

SVD的作用

其實到這裡關於協同過濾就介紹完了，但問題是這和SVD看起來好像沒什麼關係呀？

我們仔細琢磨一下就能發現它們之間的關係，對於規模比較小的公司或者場景來說，這當然是沒問題的。比如說電影評分網站，因為電影的數量往往不會很大，充其量也在萬這個量級，所以這個矩陣可能還是存的下的。如果是電商公司，商品和使用者都是億這個維度的，這個矩陣顯然是非常巨大的，根本不可能在記憶體當中儲存得下，更別提相似度計算了。並且這樣的矩陣必然存在大量稀疏和空缺，我們將它使用SVD壓縮也是非常合理的做法。

首先我們開發出一個輔助函式，根據我們設定的百分比計算出最少需要的奇異值的數量：

def select_K(sigma, percentage):
    square = sigma**2 
    base = sum(square) 
    s = 0 
    k = 0
    for i in sigma:
        s += i**2
        k += 1
        if s >= base * percentage:
            return k

其次我們對原矩陣進行svd分解，並且設定閾值對原矩陣進行壓縮：

data = np.mat([[0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 5],
           [0, 0, 0, 3, 0, 4, 0, 0, 0, 0, 3],
           [0, 0, 0, 0, 4, 0, 0, 1, 0, 4, 0],
           [3, 3, 4, 0, 0, 0, 0, 2, 2, 0, 0],
           [5, 4, 5, 0, 0, 0, 0, 5, 5, 0, 0],
           [0, 0, 0, 0, 5, 0, 1, 0, 0, 5, 0],
           [4, 3, 4, 0, 0, 0, 0, 5, 5, 0, 1],
           [0, 0, 0, 4, 0, 4, 0, 0, 0, 0, 4],
           [0, 0, 0, 2, 0, 2, 5, 0, 0, 1, 2],
           [0, 0, 0, 0, 5, 0, 0, 0, 0, 4, 0],
           [1, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0]])

u, sigma, v = np.linalg.svd(data)
k = select_K(sigma, 0.95) 
sigmaK = np.mat(np.eye(k) * sigma[:k]) 
itemMat = data.T.dot(u[:,:k]).dot(sigmaK.I)

最後壓縮之後得到的是item的矩陣，其中的每一個行向量對應一個item。

這只是一個模擬，如果是在實際上的應用，我們可以將幾億甚至是更多的維度壓縮到幾百甚至更少，極大的縮減了儲存所需要的開銷。而且svd的計算是可以分散式併發進行的，所以即使原始資料非常龐大，也是可以支撐的。

總結

到這裡關於協同過濾演算法以及SVD的應用就結束了，雖然演算法非常簡單，實現起來也容易，但是這其中還有很多問題沒有解決。比如說這個使用者和商品的矩陣並不是一成不變的，因為我們隨時都會有新商品上架以及新使用者註冊，對於這些沒有行為的新商品和新使用者應該怎麼辦？

另外一個問題是，這個演算法沒有改進的空間，一旦實現完成了上線之後，我們做不了太多的改進。如果是其他的模型或者是演算法，我們可以通過迭代演算法以及模型的方法來獲取更好的效果，但是協同過濾不行。這也是為什麼逐漸被淘汰的原因。

今天的文章到這裡就結束了，如果喜歡本文的話，請來一波素質三連，給我一點支援吧（關注、轉發、點贊）。

本文使用 mdnice 排版

![](https://user-gold-cdn.xitu.io/2020/7/28/1739369fb0f0b2d2?w=258&h=258&f=png&

機器學習 | 簡介推薦場景中的協同過濾演算法，以及SVD的使用

推薦的背後邏輯

協同過濾的原理

SVD的作用

總結

機器學習 | 簡介推薦場景中的協同過濾演算法，以及SVD的使用

斯坦福大學機器學習筆記——推薦系統（協同過濾、低秩分解、推薦系統）

推薦系統中協同過濾演算法實現分析（重要兩個圖！！）

機器學習和推薦系統中的評測指標—準確率(Precision)、召回率(Recall)、F值(F-Measure)簡介

機器學習算法原理解析——協同過濾推薦

[機器學習]推薦系統之協同過濾演算法

吳恩達-機器學習(9)-異常檢測、協同過濾

機器學習（十四）——協同過濾的ALS演算法（2）、主成分分析

吳恩達機器學習：異常檢測與協同過濾

資料探勘--協同過濾演算法，基於集合交集相似性計算的mapreduce演算法設計

機器學習基礎——簡單易懂的K鄰近演算法，根據鄰居“找自己”

關於中值濾波演算法，以及C語言實現

淺談Shiro框架中的加密演算法，以及校驗

吳恩達機器學習（十四）推薦系統（基於梯度下降的協同過濾演算法）

[吳恩達機器學習筆記]16推薦系統5-6協同過濾演算法/低秩矩陣分解/均值歸一化

【機器學習】使用Python中的區域性敏感雜湊（LSH）構建推薦引擎

推薦系統學習--基於item的協同過濾演算法及python實現

Slope one—個性化推薦中最簡潔的協同過濾演算法

推薦系統實踐----基於使用者的協同過濾演算法（python程式碼實現書中案例）

隨時更新———個人喜歡的關於模式識別、機器學習、推薦系統、圖像特征、深度學習、數值計算、目標跟蹤等方面個人主頁及博客

機器學習 | 簡介推薦場景中的協同過濾演算法，以及SVD的使用

推薦的背後邏輯

協同過濾的原理

SVD的作用

總結

相關推薦