1. 程式人生 > >機器學習和資料探勘在個性化推薦系統中的應用

機器學習和資料探勘在個性化推薦系統中的應用

個性化推薦系統出了滿足使用者的需求,也應兼顧資訊提供者的利益,將他們的資訊以最高的效率投放給對資訊感興趣的使用者。

個性化推薦系統的演算法都是來自於機器學習和資料探勘,特殊之處在於對使用者行為和使用者心理的研究。

根據興趣將使用者聚類,也就是一種降維方法。機器學習的降維方法可以分為硬聚類和軟聚類,硬聚類的代表演算法是Kmeans和層次聚類,硬聚類的缺點是限制了使用者興趣只能屬於一種類別,而在現實生活中,使用者的興趣是多種多樣的。

在推薦系統中應用最廣泛的軟聚類演算法是主題模型(topic model)。在主題模型中,每個類被稱為隱類(latent class),而每個文件在不同的隱類上都有一個概率分佈來表示文件屬於該類的概率。目前,基於概率的主題模型比較流行,這是因為他能夠提供統一的量綱(概率),同時可以方便的加入各種先驗知識。

推薦系統的另外一個比較著名的模型是隱因子模型(Latent Factor Model),LFM是一種基於矩陣分解的降維方法,用於解決使用者對物品評分的預測問題。LFM是基於連續空間的,而LCM是基於離散空間的。此外LFM提供的使用者特徵向量和物品特徵向量也不是基於概率解釋的。

為了能迅速找到目標,推薦系統一般會利用倒排索引。如常見的幾種推薦系統:基於人口統計學的推薦系統,基於物品的推薦系統,基於位置的推薦系統。這些推薦系統的主要區別在於使用的使用者特徵以及計算“特徵-物品”索引的演算法不同。比如基於人口統計學的推薦系統是按照年齡、性別等特徵索引,而每個性別年齡段都記錄了和該性別年齡段最相關的物品; 基於物品的推薦系統是按照物品的ID索引,而每個物品都記錄了和它最相關的其它物品。

主題模型可以用來對詞空間進行降維,主要用於短文字的語義分析問題。

用於點選率預估的分類器需要滿足條件如下:

可以在大規模資料集上訓練分類器模型;

需要知道一個樣本是正樣本還是負樣本,還需要知道是正樣本的概率,而這個概率就是預估的點選率!!!!

可以增量更新;

預估點選率是效率很高,能夠滿足線上實時預估的要求;

能夠提供預估點選率的置信度;

很容易提供預估結果的解釋,比如提供一個使用者對一個物品的預估點選率很高的原因。

目前能夠同時滿足以上條件的分類演算法主要是邏輯迴歸(Logistic Regression)。目前工業界用的比較多的LR演算法主要有:

基於極大似然,用隨機梯度下降法優化;

LBFGS;

基於貝葉斯網路,利用期望傳播(Expectation Propagation)優化。

LR是線性模型,線上預測的效能可以得到保證。並且其模型訓練已有成熟的並行化策略,可以用到大規模的資料集上。LR的模型可以增量更新,如果使用基於線上學習的優化方法(online learning),可以實現模型的線上更新;如果使用基於貝葉斯網路的LR,可以提供預測結果的置信度;在進行預測結果的解釋上,可以提供權重高的特徵作為解釋。

LR演算法適用於特徵、樣本很多的情況。如果遇到特徵很少(少於100個特徵)、樣本很多的問題,一般使用決策樹的演算法。這是因為在特徵很少時,問題往往是非線性的,此時可以發揮決策樹演算法的優勢。

將點選率預估問題轉換為兩類分類問題的方法,其實是排序學習(Learning to rank, LTR)中的按點(point-wise)演算法。除了按點,還有按對(pair-wise)和按表(list-wise)演算法。Netflix公司就在其推薦系統中全面應用LTR技術。

相關推薦

機器學習資料個性化推薦系統應用

個性化推薦系統出了滿足使用者的需求,也應兼顧資訊提供者的利益,將他們的資訊以最高的效率投放給對資訊感興趣的使用者。 個性化推薦系統的演算法都是來自於機器學習和資料探勘,特殊之處在於對使用者行為和使用者心理的研究。 根據興趣將使用者聚類,也就是一種降維方法。機器學習的降維

資料機器學習資料的聯絡與區別

資料探勘是從海量資料中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。 資料探勘中用到了大量的機器學習界提供的資料分析技術和資料庫界提供的資料管理技術。 從資料分析的角度來看,資料探勘

機器學習資料100問

前言:雖然說我的研究方向是資料探勘,但是一直以來對整個機器學習和資料探勘的東西沒較為清晰的認識,估計有很多小白和新手和我有類似的問題吧,藉此校招之際,對機器學習和資料探勘領域的知識進行一定的彙總,這一篇主要提出問題,因為其中的每一個問題可能會需要很大精力去解答和理解,所以將會在後續詢問高

機器學習資料(主流演算法介紹)

對機器學習和資料探勘的科學定義是這樣的: 機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不

機器學習資料推薦書單

有了這些書,再也不愁下了班沒妹紙該咋辦了。慢慢來,認真學,揭開機器學習和資料探勘這一神祕的面紗吧! 《機器學習實戰》:本書第一部分主要介紹機器學習基礎,以及如何利用演算法進行分類,並逐步介紹了多種經典的監督學習演算法,如k近鄰演算法、樸素貝葉斯演算法、Logi

利用Python進行機器學習資料概述

利用Python資料探勘和機器學習的概述 前言: 本文主要描述了使用Python進行資料探勘業務的優勢並介紹了相關的資料處理工具包pandas和機器學習演算法庫scikit-learn。 為什麼使用python進行資料分析? 對很多人來說,P

【Mark Schmidt課件】機器學習資料——推薦系統

本課件主要內容: 上次課程回顧:隱因子模型 魯棒PCA 隱因子模型的變化形式 Netflix獎 協同過濾問題 協同過濾的矩陣分解 基於內容的濾波 vs. 協同濾波 混合方法 SVD特徵的隨機梯度

加州理工學院公開課:機器學習資料_誤差噪聲(第四課)

這一課的主題是:誤差分析與噪聲處理。 該課時的主要內容如下: 1、Nonlinear Transformation(Continue)(非線性轉換(續)) 2、Error Measure (誤差度量)(重點) 3、Noisy Targets(噪聲指標)(重點) 4、Prea

機器學習資料-K最近鄰(KNN)演算法的實現(javapython版)

KNN演算法基礎思想前面文章可以參考,這裡主要講解java和python的兩種簡單實現,也主要是理解簡單的思想。 python版本: 這裡實現一個手寫識別演算法,這裡只簡單識別0~9熟悉,在上篇文章中也展示了手寫識別的應用,可以參考:機器學習與資料探勘-logistic迴

機器學習資料、計算機視覺等領域經典書籍推薦

    人工智慧、機器學習、模式識別、計算機視覺、資料探勘、資訊檢索、自然語言處理等作為電腦科學重要的研究分支,不論是學術界還是工業界,有關這方面的研究都在如火如荼地進行著,學習這些方面的內容有一些經典書籍,現總結如下,方便自己和大家以後學習研究: 人工智慧: 《Art

【Mark Schmidt課件】機器學習資料——特徵選擇

本課件的主要內容如下: 上次課程回顧:尋找“真實”模型 資訊準則 貝葉斯資訊準則 關於食物過敏 特徵選擇 全基因組關聯分析 “迴歸權重”方法 搜尋評分法 評分函式的選擇 “特徵數量”懲罰

【Mark Schmidt課件】機器學習資料——非線性迴歸

本課件主要內容包括: 魯棒迴歸 體育運動中的非線性級數 自適應計數/距離法 線性模型的侷限性 非線性特徵變換 一般多項式特徵(d = 1) 英文原文課件下載地址: http://page5.dfpan

【Mark Schmidt課件】機器學習資料——數值優化與梯度下降

本課件主要包括以下內容: 優化簡介 上次課程回顧:線性迴歸 大規模最小二乘 尋找區域性最小值的梯度下降法 二維梯度下降 存在奇異點的最小二乘 魯棒迴歸 基於L1-範數的迴歸 L1-範數的平滑近似

【Mark Schmidt課件】機器學習資料——正規方程組

本課件的主要內容包括: d維資料的梯度和臨界點 最小二乘偏導數 矩陣代數回顧 線性最小二乘 線性和二次梯度 正規方程組 最小二乘問題的不正確解 最小二乘解的非唯一性 凸函式 如何判斷函式的

【Mark Schmidt課件】機器學習資料——普通最小二乘

本課件主要內容包括: 有監督學習:迴歸 示例:依賴與解釋變數 數字標籤的處理 一維線性迴歸 最小二乘目標 微分函式最小化 最小二乘解 二維最小二乘 d維最小二乘 偏微分

【Mark Schmidt課件】機器學習資料——進一步討論線性分類器

本課件主要內容包括: 上次課程回顧:基於迴歸的分類方法 Hinge損失 Logistic損失 Logistic迴歸與SVMs “黑盒”分類器比較 最大餘量分類器 支援向量機 魯棒性與凸近似 非凸0-

【Mark Schmidt課件】機器學習資料——線性分類器

本課件主要內容包括: 上次課程回顧:L1正則化 組合特徵選擇 線性模型與最小二乘 梯度下降與誤差函式 正則化 辨識重要郵件 基於迴歸的二元分類? 一維判決邊界 二維判決邊界 感知器演算法

【Mark Schmidt課件】機器學習資料——多元分類

本課件主要內容: 上次課程回顧:隨機梯度 無限資料的隨機梯度 詞性標註POS POS特徵 多元線性分類 題外話:多標籤分類 多元SVMs 多元Logistic迴歸 題外話:Frobenius範數

【Mark Schmidt課件】機器學習資料——MLE與MAP

本課件的主要內容包括: 上次課程回顧:多元線性分類器 決策邊界形狀 識別重要電子郵件 Sigmoid函式 最大似然估計MLE 最小化負對數似然NLL 樸素貝葉斯的MLE 有監督學習的MLE Logi

【Mark Schmidt課件】機器學習資料——主元分析PCA

本課件主要內容包括: 上次課程回顧:MAP估計 人類 vs. 機器感知 隱因子模型 向量量化 向量量化 vs. PCA 主元分析PCA的應用 PCA目標函式 英文原文課件下載地址: h