處理偏差

注意，矩陣 $\mathbf R_f$ 是由不完全矩陣 $\mathbf R$ 以行或列的均值填入未知項得到的。此方法會引起偏差的。

下表為12個使用者對3部電影的評分（1~7），假設使用PCA降維，需要估計協方差矩陣。假設未知值用列的均值代替。

使用者索引	Godfather	Gladiator	Nero
1	1	1	1
2	7	7	7
3	3	1	1
4	5	7	7
5	3	1
6	5	7
7	3	1
8	5	7
9	3	1
10	5	7
11	3	1
12	5	7

顯然，《Gladiator》和《Nero》之間的關聯度非常高，因為在已有的使用者評分中，它們的評分結果非常相似。《Godfather》和《Gladiator》之間的關聯似乎不是很明顯。但是，有很多使用者沒有對《Nero》做出評分。由於《Nero》的平均得分為（1+7+1+7）/4=4，所以這些未知評分被4給代替。這些新項的加入明顯降低了《Gladiator》和《Nero》之間的協方差。然而新新增的項對《Godfather》和《Gladiator》之間的協方差沒有影響。填上未知評分後，3部電影中每對電影的協方差估計如下：

Godfather	Gladiator	Nero
Godfather	2.55	4.36	2.18
Gladiator	4.36	9.82	3.27
Nero	2.18	3.27	3.27

根據上面的統計，《Godfather》和《Gladiator》之間的協方差大於《Gladiator》和《Nero》之間的協方差。這看上去貌似不怎麼對，因為在原始表中，《Gladiator》和《Nero》的評分在兩者都已知的評價中是一樣的。因此，《Gladiator》和《Nero》之間的協方差應該更高。這個偏差可能是因為平均值填充未知項導致的。矩陣中未知項的比例越大，平均填充技術的偏差越大。

(1) 極大似然估計

概念重構法提出使用概率技術，比如EM演算法來估計協方差矩陣。假設資料符合生成模型，即把已知項看成是生成模型的輸出。對協方差矩陣的估計可以看作是生成模型引數估計的一部分。

方法：計算協方差矩陣的最大似然估計。每對物品之間的協方差僅使用已知項進行估計。也就是，使用者在某對物品上做出評價，其協方差可計算，但當沒有使用者在一對物品上做出共同評價時，協方差被估計為0。使用這種方法，得到的協方差矩陣為：

Godfather	Gladiator	Nero
Godfather	2.55	4.36	8
Gladiator	4.36	9.82	12
Nero	8	12	12

這種情況下，立刻可以看出《Gladiator》和《Nero》之間的協方差幾乎是《Godfather》和《Gladiator》之間的協方差的3倍。而且，《Nero》的方差幾乎是原始估計的3倍，並是所有電影中最大的。這個例子說明修正偏差在某些情況中可以有非常明顯的效果。矩陣中未知項的比例越大，平均填充技術的偏差就越大。因此，改良的方法只利用已知項計算協方差。雖然這種方法並不總是有效，但是它比平均填充更加高階。降維後的 $n\times d$ 的基矩陣 $\mathbf P_d$ 通過選擇協方差矩陣的前 $d$ 個特徵向量計算得到。

(2) 不完全資料的直接矩陣分解

上面所提方法的不足：無法解決評分矩陣過度稀疏的問題。

方法：矩陣分解法

未完待續。。。

參考文獻： Charu C. Aggarwal 著，推薦系統原理與實踐

推薦系統——基於降維的近鄰協同

處理偏差

(1) 極大似然估計

(2) 不完全資料的直接矩陣分解

推薦系統——基於降維的近鄰協同

Java推薦系統-基於使用者的最近鄰協同過濾演算法

推薦系統學習（一）——協同過濾

Machine Learning第九講【推薦系統】-- （二）協同過濾

推薦系統-基於鄰域的演算法

推薦系統-基於隱語義模型(LFM)

機器學習->推薦系統->基於圖的推薦演算法(PersonalRank)

ML之RS：基於使用者的CF+LFM實現的推薦系統(基於相關度較高的使用者實現電影推薦)

個性化推薦演算法------基於內容的推薦和基於鄰域的協同過濾

機器學習實戰（Machine Learning in Action）學習筆記————10.奇異值分解(SVD)原理、基於協同過濾的推薦引擎、資料降維

機器學習實戰（Machine Learning in Action）學習筆記————10.奇異值分解(SVD)原理、基於協同過濾的推薦引擎、數據降維

基於近鄰使用者協同過濾演算法的音樂推薦系統

個性化推薦系統原理介紹（基於內容過濾／協同過濾／關聯規則／序列模式）

【推薦系統實戰】：C++實現基於用戶的協同過濾（UserCollaborativeFilter）

機器學習-推薦系統中基於深度學習的混合協同過濾模型

基於使用者的協同過濾演算法實現的商品推薦系統

推薦系統（一）基於協同過濾演算法開發離線推薦

吳恩達機器學習（十四）推薦系統（基於梯度下降的協同過濾演算法）

推薦系統之基於領域的協同過濾

《推薦系統》003 基於物品的最近鄰推薦

推薦系統——基於降維的近鄰協同

處理偏差

(1) 極大似然估計

(2) 不完全資料的直接矩陣分解

相關推薦