因子分解機 Factorization Machine

因子分解機主要是考慮了特徵之間的關聯。

FM主要是為了解決資料稀疏的情況下，（而SVM無法解決稀疏問題），特徵怎樣組合的問題。

資料稀疏是指資料的維度很大，但是其中為0的維度很多。推薦系統是常見應用場景，原因是推薦系統中類別屬性（如商品id）比較多，每一種類別屬性經過onehot處理後會產生大量值為0的特徵，導致樣本變得稀疏，而FM就可以解決這種樣本稀疏的問題。

因子分解機FM演算法可以處理如下三類問題：

普通線性模型

我們將各個特徵獨立考慮，並沒有考慮特徵之間的相互關係。

FM模型

為了表述特徵間的相關性，我們採用多項式模型，將特徵 $x_{i}$

x_{i}

和

x_{j}

的組合用

x_{i} x_{j}

表示，只討論二階多項式模型：

j=i+1

其中，n表示樣本的維度（是已經進行onehot以後的特徵數量）， $x_{i}$ 表示第i個特徵，(如果是類別變數，那麼onehot後只有一個維度值為1，其餘維度值為0，因此在這種情況下 $x_{i}$ 的值通常是取0和1，而對於一般的數值維度， $x_{i}$ 的值對應原來的數值)， $w_{i j}$ 是組合引數，代表組合特徵的重要性，注意： $w_{i j}$ 和 $w_{j i}$ 是相等的，因此組合特徵部分相關引數共有 $(n - 1) + (n - 2) + . . . + 1 = n (n - 1) / 2$

注意到，在資料稀疏的情況下，滿足特徵 $x_{i}$ 和 $x_{j}$

x_{j}

都不為0的情況很少，因此

w_{i j}

很難訓練。

為了求解組合引數 $w_{i j}$ , 對每個特徵分量 $x_{i}$ 引入k維（k遠小於n) 的輔助向量 $v_{i} = (v_{i 1}, v_{i 2}, . . ., v_{i k})$ , 然後利用向量內積的結果 $v_{i} v_{j}^{T}$ 來表示原來的組合引數 $w_{i j}$

實際上，輔助向量可以理解為是特徵分量的另一種表示形式，類似於詞向量的表示形式，但是和詞向量存在區別。詞向量中是將一個單詞轉換為向量表示形式，而單詞是固定的，因此一個單詞對應一個詞向量；而在FM中，我們是將一個類別特徵（注意，這是onehot前的特徵）轉換為一個向量，但由於該類別特徵可以有多種取值，並且每種取值對應一個向量(也就是上面將類別特徵onehot以後，每個特徵分量對應一個輔助向量），因此，FM中確實是將一個類別特徵轉換為了向量形式，只不過向量會根據特徵的取值發生變化。

此時，組合引數 $w_{i j}$ 組成的矩陣可以表示為：

= vvT

將組合引數進行分解的好處：

從原來要求n(n-1)/2個組合引數變成了求矩陣V，引數數量變為n*k.
削弱了高階引數間的獨立性：k越大（即對特徵分量的表徵能力越強），高階引數間獨立性越強，模型越精細；k越小，泛化能力越強，

因此實際問題選擇較小的k可以克服稀疏資料的問題，並獲得較好的預測效果。

因此時間複雜度從O(n^2)變成了O(kn)

此時，分解機的表示形式變為：

注意第二項，下標j的迴圈從i+1開始。

使用輔助向量乘積表示組合引數的原理：

通常，由於資料稀疏，本來組合引數是學習不到的，但是我們可以通過特徵i與其他特徵的資料的關係，特徵j和其他特徵的關係，分別學習到特徵i和特徵j的對應的輔助向量 $v_{i}$ 和 $v_{j}$ ,這樣利用 $v_{i} v_{j}^{T}$ 來表示 $w_{i j}$ ，便可以解決資料稀疏帶來的問題。

計算模型的預測值：

在計算模型時，只需要考慮計算量最大的二次項：

可以先把標量 $x_{i}$ 和對應的輔助向量 $v_{i}$ 相乘，並記錄下來，得到 $u_{i} = x_{i} v_{i}$ , 注意 $x_{i}$ 只是標量。

對於n個元素，共需要n*k次乘法，於是二元項變為：注意：公式中的r即為k,即輔助向量的維度

把上式湊成和的平方：

化簡的原理是將整個對稱矩陣W除去對角線上的數值，由於對稱，再除以2得到原來的上三角矩陣。

括號內，兩部分計算量均為O(n),因此整體計算量為O(kn)。

梯度下降求解模型引數：

SGD中，需要計算兩種導數：

預測值對一元引數的導數：

預測值對二元引數的導數：

實際處理問題：

迴歸問題：

在迴歸問題中，直接使用模型預測值作為預測結果，並使用最小均方誤差作為損失函式，其中m為樣本個數：

二分類問題：

將輸出結果通過啟用函式，如sigmoid函式得到預測類別的概率，使用對數似然作為損失函式：

場感知分解機 FFM

FM的應用場景：給定一組資料，判定使用者是否會進行點選。

採用onehot對categorical型別的資料進行編碼後，資料會十分稀疏，並且資料維度增大。

以廣告分類為例，“Day=26/11/15”、“Day=1/7/14”、“Day=19/2/15”這三個特徵都是代表日期的，可以放到同一個field中。同理，商品的末級品類編碼生成了550個特徵，這550個特徵都是說明商品所屬的品類，因此它們也可以放到同一個field中。簡單來說，同一個categorical特徵經過One-Hot編碼生成的數值特徵都可以放到同一個field，包括使用者性別、職業、品類偏好等。

Field-aware Factorization Machine(FFM) 模型

場感知說白了可以理解引入了field的概念，FFM把相同性質的特徵歸於同一個field。

因此，隱向量不僅與特徵相關，也與filed相關，

即：對每一維特徵分量 $x_{i}$ , 針對每一種field $f_{j}$ , 都會學習一個隱向量 $v_{i, f_{j}}$ ，與不同的特徵關聯需要使用不同的隱向量 (而FM每種特徵只有一個隱向量)
例如，當考慮“Day=26/11/15”這個特徵，與“Country”特徵和“Ad_type”特徵進行關聯的時候，需要使用不同的隱向量，而在FM中則使用相同的隱向量。

假設樣本的n個特徵（已經onehot)屬於f個field, 那麼FFM二次項有nf個隱向量。

因此，得到：

其中， $f_{j}$

因子分解機 FM和FFM

因子分解機 Factorization Machine

普通線性模型

FM模型

場感知分解機 FFM

Field-aware Factorization Machine(FFM) 模型

因子分解機 FM和FFM

因子分解機(FM) +場感知分解機 (FFM) 入門

因子分解機FM原理及SGD訓練

ml課程：FM因子分解機介紹及相關程式碼

FM（因子分解機系列）

FM（Factorization Machine，因子分解機）演算法個人理解

推薦系統學習筆記之四 Factorization Machines 因子分解機 + Field-aware Factorization Machine(FFM) 場感知分解機

萬字長文，詳解推薦系統領域經典模型FM因子分解機

簡單易學的機器學習演算法——因子分解機(Factorization Machine)

因子分解機（libffm+xlearn）

從SVD、SVD++到因子分解機

FM和FFM的區別

（一）因式分解機（Factorization Machine，FM）原理及實踐

容斥原理的(二進位制思想和質因子分解+模板)

POJ 1811 Prime Test（大素數判斷和素因子分解）

poj 1811 Prime Test(大素數判定和素因子分解)

FM（Factorization Machine）因式分解機與 TensorFlow實現詳解

Linux學習第一步（虛擬機的和鏡像文件的安裝）

每日一小練——因子分解

單片機: EEPROM和串口通信

因子分解機 FM和FFM

因子分解機 Factorization Machine

普通線性模型

FM模型

場感知分解機 FFM

Field-aware Factorization Machine(FFM) 模型

相關推薦