DeepFM演算法解析及Python實現 FFM演算法解析及Python實現 FM演算法解析及Python實現詞嵌入的那些事兒（一）

阿新 • • 發佈：2018-12-02

1. DeepFM演算法的提出

由於DeepFM演算法有效的結合了因子分解機與神經網路在特徵學習中的優點：同時提取到低階組合特徵與高階組合特徵，所以越來越被廣泛使用。

在DeepFM中，FM演算法負責對一階特徵以及由一階特徵兩兩組合而成的二階特徵進行特徵的提取；DNN演算法負責對由輸入的一階特徵進行全連線等操作形成的高階特徵進行特徵的提取。

具有以下特點：

結合了廣度和深度模型的優點，聯合訓練FM模型和DNN模型，同時學習低階特徵組合和高階特徵組合。
端到端模型，無需特徵工程。
DeepFM 共享相同的輸入和 embedding vector，訓練更高效。
評估模型時，用到了一個新的指標“Gini Normalization”

DeepFM裡關於“Field”和“Feature”的理解：可參考我的文章FFM演算法解析及Python實現中對Field和Feature的描述。

2. DeepFM演算法結構圖

演算法整體結構圖如下所示：

${x, y}$

${x, y}$ FM演算法解析及Python實現中5.4小節的內容。

由上面網路結構圖可以看到，DeepFM 包括 FM和 DNN兩部分，所以模型最終的輸出也由這兩部分組成：

下面，把結構圖進行拆分。首先是FM部分的結構：

FM 部分的輸出如下：

這裡需要注意三點：

這裡的wij，也就是<vi,vj>，可以理解為DeepFM結構中計算embedding vector的權矩陣（看到網上很多文章是把vi認為是embedding vector，但仔細分析程式碼，就會發現這種觀點是不正確的）。

由於輸入特徵one-hot編碼，所以embedding vector也就是輸入層到Dense Embeddings層的權重，具體可閱讀我在詞嵌入的那些事兒（一）一文中的3.2小節。
Dense Embeddings層的神經元個數是由embedding vector和field_size共同確定，再直白一點就是：神經元的個數為embedding vector*field_size。

然後是DNN部分的結構：

這裡DNN的作用是構造高維特徵，且有一個特點：DNN的輸入也是embedding vector。所謂的權值共享指的就是這裡。

關於DNN網路中的輸入a處理方式採用前向傳播，如下所示：

這裡假設 $a^{(0)} = (e_{1}, e_{2}, . . . e_{m})$

3. DeepFM演算法的Python實現

同樣的，網上關於DeepFM演算法實現有很多很多。需要注意的是兩部分：一是訓練集的構造，二是模型的設計。

3.1 訓練集構造

主要是對連續型變數做正態分佈等資料預處理操作、類別型變數的One-hot編碼操作、統計One-hot編碼後的特徵數量、field_size的數量（注：原始特徵數量）。

feature_value。對應的特徵值，如果是離散特徵的話，就是1，如果不是離散特徵的話，就保留原來的特徵值。

feature_index。用來記錄One-hot編碼後特徵的序號，主要用於通過embedding_lookup選擇我們的embedding。

相關程式碼如下：

import pandas as pd


def load_data():
    train_data = {}
    file_path = 'F:/Projects/deep_learning/DeepFM/data/tiny_train_input.csv'
    data = pd.read_csv(file_path, header=None)
    data.columns = ['c' + str(i) for i in range(data.shape[1])]
    label = data.c0.values
    label = label.reshape(len(label), 1)
    train_data['y_train'] = label
    co_feature = pd.DataFrame()
    ca_feature = pd.DataFrame()
    ca_col = []
    co_col = []
    feat_dict = {}
    cnt = 1
    for i in range(1, data.shape[1]):
        target = data.iloc[:, i]
        col = target.name
        l = len(set(target))  # 列裡面不同元素的數量
        if l > 10:
            # 正態分佈
            target = (target - target.mean()) / target.std()
            co_feature = pd.concat([co_feature, target], axis=1)  # 所有連續變數正態分佈轉換後的df
            feat_dict[col] = cnt  # 列名對映為索引
            cnt += 1
            co_col.append(col)
        else:
            us = target.unique()
            print(us)
            feat_dict[col] = dict(zip(us, range(cnt, len(us) + cnt)))  # 類別型變數裡的類別對映為索引
            ca_feature = pd.concat([ca_feature, target], axis=1)
            cnt += len(us)
            ca_col.append(col)

    feat_dim = cnt
    feature_value = pd.concat([co_feature, ca_feature], axis=1)
    feature_index = feature_value.copy()

    for i in feature_index.columns:
        if i in co_col:
            # 連續型變數
            feature_index[i] = feat_dict[i]  # 連續型變數元素轉化為對應列的索引值
        else:
            # 類別型變數
            # print(feat_dict[i])
            feature_index[i] = feature_index[i].map(feat_dict[i])  # 類別型變數元素轉化為對應元素的索引值
            feature_value[i] = 1.

    # feature_index是特徵的一個序號，主要用於通過embedding_lookup選擇我們的embedding
    train_data['xi'] = feature_index.values.tolist()
    # feature_value是對應的特徵值，如果是離散特徵的話，就是1，如果不是離散特徵的話，就保留原來的特徵值。
    train_data['xv'] = feature_value.values.tolist()
    train_data['feat_dim'] = feat_dim

    return train_data


if __name__ == '__main__':
    load_data()

3.2 模型設計

模型設計主要是完成了FM部分和DNN部分的結構設計，具體功能程式碼中都進行了註釋。

import os
import sys
import numpy as np
import tensorflow as tf

from build_data import load_data


BASE_PATH = os.path.dirname(os.path.dirname(__file__))


class Args():
    feature_sizes = 100
    field_size = 15
    embedding_size = 256
    deep_layers = [512, 256, 128]
    epoch = 3
    batch_size = 64

    # 1e-2 1e-3 1e-4
    learning_rate = 1.0

    # 防止過擬合
    l2_reg_rate = 0.01
    checkpoint_dir = os.path.join(BASE_PATH, 'data/saver/ckpt')
    is_training = True


class model():
    def __init__(self, args):
        self.feature_sizes = args.feature_sizes
        self.field_size = args.field_size
        self.embedding_size = args.embedding_size
        self.deep_layers = args.deep_layers
        self.l2_reg_rate = args.l2_reg_rate

        self.epoch = args.epoch
        self.batch_size = args.batch_size
        self.learning_rate = args.learning_rate
        self.deep_activation = tf.nn.relu
        self.weight = dict()
        self.checkpoint_dir = args.checkpoint_dir
        self.build_model()

    def build_model(self):
        self.feat_index = tf.placeholder(tf.int32, shape=[None, None], name='feature_index')
        self.feat_value = tf.placeholder(tf.float32, shape=[None, None], name='feature_value')
        self.label = tf.placeholder(tf.float32, shape=[None, None], name='label')

        # One-hot編碼後的輸入層與Dense embeddings層的權值定義，即DNN的輸入embedding。注：Dense embeddings層的神經元個數由field_size和決定
        self.weight['feature_weight'] = tf.Variable(
            tf.random_normal([self.feature_sizes, self.embedding_size], 0.0, 0.01),
            name='feature_weight')

        # FM部分中一次項的權值定義
        # shape (61,1)
        self.weight['feature_first'] = tf.Variable(
            tf.random_normal([self.feature_sizes, 1], 0.0, 1.0),
            name='feature_first')

        # deep網路部分的weight
        num_layer = len(self.deep_layers)
        # deep網路初始輸入維度：input_size = 39x256 = 9984 (field_size(原始特徵個數)*embedding個神經元)
        input_size = self.field_size * self.embedding_size
        init_method = np.sqrt(2.0 / (input_size + self.deep_layers[0]))

        # shape (9984,512)
        self.weight['layer_0'] = tf.Variable(
            np.random.normal(loc=0, scale=init_method, size=(input_size, self.deep_layers[0])), dtype=np.float32
        )
        # shape(1, 512)
        self.weight['bias_0'] = tf.Variable(
            np.random.normal(loc=0, scale=init_method, size=(1, self.deep_layers[0])), dtype=np.float32
        )

        # 生成deep network裡面每層的weight 和 bias
        if num_layer != 1:
            for i in range(1, num_layer):
                init_method = np.sqrt(2.0 / (self.deep_layers[i - 1] + self.deep_layers[i]))

                # shape  (512,256)  (256,128)
                self.weight['layer_' + str(i)] = tf.Variable(
                    np.random.normal(loc=0, scale=init_method, size=(self.deep_layers[i - 1], self.deep_layers[i])),
                    dtype=np.float32)

                # shape (1,256)  (1,128)
                self.weight['bias_' + str(i)] = tf.Variable(
                    np.random.normal(loc=0, scale=init_method, size=(1, self.deep_layers[i])),
                    dtype=np.float32)

        # deep部分output_size + 一次項output_size + 二次項output_size 423
        last_layer_size = self.deep_layers[-1] + self.field_size + self.embedding_size
        init_method = np.sqrt(np.sqrt(2.0 / (last_layer_size + 1)))
        # 生成最後一層的結果
        self.weight['last_layer'] = tf.Variable(
            np.random.normal(loc=0, scale=init_method, size=(last_layer_size, 1)), dtype=np.float32)
        self.weight['last_bias'] = tf.Variable(tf.constant(0.01), dtype=np.float32)

        # embedding_part
        # shape (?,?,256)
        self.embedding_index = tf.nn.embedding_lookup(self.weight['feature_weight'],
                                                      self.feat_index)  # Batch*F*K

        # shape (?,39,256)
        self.embedding_part = tf.multiply(self.embedding_index,
                                          tf.reshape(self.feat_value, [-1, self.field_size, 1]))
        # [Batch*F*1] * [Batch*F*K] = [Batch*F*K],用到了broadcast的屬性
        print('embedding_part:', self.embedding_part)

        """
        網路傳遞結構
        """
        # FM部分
        # 一階特徵
        # shape (?,39,1)
        self.embedding_first = tf.nn.embedding_lookup(self.weight['feature_first'],
                                                      self.feat_index)  # bacth*F*1
        self.embedding_first = tf.multiply(self.embedding_first, tf.reshape(self.feat_value, [-1, self.field_size, 1]))
        # shape （？,39）
        self.first_order = tf.reduce_sum(self.embedding_first, 2)
        print('first_order:', self.first_order)

        # 二階特徵
        self.sum_second_order = tf.reduce_sum(self.embedding_part, 1)
        self.sum_second_order_square = tf.square(self.sum_second_order)
        print('sum_square_second_order:', self.sum_second_order_square)

        self.square_second_order = tf.square(self.embedding_part)
        self.square_second_order_sum = tf.reduce_sum(self.square_second_order, 1)
        print('square_sum_second_order:', self.square_second_order_sum)

        # 1/2*((a+b)^2 - a^2 - b^2)=ab
        self.second_order = 0.5 * tf.subtract(self.sum_second_order_square, self.square_second_order_sum)

        # FM部分的輸出(39+256)
        self.fm_part = tf.concat([self.first_order, self.second_order], axis=1)
        print('fm_part:', self.fm_part)

        # DNN部分
        # shape (?,9984)
        self.deep_embedding = tf.reshape(self.embedding_part, [-1, self.field_size * self.embedding_size])
        print('deep_embedding:', self.deep_embedding)

        # 全連線部分
        for i in range(0, len(self.deep_layers)):
            self.deep_embedding = tf.add(tf.matmul(self.deep_embedding, self.weight["layer_%d" % i]),
                                         self.weight["bias_%d" % i])
            self.deep_embedding = self.deep_activation(self.deep_embedding)

        # FM輸出與DNN輸出拼接
        din_all = tf.concat([self.fm_part, self.deep_embedding], axis=1)
        self.out = tf.add(tf.matmul(din_all, self.weight['last_layer']), self.weight['last_bias'])
        print('output:', self.out)

        # loss部分
        self.out = tf.nn.sigmoid(self.out)

        self.loss = -tf.reduce_mean(
            self.label * tf.log(self.out + 1e-24) + (1 - self.label) * tf.log(1 - self.out + 1e-24))

        # 正則：sum(w^2)/2*l2_reg_rate
        # 這邊只加了weight，有需要的可以加上bias部分
        self.loss += tf.contrib.layers.l2_regularizer(self.l2_reg_rate)(self.weight["last_layer"])
        for i in range(len(self.deep_layers)):
            self.loss += tf.contrib.layers.l2_regularizer(self.l2_reg_rate)(self.weight["layer_%d" % i])

        self.global_step = tf.Variable(0, trainable=False)
        opt = tf.train.GradientDescentOptimizer(self.learning_rate)
        trainable_params = tf.trainable_variables()
        print(trainable_params)
        gradients = tf.gradients(self.loss, trainable_params)
        clip_gradients, _ = tf.clip_by_global_norm(gradients, 5)
        self.train_op = opt.apply_gradients(
            zip(clip_gradients, trainable_params), global_step=self.global_step)

    def train(self, sess, feat_index, feat_value, label):
        loss, _, step = sess.run([self.loss, self.train_op, self.global_step], feed_dict={
            self.feat_index: feat_index,
            self.feat_value: feat_value,
            self.label: label
        })
        return loss, step

    def predict(self, sess, feat_index, feat_value):
        result = sess.run([self.out], feed_dict={
            self.feat_index: feat_index,
            self.feat_value: feat_value
        })
        return result

    def save(self, sess, path):
        saver = tf.train.Saver()
        saver.save(sess, save_path=path)

    def restore(self, sess, path):
        saver = tf.train.Saver()
        saver.restore(sess, save_path=path)


def get_batch(Xi, Xv, y, batch_size, index):
    start = index * batch_size
    end = (index + 1) * batch_size
    end = end if end < len(y) else len(y)
    return Xi[start:end], Xv[start:end], np.array(y[start:end])


if __name__ == '__main__':
    args = Args()
    data = load_data()
    args.feature_sizes = data['feat_dim']
    args.field_size = len(data['xi'][0])
    args.is_training = True

    with tf.Session() as sess:
        Model = model(args)
        # init variables
        sess.run(tf.global_variables_initializer())
        sess.run(tf.local_variables_initializer())

        cnt = int(len(data['y_train']) / args.batch_size)
        print('time all:%s' % cnt)
        sys.stdout.flush()
        if args.is_training:
            for i in range(args.epoch):
                print('epoch %s:' % i)
                for j in range(0, cnt):
                    X_index, X_value, y = get_batch(data['xi'], data['xv'], data['y_train'], args.batch_size, j)
                    loss, step = Model.train(sess, X_index, X_value, y)
                    if j % 100 == 0:
                        print('the times of training is %d, and the loss is %s' % (j, loss))
                        Model.save(sess, args.checkpoint_dir)
        else:
            Model.restore(sess, args.checkpoint_dir)
            for j in range(0, cnt):
                X_index, X_value, y = get_batch(data['xi'], data['xv'], data['y_train'], args.batch_size, j)
                result = Model.predict(sess, X_index, X_value)
                print(result)

最終計算結果如下：

4. 總結

到此，關於CTR問題的三個演算法（FM、FFM、DeepFM）已經介紹完畢，當然這僅僅是冰山一角，此外還有FNN、Wide&Deep等演算法。感興趣的同學可以自行研究。

此外，個人認為CTR問題的核心在於特徵的構造，所以不同演算法的差異主要體現在特徵構造方面。

最後，附上一個CTR問題各模型的效果對比圖。

DeepFM演算法解析及Python實現 FFM演算法解析及Python實現 FM演算法解析及Python實現詞嵌入的那些事兒（一）

1. DeepFM演算法的提出由於DeepFM演算法有效的結合了因子分解機與神經網路在特徵學習中的優點：同時提取到低階組合特徵與高階組合特徵，所以越來越被廣泛使用。在DeepFM中，FM演算法負責對一階特徵以及由一階特徵兩兩組合而成的二階特徵進行特徵的提取；DNN演算法負責對由輸入的一階特徵進行全連線

Python練習之基礎語法、數據類型、字符編碼、文件操作（一）

AD 編碼基礎 orm 分享基本知識 mage fff pos 最近做了幾道練習題，用的都是一些python的基本知識，但每道題都有層次，需要紮實的基礎功底。第一道基礎需求：讓用戶輸入用戶名密碼認證成功後顯示歡迎信息輸錯三次後退出程序升級需求：可以支持多

Python程式設計中一定要注意的那些“坑”（一）

1 逗號不是運算子，只是個普通的分隔符 >>> x = 3, 5 >>> x(3, 5) >>> x == 3, 5(False, 5) >>> 1, 2, 3(1, 2, 3) >>&g

原型聚類（一）k均值演算法和python實現

原型聚類原型聚類演算法假設聚類結構能通過一組原型刻畫，在現實聚類任務中極為常用。通常情形下，演算法先對原型進行初始化，然後對原型進行迭代更新求解。這裡的“原型”我認為實際上就是“原來的模型”，這類演算法企圖模擬出生成資料集的模型。 k均值演算法（k-means

Python實現邏輯迴歸演算法（一）

本次用Python實現邏輯迴歸演算法，邏輯迴歸是應用非常廣泛的一個分類及其學習演算法，它將資料擬合到一個logit函式中，從而完成對事件發生的概率進行預測。本次學習筆記主要參考了《Python進行資料分析與挖掘實踐》和作者@寒小陽的部落格，地址如下：http://blog.c

資料探勘十大演算法（一）：決策樹演算法 python和sklearn實現

學完到第三章——決策樹，python程式碼實現的僅是ID3演算法，sklearn為優化過的C4.5，這裡做一個詳細的總結包括（原理、程式碼、視覺化、scikit-learn實現），皆為親自實踐後的感悟。以下進入正文。早前簡單瞭解了決策樹的原理，然後為了儘快使用便沒有深究直

機器學習演算法（一）——關聯規則Apriori演算法及R語言實現方法

關聯規則演算法算是一種十分常用的機器學習演算法，無論是面試還是日後工作中都會經常出現，那麼本篇小博就記錄一下自己學習關聯規則經典演算法Apriori的筆記。 1、概述 Apriori演算法是用一種稱為逐層搜尋的迭代方法，從項集長度k=1開始，選出頻繁的k=1項集，根據先驗性

寫程式學ML：樸素貝葉斯演算法原理及實現（一）

[題外話]近期申請了一個微信公眾號：平凡程式人生。有興趣的朋友可以關注，那裡將會涉及更多更新機器學習、OpenCL+OpenCV以及影象處理方面的文章。 1、樸素貝葉斯演算法的原理樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。和決策樹模型相比，樸素貝葉斯

寫程式學ML：Logistic迴歸演算法原理及實現（一）

[題外話]近期申請了一個微信公眾號：平凡程式人生。有興趣的朋友可以關注，那裡將會涉及更多更新機器學習、OpenCL+OpenCV以及影象處理方面的文章。 1、Logistic迴歸演算法的原理假設現在有一些資料點，我們用一條直線對這些點進行擬合（該線稱為最佳擬合直線），這個

幾種常用的排序演算法（一）--python實現

1. 選擇排序，時間複雜度O（n^2），演算法不穩定。思路：（1）迴圈整個陣列 arr，選出最大的數，將它放在空陣列 new_arr 的第一個位置。（2）將剛

python常見排序演算法的實現（一）

在Python程式設計的實踐中，我們往往會遇到排序問題，比如在對搜尋引擎搜尋結果的排序（沒有排序就沒有Google、baidu等搜尋引擎的存在），當然，這樣的例子數不勝數。我大學中的必修課程《資料結構》

K-近鄰演算法的Python實現（一）

1.Python的語言環境和參考的書籍下面給出的程式碼是基於Python2.7.9編寫的（編譯器推薦使用pycharm），Python到了3.0以後的版本語言有所改變，但是大體上沒有太大的變化。我所給出的程式碼是引用《機器學習實戰》中的程式碼，帶

全排列及相關擴充套件演算法（一）——基礎的回溯遞迴實現全排列演算法

1.全排列的定義和公式：從n個數中選取m（m<=n）個數按照一定的順序進行排成一個列，叫作從n個元素中取m個元素的一個排列。由排列的定義，顯然不同的順序是一個不同的排列。從n個元素中取m個元素的所有排列的個數，稱為排列數。從n個元素取出n個元素的一個排列，稱為一個全

[python]My Unique JsonDiff演算法——如何計算2個json串之間的差距並Diff出來（一）：編輯距離（Levenshtein）演算法

啊啊，年底忙著簽證什麼的，好久沒寫日誌啦。。。。新年到來，整點乾貨出來給大家~~順便為自己考試和申請學校攢點人品~~ 之前實習的時候，因為實習公司的業務需求，需要一個比對json字串差異的演算法，然而我在網上查了很久的資料，發現竟然沒有現成

從零開始Rtklib解讀篇-簡單的程式設計理論和演算法及結構分析（一）

Rtklib一直開源，資源比較容易找到，功能也非常強大。因為專業有點相關，但是之前不用這個平臺，一直未能好好沉下心來學習，然而學到用時方恨少。這個系列也算是自己的一個小小的總結吧，因為我對VS、對Rtklib、對演算法的理解也比較淺，很多內容未必正確，寫的時候也不一定非常有條理，不當之處，還請指出並

劍指Offer演算法題及答案Java完整版（一）

1、輸入一個整數陣列，實現一個函式來調整該陣列中數字的順序，使得所有的奇數位於陣列的前半部分，所有的偶數位於位於陣列的後半部分，並保證奇數和奇數，偶數和偶數之間的相對位置不變。 package cn.ctgu.offer; /* * 輸入一個整數陣列，實現一個函式來調整該陣列中數

OpenCV下車牌定位演算法實現程式碼（一）

分類：影象處理

計算機圖形學實驗（一）--直線DDA演算法的實現

1. DDA演算法(數值微分法)原理： 1）網上或者計算機圖形學書本上有詳細介紹。 2）最核心的是選定（x2-x1)和(y2-y1)中較大者為步進方向。 2. 實現工具： 1) VS2017(C++)

資料結構及演算法學習（一）

一、資料結構範疇　　資料結構是一門與程式設計密切相關的課程，而程式設計就是演算法+資料結構，演算法即是處理資料的策略，而資料結構就是表達程式設計的模型，可以說任何一個程式設計問題，我們都可以從演算法和模型出發。概而言之，資料結構就是描述了程式設計的數學模型及在其程式設計上的表示和實現。二、基本概念

Python遺傳和進化演算法框架（一）Geatpy快速入門

Geatpy是一個高效能的Python遺傳演算法庫以及開放式進化演算法框架，由華南理工大學、華南農業大學、德州奧斯汀公立大學的學生聯合團隊開發。它提供了許多已實現的遺傳和進化演算法相關運算元的庫函式，如初始化種群、選擇、交叉、變異、重插入、多種群遷移、多目標優化非支配排序

DeepFM演算法解析及Python實現 FFM演算法解析及Python實現 FM演算法解析及Python實現 詞嵌入的那些事兒（一）

1. DeepFM演算法的提出

2. DeepFM演算法結構圖

3. DeepFM演算法的Python實現

3.1 訓練集構造

3.2 模型設計

4. 總結

相關推薦

DeepFM演算法解析及Python實現 FFM演算法解析及Python實現 FM演算法解析及Python實現詞嵌入的那些事兒（一）