糾錯：深度學習模型優化時快速收斂

阿新 • • 發佈：2019-01-14

最近在做問答系統，用CNN深度學習模型分別對問題、正答案和負答案提取特徵，得到各自的特徵向量。正答案與問題之間的距離比負答案與問題之間的距離要近，距離用夾角的cos值來表示，目標函式是由此確定的。模型出自《Applying Deep Learning To Answer Selection: A Study And An Open Task》，如圖1所示。
這裡寫圖片描述
圖 1
用tensorflow架構實現該模型，然而做模型優化時，5步以內模型的loss就為0了，精度達到了1，如圖2所示。‘

圖 2
迷糊了一個星期，才找到問題點。
原來是因為在用CNN做特徵提取時，我對三個輸入（問題、正答案、負答案）分別做了模型weight初始化，相當於建立了三個CNN分別對問題、正答案、負答案做特徵抽取。程式碼如下，呼叫了conv函式三遍，初始化了W三次，建立了三個CNN模型。

# define a convolution function 
    def conv(input_data):
        pooled_outputs = []
        for i, filter_size in enumerate(filter_sizes):
                with tf.name_scope("conv-maxpool-%s" % filter_size):
                    # Convolution Layer         
            filter_shape = [filter_size, embedding_size, 1 
, num_filters]
                W = tf.Variable(tf.truncated_normal(filter_shape, stddev=0.1), name="W")
                b = tf.Variable(tf.constant(0.1, shape=[num_filters]), name="b")
                conv = tf.nn.conv2d(input_data, W, strides=[1, 1, 1, 1],
                padding="VALID", name="conv" 
)
            h = tf.nn.relu(tf.nn.bias_add(conv, b), name="relu")    
                pooled = tf.nn.max_pool(
                h,
                        ksize=[1, sequence_length - filter_size + 1, 1, 1],
                        strides=[1, 1, 1, 1],
                        padding='VALID',
                        name="pool")    # shape of pooled is [batch_size,1,1,num_filters]
                pooled_outputs.append(pooled)
        return pooled_outputs
    pooled_outputs1=conv(self.embedded_chars1_expanded) # conv-pool outputs
    pooled_outputs2=conv(self.embedded_chars2_expanded)
    pooled_outputs3=conv(self.embedded_chars3_expanded)

為什麼用三個CNN模型做QA系統的答案選擇不行呢？此時的模型相當於如下圖3的結構。
這裡寫圖片描述
圖 3
三個CNN模型分別做特徵提取，導致模型對負答案失去約束力，也就是說負答案的卷積神經網路模型使它始終離問題很遠（夾角的cos值小），即使此負答案CNN模型的輸入是正答案，距離仍然會遠（夾角仍然會小）。打個形象的比喻，就像是讓負答案乘以0，無論輸入怎麼變，輸出都是零，這樣的約束沒有了意義。
對程式碼進行如下修改。

pooled_outputs1 = []
        pooled_outputs2 = []
        pooled_outputs3 = []
        for i, filter_size in enumerate(filter_sizes):
            with tf.name_scope("conv-maxpool-%s" % filter_size):
                filter_shape = [filter_size, embedding_size, 1, num_filters]
                W = tf.Variable(tf.truncated_normal(filter_shape, stddev=0.1), name="W")
                b = tf.Variable(tf.constant(0.1, shape=[num_filters]), name="b")
                conv = tf.nn.conv2d(self.embedded_chars1_expanded, W, strides=[1, 1, 1, 1],
                                    padding="VALID", name="conv")
                h = tf.nn.relu(tf.nn.bias_add(conv, b), name="relu")
                pooled = tf.nn.max_pool(
                                h,
                                ksize=[1, sequence_length - filter_size + 1, 1, 1],
                                strides=[1, 1, 1, 1],
                                padding='VALID',
                                name="pool")  # shape of pooled is [batch_size,1,1,num_filters]
                pooled_outputs1.append(pooled)
                conv = tf.nn.conv2d(self.embedded_chars2_expanded, W, strides=[1, 1, 1, 1],
                                    padding="VALID", name="conv")
                h = tf.nn.relu(tf.nn.bias_add(conv, b), name="relu")
                        pooled = tf.nn.max_pool(
                                h,
                                ksize=[1, sequence_length - filter_size + 1, 1, 1],
                                strides=[1, 1, 1, 1],
                                padding='VALID',
                                name="pool")  # shape of pooled is [batch_size,1,1,num_filters]
                        pooled_outputs2.append(pooled)
                        conv = tf.nn.conv2d(self.embedded_chars3_expanded, W, strides=[1, 1, 1, 1],
                                    padding="VALID", name="conv")
        # print('\n--- shape of cov is {}'.format(conv.get_shape()))
        # Apply nonlinearity
                        h = tf.nn.relu(tf.nn.bias_add(conv, b), name="relu")
        # Max-pooling over the outputs
                        pooled = tf.nn.max_pool(
                                h,
                                ksize=[1, sequence_length - filter_size + 1, 1, 1],
                                strides=[1, 1, 1, 1],
                                padding='VALID',
                                name="pool")  # shape of pooled is [batch_size,1,1,num_filters]
                        pooled_outputs3.append(pooled)

改過的程式可以正常運行了，準確率和論文描述的相當。

糾錯：深度學習模型優化時快速收斂

糾錯：深度學習模型優化時快速收斂

關於訓練深度學習模型deepNN時，訓練精度維持固定值，模型不收斂的解決辦法（tensorflow實現）

20180813視頻筆記深度學習基礎上篇（1）之必備基礎知識點深度學習基礎上篇（2）神經網絡模型視頻筆記：深度學習基礎上篇（3）神經網絡案例實戰和深度學習基礎下篇

深度學習除錯網路時常用的優化演算法總結

Facebook開源Caffe2深度學習框架開發者可快速訓練和迭代AI模型

阿里雲使用筆記（一）：從零開始配置阿里雲GPU伺服器訓練深度學習模型

實戰 | 深度學習輕鬆學：如何用視覺化介面來部署深度學習模型

深度學習模型的優化演算法及tensorflow實現

深度學習模型壓縮與優化加速（Model Compression and Acceleration Overview）

Deep Learning-TensorFlow (10) CNN卷積神經網路_ TFLearn 快速搭建深度學習模型

Keras TensorFlow教程：如何從零開發一個複雜深度學習模型

使用Keras由零開始快速構造自己的深度學習模型

實戰 | 深度學習輕鬆學：如何用視覺化介面來部署深度學習模型轉載 2017年12月27日 00:00:00 109 翻譯 | AI科技大本營參與 | 王赫上個月，我有幸結識了 DeepCogn

ImageNet 歷屆冠軍最新評析：哪個深度學習模型最適合你？

15天倒計時：深度學習高端講座免費聽，最後200位贈教材名額！

人工智能AI專家分享：深度學習初學解惑

使用GOOGLE COLAB訓練深度學習模型

深度學習模型相關知識（2）

吳恩達：深度學習作業2相關

深度學習的優化算法

糾錯： 深度學習模型優化時快速收斂

相關推薦

糾錯：深度學習模型優化時快速收斂