關於訓練深度學習模型deepNN時，訓練精度維持固定值，模型不收斂的解決辦法（tensorflow實現）

阿新 • • 發佈：2018-11-09

一、背景

最近一直在做人臉表情的識別，用到的程式是之間的一篇文章中的程式：深度學習（一）——deepNN模型實現攝像頭實時識別人臉表情（C++和python3.6混合程式設計）。這裡我只進行了簡單的程式修改。

由於該程式是利用fer2013資料集做的，效果不是很好，人臉表情的識別精度僅有70%左右，因此我想自己製作資料集，自己訓練模型，關於如何製作資料集，可參考文章：從零開始製作人臉表情的資料集。

本文主要介紹在訓練模型的過程中出現的問題：即無論訓練多少次，其訓練精度一直維持在0.23。下面會具體介紹問題及解決辦法。

二、問題出現

這裡先給出我的程式碼。首先是關於資料讀取的程式碼，這裡給出關鍵部分程式碼

：

def load_data(txt_dir):

    # 省略內容：根據txt的路徑讀取影象資料和標籤    

    data_set = np.empty((count, 128, 128, 1), dtype="float32")    # 定義data_set
    label = np.empty((count,10), dtype="uint8")        # 定義label

    # 省略內容：讀取data和標籤

    return data_set, label

然後是deepNN模型的程式碼，這個完全參考之前的程式，只不過我的影象大小改成了128*128，表情種類為10類：

def deepnn(x):
    x_image = tf.reshape(x, [-1, 128, 128, 1])

    # conv1
    w_conv1 = weight_variables([5, 5, 1, 64])
    b_conv1 = bias_variable([64])
    h_conv1 = tf.nn.relu(conv2d(x_image, w_conv1) + b_conv1)
    h_pool1 = maxpool(h_conv1)
    norm1 = tf.nn.lrn(h_pool1, 4, bias=1.0, alpha=0.001 / 9.0, beta=0.75)

    # conv2
    w_conv2 = weight_variables([3, 3, 64, 64])
    b_conv2 = bias_variable([64])
    h_conv2 = tf.nn.relu(conv2d(norm1, w_conv2) + b_conv2)
    norm2 = tf.nn.lrn(h_conv2, 4, bias=1.0, alpha=0.001 / 9.0, beta=0.75)
    h_pool2 = maxpool(norm2)

    # Fully connected layer
    w_fc1 = weight_variables([32 * 32 * 64, 384])
    b_fc1 = bias_variable([384])
    h_conv3_flat = tf.reshape(h_pool2, [-1, 32 * 32 * 64])
    h_fc1 = tf.nn.relu(tf.matmul(h_conv3_flat, w_fc1) + b_fc1)

    # Fully connected layer
    w_fc2 = weight_variables([384, 192])
    b_fc2 = bias_variable([192])
    h_fc2 = tf.matmul(h_fc1, w_fc2) + b_fc2

    # linear
    w_fc3 = weight_variables([192, 10])         # 一共10類
    b_fc3 = bias_variable([10])                 # 一共10類
    y_conv = tf.add(tf.matmul(h_fc2, w_fc3), b_fc3)

    return y_conv


def weight_variables(shape):
    initial = tf.truncated_normal(shape, stddev=0.1)
    return tf.Variable(initial)


def bias_variable(shape):
    initial = tf.constant(0.1, shape=shape)
    return tf.Variable(initial)


def conv2d(x, w):
    return tf.nn.conv2d(x, w, strides=[1, 1, 1, 1], padding='SAME')


def maxpool(x):
    return tf.nn.max_pool(x, ksize=[1, 3, 3, 1],
                            strides=[1, 2, 2, 1], padding='SAME')

最後是訓練過程的程式碼，當然這裡我根據我的實際情況對原始碼進行了修改：

def train_model():

    # 構建模型----------------------------------------------------------
    x = tf.placeholder(tf.float32, [None, 16384])
    y_ = tf.placeholder(tf.float32, [None, 10])

    y_conv = deepnn(x)

    cross_entropy = tf.reduce_mean(
        tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=y_conv))
    train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
    correct_prediction = tf.equal(tf.argmax(y_conv, 1), tf.argmax(y_, 1))
    accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

    # 構建完畢----------------------------------------------------------

    # 讀取資料
    data_set, label = load_data('./data/list.txt')
    max_train_epochs = 30001
    batch_size = 100

    # 判斷是否存在輸出模型的路徑，如果不存在，則建立
    if not os.path.exists('./models/emotion_model'):
        os.makedirs('./models/emotion_model')

    with tf.Session() as sess:
        saver = tf.train.Saver()
        sess.run(tf.global_variables_initializer())

        batch_num = int(data_set.shape[0] / batch_size)

        for i in range(max_train_epochs):
            for j in range(batch_num):
                # 製作每一個batch的影象和標籤
                train_image = data_set[j * batch_size:j * batch_size + batch_size]
                train_image = train_image.reshape(-1, 128*128)
                train_label = label[j * batch_size:j * batch_size + batch_size]
                train_label = np.reshape(train_label, [-1, 10])

                # 逐個batch訓練模型
                train_step.run(feed_dict={x: train_image, y_: train_label})

            # 每訓練一個epoch儲存一次精度
            if i % 1 == 0:
                train_accuracy = accuracy.eval(feed_dict={
                    x: train_image, y_: train_label})
                print('epoch %d, training accuracy %f' % (i, train_accuracy))

            # 每1000個epoch儲存一次模型
            if i % 1000 == 0:
                saver.save(sess, './models/emotion_model', global_step=i + 1)

好了，現在準備好資料之後，直接執行train_model():

if __name__ == '__main__':
    train_model()

如果不出意外，其每行的輸出應該是：

epoch DD, training accuracy FFFFF

且隨著訓練次數的增加，training accuracy的值也應該是逐漸接近1的。但是實際上的結果：

training accuracy完全沒有任何增加的跡象，訓練至1000次仍是這樣。

三、問題解決

模型不收斂的話，問題出在哪呢？反覆排查後確定了模型沒有任何問題。那自然只可能是輸入資料的問題了。

原來在資料讀取過程中，在load_data(txt_dir)函式中，label語句的定義為：

    label = np.empty((count,10), dtype="uint8")

np.empty()函式導致了label中的很多資料是隨機產生的，最終的標籤結果也並非是0，1二值資料，而是非常混亂的資料：

既然已經查到問題所在了，那麼解決方法也自然就明瞭了。我們的目的是為了產生二值標籤，即影象所屬的表情類別標記為1，非所屬類別標記為0，如此可這樣修改上述程式碼：

def load_data(txt_dir):

    # 省略內容：根據txt的路徑讀取影象資料和標籤    

    # count表示影象的數量
    data_set = np.empty((count, 128, 128, 1), dtype="float32")    # 定義data_set
    label = np.zeros((count,10), dtype="uint8")        # 定義label

    # 省略內容：讀取data和標籤

    return data_set, label

修改之後，先看看我們的標籤label是否正確：

從上圖可以看出，label已經完全沒有問題，下來我們再看看訓練過程中的training accuracy：

好了，可以看到training accuracy在逐步提高，說明這個問題已完美解決。後續大約在訓練60個epoch時，訓練精度幾乎可以接近1：

關於訓練深度學習模型deepNN時，訓練精度維持固定值，模型不收斂的解決辦法（tensorflow實現）

一、背景最近一直在做人臉表情的識別，用到的程式是之間的一篇文章中的程式：深度學習（一）——deepNN模型實現攝像頭實時識別人臉表情（C++和python3.6混合程式設計）。這裡我只進行了簡單的程式修改。由於該程式是利用fer2013資料集做的，效果不是很好，人臉表情的識別精度僅有70

深度學習（二）——從零自己製作資料集到利用deepNN實現誇張人臉表情的實時監測（tensorflow實現）

一、背景介紹這篇文章主要參考我的上一篇文章：深度學習（一）——deepNN模型實現攝像頭實時識別人臉表情（C++和python3.6混合程式設計）。由於上一篇文章的模型所採用的資料集為fer2013，前面也介紹過這個基於這個資料集的模型識別人臉表情的準確率大概在70%左右

深度學習（三）——tiny YOLO演算法實現實時目標檢測（tensorflow實現）

一、背景介紹 YOLO演算法全稱You Only Look Once，是Joseph Redmon等人於15年3月發表的一篇文章。本實驗目標為實現YOLO演算法，借鑑了一部分材料，最終實現了輕量級的簡化版YOLO——tiny YOLO，其優勢在於實現簡單，目標檢測迅速。 [1]文章連結：ht

pytorch 卷積神經網路（alexnet）訓練中問題以及解決辦法（更新中）

上一篇部落格中使用的是pytorch中的預訓練模型效果較好。https://blog.csdn.net/pc1022/article/details/80440913這篇部落格是自己訓練卷積神經網路，最開始以簡單的alexnet進行訓練。對alexnet程式碼有三個版本的：

QT、VS常見bug及解決辦法（十一）—— fatal error LNK1201:寫入程式資料庫“***.pdb”時出錯；請檢查是否是磁碟空間不足、路徑無效或許可權不夠

問題： fatal error LNK1201:寫入程式資料庫“***.pdb”時出錯；請檢查是否是磁碟空間不足、路徑無效或許可權不夠最近用opencv2.4.10、vs2010做開發經常遇到這個問題，經百度發現大部分是vs自己的問題解決辦法1：

CNN模型和RNN模型在分類問題中的應用（Tensorflow實現）

在這篇文章中，我們將實現一個卷積神經網路和一個迴圈神經網路語句分類模型。本文提到的模型（rnn和cnn）在一系列文字分類任務（如情緒分析）中實現了良好的分類效能，並且由於模型簡單，方便實現，成為了競賽和實戰中常用的baseline。 cnn-text-classifica

【演算法】給定兩個字串，確定一個字串重新排列後能否變成另一個字串（java實現）

分析：兩個字串的長度都不相同時，不可能是變位詞 package com.billkang.algorithm; import java.util.Arrays; /** * 給定兩個字串，確

LodaRunner 指令碼執行時連線錯誤解決辦法（Error -27098）

指令碼錄製好後回放。提示錯誤資訊如下： Error -27796: Failed to connect to server "127.0.0.1:1080": [10061] Connection refused [MsgId: MERR-27796] Warning

git 無法拉取專案，本地ping不通github的解決辦法（詳解）

一、遇到的問題本地在從github上拉取專案的時候，一直卡著，然後過個2分鐘就報錯，連線超時。問題是我前幾天還能git pull專案呢，百思不得其解。後來本地瀏覽器訪問github，得，連全世界最大的基佬交友網站都訪問不了。本地ping一下IP吧，

程式碼，邏輯迴歸(logistic_regression)實現mnist分類（TensorFlow實現）

#logistic_regression by ffzhang import os os.environ['TF_CPP_MIN_LOG_LEVEL']='2' os.environ["CUDA_VISIBLE_DEVICES"]='2' import num

阿里雲ECS伺服器，不支援傳送郵件解決辦法（THINKPHP版）

基於安全考慮，ECS 伺服器 25 埠預設受限，如果要使用25埠傳送郵件或相關程式的話，有兩種解決辦法：一、登入阿里雲控制中心 - 安全管控 - 業務申請 - 25埠解封（PS：好多人找不到安全管控

H5頁面，遇到css樣式不相容部分ios機型，解決辦法（No .1）

問題：App有一個底部欄（要求：永遠bottom：0），但是在部分頁面，底部欄超出了螢幕的高度，所以，看上去好像是消失不見了一樣。。思路：頁面掛載的時候，判斷一下offsetTop，如果大於當前螢幕的高度，就讓其上移：translateY（上移動數值為：當前底部欄的offse

python輸出中文報錯的真正原因，及解決辦法（基於pycharm）

編譯器網上 err 設備 class charm 就是 tin sta 通常python3裏面如果有中文，在不連接其他設備和程序的情況下，報錯信息大致如下： SyntaxError: Non-UTF-8 code starting with ‘\xd6‘ in file

IDEA 卡住半天，buid（編譯）不動——解決辦法（適用於maven和gradle）及定位思路

【號外號外！】最終解決辦法並不複雜，關鍵在於“遇見問題，怎麼樣層層分析，多條路徑試錯，最終解決問題的思路或者能力”——資深碼農的核心競爭力之一背景今天結束完最近2個月的一個專案，開心鴨，IDEA切換程式碼到其它歷史專案繼續推進。咦，什麼情況

用 Java 訓練深度學習模型，原來可以這麼簡單！

> 本文適合有 Java 基礎的人群 ![](https://img2020.cnblogs.com/blog/759200/202011/759200-20201101171629904-336726111.jpg) 作者：**DJL-Keerthan&Lanking** HelloG

使用GOOGLE COLAB訓練深度學習模型

edi play bottom art one con style right tag 來自為知筆記(Wiz)使用GOOGLE COLAB訓練深度學習模型

Facebook開源Caffe2深度學習框架開發者可快速訓練和迭代AI模型

在Facebook與NVIDIA的合作中，工程師基於NVIDIA的GPU平臺深度優化了Caffe2。Caffe2深度學習框架中採用最新的NVIDIA深度學習SDK庫（cuDNN，cuBLAS和NCCL）來提供高效能運算，多GPU加速的訓練以及推理。由於Caffe2在NVIDIA GPU的平臺上的優異表現，使用

阿里雲使用筆記（一）：從零開始配置阿里雲GPU伺服器訓練深度學習模型

題神經網路訓練需要強大的GPU支援，自己搭建成本太高，並且有時候出差等原因，無法將龐大的機箱搬走。因此，就產生了將深度學習網路訓練的任務搬到雲端的想法。由於初次使用，遇到不少大坑，花了兩天時間才完整的實現。要實現的功能： - 安裝anaconda管理庫

訓練深度學習網路時候，出現Nan是什麼原因，怎麼才能避免？

說法一：說明訓練不收斂了, 學習率太大，步子邁的太大導致梯度爆炸等都是有可能的，另外也有可能是網路的問題，網路結構設計的有問題。我現在的採用方式是： 1. 弱化場景，將你的樣本簡化，各個學習率等引數採用典型配置，比如10萬樣本都是同一張複製的，讓這個網路去擬合，如果有問題，則是網路的問題。否則則是各個引數

深度學習實戰——caffe windows 下訓練自己的網路模型

1、相關準備 1.1 手寫數字資料集 1.2深度學習框架本實戰基於caffe深度學習框架，需自行參考相關部落格搭建環境，這裡不再對如何搭建環境作介紹。 2、資料準備 2.

關於訓練深度學習模型deepNN時，訓練精度維持固定值，模型不收斂的解決辦法（tensorflow實現）

一、背景

二、問題出現

三、問題解決

相關推薦