TensorFlow深度學習實戰（一）：AlexNet對MNIST資料集進行分類

阿新 • • 發佈：2018-12-20

概要

進來一段時間在看深度學習中經典的CNN模型相關論文。同時，為了督促自己學習TensorFlow，通讀論文之後開始，利用TensorFlow實現各個模型，復現相關實驗。這是第一篇論文講解的是AlexNet，論文下載網址為：ImageNet Classification with Deep Convolutional
Neural Networks 。對應的論文筆記為：深度學習經典論文筆記（一）——AlexNet:ImageNet Classification with Deep Convolutional Neural Networks 。該篇部落格主要記錄的是TensorFlow程式碼，由於論文中提到的LSVRC2010資料集過於龐大，下載需花費大量時間，首先利用MNIST來進行分類。

下面是TensorFlow下的AlexNet程式碼。

程式碼

# -*- coding: utf-8 -*-
# @Time    : 2018/11/8 21:00
# @Author  : Daipuwei
# @Blog    ：https://blog.csdn.net/qq_30091945
# @EMail   ：[email protected]
# @Site    ：中國民航大學北教25實驗室506
# @FileName: AlexNet.py
# @Software: PyCharm

"""
    這是AlexNet的類程式碼
"""

import tensorflow as tf
import numpy as np
import os
import time
from tensorflow.examples.tutorials.mnist import input_data

IMAGE_SIZE = 28                             # MNIST圖片尺寸
IMAGE_CHANNELS = 1                          # MNIST影象通道個數
NUM_LABELS = 10                             # MNIST資料集分類個數
DROPOUT = 0.8                               # dropout概率
BATCH_SIZE = 64                             # 小樣本規模
REGULARIZER_LEARNING_RATE = 0.0005          # 正則化洗漱
EXPONENTIAL_MOVING_AVERAGE_DECAY = 0.99     # 動量因子
LEARNING_RATE_BASE = 0.001                  # 學習率衰初始值
LEARNING_RATE_DECAY = 0.99                  # 學習率衰減率
TRAINING_STEP = 10000                       # 迭代次數
MODEL_SAVE_PATH = "./Models"               # 模型檔案存放資料夾地址
MODEL_NAME = "AlexNet.ckpt"               # 模型名稱

class AlexNet(object):
    def __init__(self):
        # 將上述變數定義為全域性變數
        global IMAGE_SIZE,IMAGE_CHANNELS,NUM_LABELS,DROPOUT
        global BATCH_SIZE,REGULARIZER_LEARNING_RATE,EXPONENTIAL_MOVING_AVERAGE_DECAY
        global LEARNING_RATE_BASE,TRAINING_STEP,LEARNING_RATE_DECAY
        global MODEL_SAVE_PATH,MODEL_NAME
        # 初始化各層的權重
        with tf.variable_scope("weights"):
            self.weights ={
                'conv1': tf.Variable(tf.random_normal([11, 11, 1, 64]),trainable=True),
                'conv2': tf.Variable(tf.random_normal([5, 5, 64, 192]),trainable=True),
                'conv3': tf.Variable(tf.random_normal([3, 3, 192, 384]),trainable=True),
                'conv4':tf.Variable(tf.random_normal([3, 3, 384, 384]),trainable=True),
                'conv5': tf.Variable(tf.random_normal([3, 3, 384, 256]),trainable=True),
                'fc1': tf.Variable(tf.random_normal([4*4*256,4096]),trainable=True),
                'fc2': tf.Variable(tf.random_normal([4096,4096]),trainable=True),
                'fc3': tf.Variable(tf.random_normal([4096,NUM_LABELS]),trainable=True)
            }
        # 初始化各層的偏置
        with tf.variable_scope("biases"):
            self.biases ={
                'conv1': tf.Variable(tf.random_normal([64]),trainable=True),
                'conv2': tf.Variable(tf.random_normal([192]),trainable=True),
                'conv3': tf.Variable(tf.random_normal([384]),trainable=True),
                'conv4': tf.Variable(tf.random_normal([384]),trainable=True),
                'conv5': tf.Variable(tf.random_normal([256]),trainable=True),
                'fc1': tf.Variable(tf.random_normal([4096]),trainable=True),
                'fc2': tf.Variable(tf.random_normal([4096]),trainable=True),
                'fc3': tf.Variable(tf.random_normal([10]),trainable=True)
            }

    def con2d(self,name,input,weights,biases,strides):
        """
        這是AlexNet內的卷積操作的函式
        :param name: 名稱
        :param input: 輸入
        :param weights: 權重
        :param biases: 偏置
        :param strides: 步長
        """
        return tf.nn.relu(tf.nn.bias_add(tf.nn.conv2d(input,weights,strides=[1,strides,strides,1],padding="SAME"),biases),name=name)

    def max_pool(self,name,input,ksize,strides):
        """
        這是AlexNet內的最大池化操作函式
        :param name: 名稱
        :param input: 輸入
        :param ksize: 核心大小
        :param strides: 步長
        """
        return tf.nn.max_pool(input,ksize=[1,ksize,ksize,1],strides=[1,strides,strides,1],padding='SAME',name=name)

    def LocalResponseNormlization(self,name,input):
        """
        這是AlexNet內的LRN操作
        :param name: 名稱
        :param input: 輸入
        """
        return tf.nn.lrn(input,4,bias=1.0,alpha=0.001/9.0,beta=0.75,name=name)

    def inferecne(self,images,train_flag,regularizer=None):
        """
        這是前向傳播的函式
        :param images: 輸入影象
        :param train_flag: 訓練測試標誌
        :param regularizer: 正則化函式
        """
        # 第一層，定義卷積權重、偏置和下采樣,計算卷積結果
        conv1 = self.con2d('conv1',images,self.weights['conv1'],self.biases['conv1'],strides=1)
        # 最大池化
        pool1 = self.max_pool('pool1',conv1,ksize=2,strides=2)
        # LRN
        lrn1 = self.LocalResponseNormlization('lrn1',pool1)

        # 第二層，定義卷積權重、偏置和下采樣,計算卷積結果
        conv2 = self.con2d('conv2', lrn1, self.weights['conv2'], self.biases['conv2'], strides=1)
        # 最大池化
        pool2 = self.max_pool('pool2', conv2, ksize=2, strides=2)
        # LRN
        lrn2 = self.LocalResponseNormlization('lrn2', pool2)

        # 第三層，定義卷積權重、偏置和下采樣,計算卷積結果
        conv3 = self.con2d('conv3', lrn2, self.weights['conv3'], self.biases['conv3'], strides=1)
        # LRN
        lrn3 = self.LocalResponseNormlization('lrn3',conv3)

        # 第四層，定義卷積權重、偏置和下采樣,計算卷積結果
        conv4 = self.con2d('conv4', lrn3, self.weights['conv4'], self.biases['conv4'], strides=1)
        # LRN
        lrn4 = self.LocalResponseNormlization('lrn4',conv4)

        # 第五層，定義卷積權重、偏置和下采樣,計算卷積結果
        conv5 = self.con2d('conv4', lrn4, self.weights['conv5'], self.biases['conv5'], strides=1)
        # 最大池化
        pool5 = self.max_pool('pool5', conv5, ksize=2, strides=2)
        # LRN
        lrn5 = self.LocalResponseNormlization('lrn4', pool5)

        # 第六層為全連線層,fc1
        fc1_input = tf.reshape(lrn5,[-1,self.weights['fc1'].get_shape().as_list()[0]])
        fc1 = tf.nn.relu(tf.matmul(fc1_input,self.weights['fc1'])+self.biases['fc1'],name='fc1')
        # 訓練階段，則進行dropout
        if train_flag == True:
            fc1 = tf.nn.dropout(fc1,DROPOUT)
        # 對權重進行l2正則化
        if regularizer != None:
            tf.add_to_collection("losses", regularizer(self.weights['fc1']))

        # 第七層為全連線層,fc2
        fc2_input = tf.reshape(fc1,[-1,self.weights['fc2'].get_shape().as_list()[0]])
        fc2 = tf.nn.relu(tf.matmul(fc2_input,self.weights['fc2'])+self.biases['fc2'],name='fc2')
        # 訓練階段，則進行dropout
        if train_flag == True:
            fc2 = tf.nn.dropout(fc2,DROPOUT)
        # 對權重進行l2正則化
        if regularizer != None:
            tf.add_to_collection("losses",regularizer(self.weights['fc2']))

        # 第八層為全連線層,fc3
        fc3_input = tf.reshape(fc2,[-1,self.weights['fc3'].get_shape().as_list()[0]])
        fc3 = tf.matmul(fc3_input,self.weights['fc3'])+self.biases['fc3']
        # 對權重進行l2正則化
        if regularizer != None:
            tf.add_to_collection("losses", regularizer(self.weights['fc3']))
        return fc3

    def train(self,mnist):
        """
        這是AlexNet的訓練函式
        :param Train_Data: 訓練資料集
        :param Train_Label: 訓練標籤集
        """
        # 定義AlexNet的輸入和輸出
        x = tf.placeholder(tf.float32,shape=[None,IMAGE_SIZE,IMAGE_SIZE,IMAGE_CHANNELS],name="x_input")
        y_ = tf.placeholder(tf.float32,shape=[None,NUM_LABELS],name="y_input")
        # 定義L2正則化
        regularizer = tf.contrib.layers.l2_regularizer(REGULARIZER_LEARNING_RATE)
        # 利用AlexNet進行前向傳播得到預測分類
        y = self.inferecne(x,True,regularizer)
        global_step = tf.Variable(0,trainable=False)
        # 定義滑動平均操作以及訓練過程
        variable_average = tf.train.ExponentialMovingAverage(EXPONENTIAL_MOVING_AVERAGE_DECAY, global_step)
        variable_average_op = variable_average.apply(tf.trainable_variables())
        # 定義cross_entropy交叉熵和損失函式
        cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y,labels=tf.argmax(y_,1))
        cross_entropy_mean = tf.reduce_mean(cross_entropy)
        tf.add_to_collection("losses",cross_entropy_mean)
        loss = tf.add_n(tf.get_collection("losses"))
        # 定義精度
        correct = tf.equal(tf.arg_max(y_,1),tf.arg_max(y,1))
        accuracy = tf.reduce_mean(tf.cast(correct,tf.float32))
        # 定義指數衰減學習率
        learning_rate = tf.train.exponential_decay(LEARNING_RATE_BASE,global_step,
                                                   mnist.train.labels.shape[0]/BATCH_SIZE,LEARNING_RATE_DECAY)
        train_step = tf.train.AdamOptimizer(learning_rate).minimize(loss,global_step)
        with tf.control_dependencies([train_step, variable_average_op]):
            train_op = tf.no_op(name='train')

        # 初始化持久化類
        saver = tf.train.Saver()
        with tf.Session() as sess:
            # 初始化所有變數
            tf.global_variables_initializer().run()
            for i in range(TRAINING_STEP):
                xs, ys = mnist.train.next_batch(BATCH_SIZE)
                xs = np.reshape(xs, (BATCH_SIZE, IMAGE_SIZE, IMAGE_SIZE, IMAGE_CHANNELS))
                ys = np.reshape(ys,(BATCH_SIZE,NUM_LABELS))
                '''random_sequence_batch = self.Shuffle_Sequence(len(Train_Data), BATCH_SIZE)
                accuracy_train = []
                loss_train = []
                step_train = 0
                for batch in random_sequence_batch:
                    Train_Data_Batch,Train_Label_Batch = Train_Data[batch],Train_Label[batch]
                    Train_Data_Batch = np.shape(Train_Data_Batch,(BATCH_SZIE,IMAGE_SIZE,IMAGE_SIZE,IMAGE_CHANNELS))
                    Train_Label_Batch = np.shape(Train_Label_Batch,(BATCH_SZIE,NUM_LABELS))
                    #xs = np.reshape(xs,(BATCH_SIZE, Inference.IMAGE_SIZE, Inference.IMAGE_SIZE, Inference.NUM_CHANNELS))
                    _,loss_train,acc_train,step = sess.run([train_op,loss,accuracy,global_step],
                                                       feed_dict={x:Train_Data_Batch,y_:Train_Label_Batch})
                    accuracy_train.append(acc_train)
                    loss_train.append(loss_train)
                    step_train = step'''
                _,step = sess.run([train_op,global_step],feed_dict={x: xs, y_: ys})
                if i % 1000 == 0:
                    # 計算精度
                    acc_train,step = sess.run([accuracy,global_step], feed_dict={x: xs, y_: ys})
                    acc_val = []
                    iter = int(mnist.validation.labels.shape[0]/100)
                    #print(mnist.validation.labels.shape)
                    for i in np.arange(0,iter):
                        xs, ys = mnist.validation.next_batch(100)
                        xs = np.reshape(xs, (100, IMAGE_SIZE, IMAGE_SIZE, IMAGE_CHANNELS))
                        acc = sess.run(accuracy, feed_dict={x: xs, y_: ys})
                        acc_val.append(acc)
                    acc_val = np.sum(np.array(acc_val)*100)/mnist.validation.labels.shape[0]
                    print("After %d training step(s),accuracy on train batch is:%.5f,accuracy on validation is:%.5f"%(step,acc_train,acc_val))
                    saver.save(sess,os.path.join(MODEL_SAVE_PATH,MODEL_NAME),global_step=step)

    def test(self,mnist):
        """
        這是AlexNet的測試函式
        :param mnist:MNIST資料集
        """
        # 定義AlexNet的輸入和輸出
        x = tf.placeholder(tf.float32,[None,IMAGE_SIZE,IMAGE_SIZE,IMAGE_CHANNELS],name="x_input")
        y_ = tf.placeholder(tf.float32,[None,NUM_LABELS],name="y_input")
        # 利用AlexNet進行前向傳播得到預測分類
        y = self.inferecne(x,False)
        # 定義精度
        correct = tf.equal(tf.argmax(y_,1),tf.argmax(y,1))
        accuracy = tf.reduce_mean(tf.cast(correct,tf.float32))
        # 通過變數重新命名的方式來載入模型，這樣在前向傳播的過程中就不需要呼叫求滑動平均的函式來獲取平局值了。
        # 這樣就可以完全共用mnist_inference.py中定義的前向傳播過程
        variable_averages = tf.train.ExponentialMovingAverage(EXPONENTIAL_MOVING_AVERAGE_DECAY)
        variable_to_restore = variable_averages.variables_to_restore()
        saver = tf.train.Saver(variable_to_restore)

        #每隔EVAL_INTERVAL_SECS秒呼叫一次計算正確率的過程以檢測訓練過程中正確率的變化
        while True:
            with tf.Session() as sess:
                # tf.train.get_checkpoint_state函式會通過checkpoint檔案自動找到目錄中最新模型的檔名
                ckpt = tf.train.get_checkpoint_state(MODEL_SAVE_PATH)
                if ckpt and ckpt.model_checkpoint_path:
                    # 載入模型
                    saver.restore(sess, ckpt.model_checkpoint_path)
                    # 通過檔名得到模型儲存時迭代的輪數
                    global_step = ckpt.model_checkpoint_path.split('/')[-1].split('-')[-1]
                    xs,ys = mnist.test.images,mnist.test.labels
                    accuracy_test = []
                    for start in np.arange(0,len(ys),100):
                        end = np.min([start+100,len(ys)])
                        test_data,test_label = xs[start:end],ys[start:end]
                        test_data = np.reshape(test_data,(100,IMAGE_SIZE,IMAGE_SIZE,IMAGE_CHANNELS))
                        acc_test = sess.run(accuracy, feed_dict={x: test_data, y_: test_label})
                        accuracy_test.append(acc_test)
                    accuracy_test = np.sum(np.array(accuracy_test)*100)/len(ys)
                    print("After %s training step(s), test accuracy = %f" % (global_step, accuracy_test))
                else:
                    print("No checkpoint file found")
            time.sleep(10)

def run_main():
    """
    這是主函式
    """
    mnist = input_data.read_data_sets("E:\\DPW\\MNIST",one_hot=True)
    alexnet = AlexNet()
    alexnet.train(mnist)
    #alexnet.test(mnist)


if __name__ == '__main__':
    run_main()

實驗結果

在這裡插入圖片描述

TensorFlow深度學習實戰（一）：AlexNet對MNIST資料集進行分類

概要進來一段時間在看深度學習中經典的CNN模型相關論文。同時，為了督促自己學習TensorFlow，通讀論文之後開始，利用TensorFlow實現各個模型，復現相關實驗。這是第一篇論文講解的是AlexNet，論文下載網址為：ImageNet Classific

Tensorflow（五）使用CNN對MNIST資料集進行分類

在tensorflow（二）中對MNIST資料集進行分類使用單層神經網路，梯度下降法以0.2的學習因子迭代了100次取得了92%的準確率，這個網路很簡單，使用較大的學習因子也不會出現梯度爆炸或者梯度消失的情況，但是在複雜些的網路，比如這裡用到的三層CNN網路使用0.2的學習因

Tensorflow學習教程------利用卷積神經網路對mnist資料集進行分類_利用訓練好的模型進行分類

#coding:utf-8 import tensorflow as tf from PIL import Image,ImageFilter from tensorflow.examples.tutorials.mnist import input_data def imageprepare(ar

深度學習筆記（一）：影象理解的三個層次

deep learning 簡稱DL,小編剛接觸計算機視覺利用深度學習進行影象處理，先普及一下對影象進行處理的三個層次。一是分類（classification）即是將影象結構化為某一類別的資訊，用事先確定好的類別（string）或例項ID來描述圖片。其中ImageNe

CNN目標檢測系列演算法發展脈絡——學習筆記（一）：AlexNet

　　在諮詢了老師的建議後，最近開始著手深入的學習一下目標檢測演算法，結合這兩天所查到的資料和個人的理解，準備大致將CNN目標檢測的發展脈絡理一理（暫時只講CNN系列部分，YOLO和SSD，後面會抽空整理）。　　目標檢測的發展大致起始於2000年前後（具體我也沒去深究，如果有誤還請大佬們指正 ●ˇ∀ˇ● ），

Bobo老師機器學習筆記第七課-使用PCA對MNIST資料集進行降噪

問題1：什麼是MNIST資料集？ MNIST 資料集來自美國國家標準與技術研究所, National Institute of Standards and Technology (NIST). 訓練集 (training set) 由來自 250 個不同人手寫的數字構成

[PyTorch小試牛刀]實戰三·DNN實現邏輯迴歸對FashionMNIST資料集進行分類

[PyTorch小試牛刀]實戰三·DNN實現邏輯迴歸對FashionMNIST資料集進行分類內容還包括了網路模型引數的保存於載入。資料集下載地址程式碼部分 import torch as t import torchvision as tv import numpy as n

Flask框架的學習與實戰（一）：開發環境搭建

進行 read 模型 clas tar pychar html itl .html Flask是一個使用 Python 編寫的輕量級 Web 應用框架。其 WSGI 工具箱采用 Werkzeug ，模板引擎則使用 Jinja2。很多功能的實現都參考了django框架。由於項

深度學習學習筆記（一）：logistic regression與Gradient descent 2018.9.16

寫在開頭：這是本人學習吳恩達在網易雲課堂上的深度學習系列課程的學習筆記，僅供參考，歡迎交流學習！一，先介紹了logistic regression，邏輯迴歸就是根據輸入預測一個值，這個值可能是0或者1,其影象是一條s形曲線，由預測值與真實值的差距計算出loss function損失函式和cos

Python3《機器學習實戰》學習筆記（一）：k-近鄰演算法

**轉載：**http://blog.csdn.net/c406495762執行平臺： WindowsPython版本： Python3.xIDE： Sublime text3 他的個人網站：http://cuijiahua.com 文章目錄

實戰深度學習OpenCV（一）:canny邊緣檢測

利用canny邊緣檢測，我們可以很好地得到哦一個影象的輪廓，下面是基於C++的，這是我們通過這段程式碼得到的結果： #include "pch.h" #include <iostream> #include <opencv2/core/core.hpp> #inc

深度學習實踐（一）—tensorflow之概述

內容預覽 1.1 深度學習與機器學習的區別 1.1.1 特徵提取方面 1.1.2 資料量和計算效能要求 1.1.3 演算法代表 1.2 深度學習的應用場景 1.2.1 影象識別 1.2

《機器學習實戰》學習筆記（一）：k-近鄰演算法

k-近鄰演算法原書中程式碼為python2中語法，python3的語法參考連結：https://blog.csdn.net/c406495762/article/details/75172850 給出k-近鄰演算法的完整程式碼（海倫相親程式） import numpy a

深度學習框架Keras學習系列（一）：線性代數基礎與numpy使用（Linear Algebra Basis and Numpy）

又開一個新坑~~ 因為確實很有必要好好地趁著這個熱潮來研究一下深度學習，畢竟現在深度學習因為其效果突出，熱潮保持高漲不退，上面的政策方面現在也在向人工智慧領域傾斜，但是也有無數一知半解的人跟風吹捧，於是希望藉此教程，讓自己和讀者一起藉助keras，從上到下逐漸

python3.5《機器學習實戰》學習筆記（一）：k近鄰演算法

轉載請註明作者和出處：http://blog.csdn.net/u013829973 系統版本：window 7 （64bit） python版本：python 3.5 IDE：Spyder （一個比較方便的辦法是安裝anaconda，那麼Spyder和

Python3《機器學習實戰》學習筆記（一）：k-近鄰演算法(史詩級乾貨長文)

#一簡單k-近鄰演算法本文將從k-鄰近演算法的思想開始講起，使用python3一步一步編寫程式碼進行實戰訓練。並且，我也提供了相應的資料集，對程式碼進行了詳細的註釋。除此之外，本文也對sklearn實現k-鄰近演算法的方法進行了講解。實戰例項：

TensorFlow實現經典深度學習網路（5）：TensorFlow實現自然語言處理基礎網路Word2Vec

TensorFlow實現經典深度學習網路（5）：TensorFlow實現自然語言處理基礎網路Word2Vec 迴圈神經網路RNN是在自然語言處理NLP領域最常使用的神經網路結構，和卷積神經網路在影象識別領域的地位相似，影響深遠。而Word2Vec則是將語

tensorflow學習筆記（一）：命令列引數

全域性環境下編寫程式碼 import tensorflow as tf flags = tf.flags #flags是一個檔案：flags.py，用於處理命令列引數的解析工作 logging =

Tensorflow深度學習之二十二：AlexNet的實現（CIFAR-10資料集）

二、工程結構由於我自己訓練的機器記憶體視訊記憶體不足，不能一次性讀取10000張圖片，因此，在這之前我按照圖片的類別，將每一張圖片都提取了出來，儲存成了jpg格式。與此同時，在儲存圖片的過程中，儲存了一個python的dict結構，鍵為每一張圖片的相對地

tensorflow學習記錄（一）：在windows下的安裝

接觸了caffe之後，想學習一下tensorflow，兩者結合使用。在幾天之前，Tensorflow官方出了0.12RC版本，改版本支援在windows下的pip一鍵安裝。我們可以通過安裝Python3.5和pip或者用Anaconda 3進行安裝。

TensorFlow深度學習實戰（一）：AlexNet對MNIST資料集進行分類

概要

程式碼

實驗結果

相關推薦