AI的影象處理技術---第二篇《LeNet-5和Inception-v3》

阿新 • • 發佈：2019-01-29

1.LeNet-5學習總結

除錯程式是一個痛苦的過程，對於LeNet-5模型的程式碼，還需要一天來debug，後續將詳細介紹整套程式碼debug詳細資料，先新增目前已經實現的的部分。

目前實現了mnist的經典程式設計，還需要明天學習總結，其中 sparse_softmax_cross_entropy_with_logits 函式需要加入labels和logit 屬性才能使用

2.Inception-v3學習總結

inception-v3 神經網路結構與卷積神經網路不同的地方是其網路結構是並聯的，也就是說它同時有1x1,3x3,5x5三個filter並聯處理輸入，然後將輸出拼接為一個矩陣，然後提取特徵值。

鑑於程式設計除錯過於繁瑣複雜，不便於每天分享，因此將程式設計除錯過程放在週末進行，後續會更新程式設計程式碼，並分析除錯過程以及遇到的坑。

# -*- coding: gb2312 -*-

import tensorflow as tf

#配置神經網路的引數
INPUT_NODE  = 784
OUTPUT_NODE = 10

IMAGE_SIZE   = 28
NUM_CHANNELS = 1
NUM_LABELS   = 10

#第一層卷積層的尺寸和深度
CONV1_DEEP = 32
CONV1_SIZE = 5
#第二層卷積層的尺寸和深度
CONV2_DEEP = 64
CONV2_SIZE = 5
#全連線層的節點個數
FC_SIZE = 512

#定義卷積神經網路的前向傳播過程。這裡添加了一個新的引數train， 用於區分訓練過程和測試過程。
#在這個程式中將用到dropout方法，dropout可以進一步提升模型可靠性並防止過擬合，
#dropout過程只在訓練時使用
def inference(input_tensor, train, regularizer):
    #宣告第一層卷積層的變數並實現前向傳播過程。
    #通過使用不同的名稱空間來隔離不同層的變數，這可以讓每一層中的變數命名只需要考慮當前層的作用，
    #而不用擔心重新命名的問題。和標準LeNet-5模型不一樣，這裡定義的卷積層輸入為28x28x1的原始MNIST
    #影象畫素，因為卷積層中使用了全0填充，所以輸出為28x28x32的矩陣
    with tf.variable_scope('layer1-conv1'):
        conv1_weights = tf.get_variable(
            "weight", [CONV1_SIZE, CONV1_SIZE, NUM_CHANNELS, CONV1_DEEP],
            initializer = tf.truncated_normal_initializer(stddev=0.1))
        conv1_biases = tf.get_variable(
            "bias", [CONV1_DEEP],
            initializer = tf.constant_initializer(0.0))
        #使用邊長為5， 深度為32的過濾器，過濾器移動的步長為1，且使用全0填充
        conv1 = tf.nn.conv2d(
            input_tensor, conv1_weights, strides = [1,1,1,1], padding = 'SAME')
        relu1 = tf.nn.relu(tr.nn.bias_add(conv1, conv1_biases))
    #實現第二層池化層的前向傳播過程。這裡選用最大池化層，池化層過濾器的邊長為2，
    #使用全0填充且移動的步長為2。 這一層的輸入是上一層的輸出，也就是28x28x32的矩陣。
    #輸出矩陣為14x14x32的矩陣。
    with tf.name_scope('layer2-pool1'):
        pool1 = tf.nn.max_pool(
        relu1, ksize = [1,2,2,1], strides=[1,2,2,1], padding='SAME')
    #宣告第三層卷積層的變數並實現前向傳播過程。這一層的輸入為14x14x32的矩陣
    #輸出為14x14x64的矩陣。
    with tf.variable_scope('layer3-conv2'):
        conv2_weights = tf.get_variable(
            "weight", [CONV2_SIZE, CONV2_SIZE, CONV1_DEEP, CONV2_DEEP],
            initializer = tf.truncated_normal_initializer(stddev = 0.1))
        conv2_biases = tf.get_variable(
            "bias", [CONV2_DEEP],
            initializer = tf.constant_initializer(0.0))
        #使用邊長為5， 深度為64的過濾器，過濾器移動的不長為1， 且使用全0填充
        conv2 = tf.nn.conv2d(
            pool1, conv2_weights, strides = [1,1,1,1], padding = 'SAME')
        relu2 = tf.nn.relu(tf.nn.bias_add(conv2, conv2_biases))
    #實現第四層池化層的前向傳播過程。 這一層和第二層的結構是一樣的。這一層的輸入為14x14x16的矩陣，
    #輸出為7x7x64的矩陣。
    with tf.name_scope('layer4-pool2'):
        pool2 = tf.nn.max_pool(
            relu2, ksize = [1,2,2,1], strides = [1,2,2,1], padding='SAME')
    #第四層池化層的輸出轉化為第五層全連線層的輸入格式。 第四層的輸出為7x7x64的矩陣，
    #然而第五層全連線層需要的輸入格式為向量，所以在這裡需要將這個7x7x64的矩陣拉直成一個向量。
    #pool2.get_shape函式可以得到第四層輸出矩陣的維度而不需要手工計算。
    #注意以為每一層神經網路的輸入輸出都為一個batch的矩陣。所以這裡得到的維度也包含了一個batch中資料的格式。
    pool_shape = pool2.get_shape().as_list()
    #計算將矩陣拉直成向量之後的長度，這個長度就是矩陣長度及深度的乘積。
    #注意，這裡pool_shape[0]為一個batch中資料的個數。
    nodes = pool_shape[1] * pool_shape[2] *pool_shape[3]
    #通過tf.reshape函式將第四層的輸出變成一個batch的向量。
    reshaped = tf.reshape(pool2, [pool_shape[0], nodes])
    #宣告第五層全連線層的變數並實現前向傳播過程。這一層的輸入是拉直之後的一組向量，向量長度為3136，
    #輸出是一組長度為512的向量。dropout一般只在全連線層而不是卷積層或者池化層使用。
    with tf.variable_scope('layer5-fc1'):
        fc1_weights = tf.get_variable(
            "weight", [nodes, FC_SIZE],
            initializer = tf.truncated_normal_initializer(stddev=0.1))
        #只有全連線層的權重需要加入正則化。
        if regularizer != None:
            tf.add_to_collection('losses', regularizer(fc1_weights))
        fc1_biases = tf.get_variable(
            "bias", [FC_SIZE], initializer = tf.constant_initializer(0.1))
        fc1 = tf.nn.relu(tf.matmul(reshaped, fc1_weights) + fc1_biases)
        if train:
            fc1 = tf.nn.dropout(fc1, 0.5)
    #宣告第六層全連線層的變數並實現前向傳播過程。 這一層的輸入為一組長度為512的向量，
    #輸出為一組長度為10的向量，這一層的輸出通過Softmax之後就得到了最後的分類結果。
    with tf.variable_scope('layer6-fc2'):
        fc2_weights = tf.get_variable(
            "weight", [FC_SIZE, NUM_LABELS],
            initializer = tf.truncated_normal_initializer(stddev = 0.1))
        if regularizer != None:
            tf.add_to_collection('losses', regularizer(fc2_weights))
        fc2_biases = tf.get_variable(
            "bias", [NUM_LABELS],
            initializer = tf.constant_initializer(0.1))
        logit = tf.matmul(fc1, fc2_weights)+fc2_biases
    #返回第六層的輸出
    return logit

# -*- coding:gb2312 -*-
'''
file: mnist_train.py
'''
import os
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data

#載入mnist_inference.py 中定義的常量和前向傳播的函式
import mnist_inference

#配置神經網路的引數
BATCH_SIZE = 100
LEARNING_RATE_BASE = 0.8
LEARNING_RATE_DECAY = 0.99
REGULARAZTION_RATE = 0.0001
TRAINING_STEPS = 30000
MOVING_AVERAGE_DECAY = 0.99
#模型儲存的路徑和檔名。
MODEL_SAVE_PATH = './model/'
MODEL_NAME = 'model.ckpt'

def train(mnist):
    #定義輸入輸出placeholder。
    x = tf.placeholder(
        tf.float32, [None, mnist_inference.INPUT_NODE], name = 'x-input')
    y_ = tf.placeholder(
        tf.float32, [None, mnist_inference.OUTPUT_NODE], name = 'y-input')
    regularizer = tf.contrib.layers.l2_regularizer(REGULARAZTION_RATE)
    #直接使用mnist_inference.py
    y = mnist_inference.inference(x, regularizer)
    global_step = tf.Variable(0, trainable=False)

    #定義損失函式、學習率、滑動平均操作以及訓練過程。
    variable_averages = tf.train.ExponentialMovingAverage(
        MOVING_AVERAGE_DECAY, global_step)
    variables_averages_op = variable_averages.apply(
        tf.trainable_variables())
    cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(
        labels=tf.argmax(y_, 1), logits=y)
    cross_entropy_mean = tf.reduce_mean(cross_entropy)
    loss = cross_entropy_mean + tf.add_n(tf.get_collection('losses'))
    learning_rate = tf.train.exponential_decay(
        LEARNING_RATE_BASE,
        global_step,
        mnist.train.num_examples/BATCH_SIZE,
        LEARNING_RATE_DECAY)
    train_step = tf.train.GradientDescentOptimizer(learning_rate)\
                    .minimize(loss, global_step = global_step)
    with tf.control_dependencies([train_step, variables_averages_op]):
        train_op = tf.no_op(name = 'train')

    #初始化TensorFlow持久化類。
    saver = tf.train.Saver()
    with tf.Session() as sess:
        tf.initialize_all_variables().run()

        #在訓練過程中不再測試模型在驗證資料上的表現，驗證和測試的過程將會有一個獨立的程式來完成
        for i in range(TRAINING_STEPS):
            xs, ys = mnist.train.next_batch(BATCH_SIZE)
            _, loss_value, step = sess.run([train_op, loss, global_step],
                                            feed_dict = {x:xs, y_: ys})
            #每1000輪儲存一次模型。
            if i%1000 == 0:
                '''
                輸出當前的訓練情況。這裡只輸出了模型在當前訓練batch上的損失函式大小。
                通過損失函式的大小可以大概瞭解訓練的情況。在驗證資料集上的正確率資訊會有一個
                單獨的程式來生成
                '''
                print("After %d training steps, loss on training "
                        "batch is %g."%(step, loss_value))
                '''
                儲存當前的模型。global_step引數可以讓每個被儲存模型的檔名末尾加上訓練的輪數
                '''
                saver.save(
                    sess, os.path.join(MODEL_SAVE_PATH, MODEL_NAME),
                                        global_step = global_step)

def main(argv = None):
    mnist = input_data.read_data_sets('./data/', one_hot=True)
    train(mnist)

if __name__ == '__main__':
    tf.app.run()

# -*- coding:gb2312 -*-

'''
file:mnist_inference.py
brief:這段程式碼中定義了神經網路的前向傳播演算法
'''

import tensorflow as tf

#定義神經網路結構相關的引數
INPUT_NODE  = 784
OUTPUT_NODE = 10
LAYER1_NODE = 500

#通過tf.get_variable函式來獲取變數。在訓練神經網路時會建立這些變數；在測試時會通過儲存的模型
#載入這些變數的取值。而且更加方便的是，因為可以在變數載入時將滑動平均變數重新命名，所以可以直接通過同樣的名字
#在訓練時使用變數自身，而在測試時使用變數的滑動平均值。在這個函式中也會將變數的正則化損失加入損失集合
def get_weight_variable(shape, regularizer):
    weights = tf.get_variable(
        "weights", shape,
        initializer = tf.truncated_normal_initializer(stddev=0.1))
    #當給出了正則化生成函式時，將當前變數的正則化損失加入名字為losses的集合。在這裡使用了
    #add_to_collection函式將一個張量加入一個集合，而這個集合的名稱為losses。
    #這是自定義的集合，不在TensorFlow自動管理的集合列表中。
    if regularizer != None:
        tf.add_to_collection('losses', regularizer(weights))
    return weights
#定義神經網路的前向傳播過程。
def inference(input_tensor, regularizer):
    #申明第一層神經網路的變數並完成前向傳播過程。
    with tf.variable_scope('layer1'):
        '''
        這裡通過tf.get_variable或tf.variable沒有本質區別，因為在訓練或是測試中沒有在
        同一個程式中多次呼叫這個函式。如果在同一個程式中多次呼叫，在第一次呼叫之後需要將reuse
        引數設定為True
        '''
        weights = get_weight_variable(
            [INPUT_NODE, LAYER1_NODE], regularizer)
        biases = tf.get_variable(
            "biases", [LAYER1_NODE],
            initializer = tf.constant_initializer(0.0))
        layer1 = tf.nn.relu(tf.matmul(input_tensor, weights) + biases)
    #類似的申明第二層神經網路的變數並完成前向傳播過程
    with tf.variable_scope('layer2'):
        weights = get_weight_variable(
            [LAYER1_NODE, OUTPUT_NODE], regularizer)
        biases = tf.get_variable(
            'biases', [OUTPUT_NODE],
            initializer = tf.constant_initializer(0.0))
        layer2 = tf.matmul(layer1, weights) + biases
    #返回最後前向傳播的結果。
    return layer2

AI的影象處理技術---第二篇《LeNet-5和Inception-v3》

1.LeNet-5學習總結除錯程式是一個痛苦的過程，對於LeNet-5模型的程式碼，還需要一天來debug，後續將詳細介紹整套程式碼debug詳細資料，先新增目前已經實現的的部分。目前實現了mnist的經典程式設計，還需要明天學習總結，其中 sparse_so

TensorFlow 深度學習框架（9）-- 經典卷積網路模型 : LeNet-5 模型 & Inception-v3 模型

LeNet -5 模型LeNet-5 模型總共有 7 層，以數字識別為例，圖展示了 LeNet-5 模型的架構第一層，卷積層這一層的輸入就是原始的影象畫素，LeNet-5 模型接受的輸入層大小為 32*32*1 。第一個卷積層過濾器的尺寸為 5 * 5，深度為 6，步長為 1

靜態網頁開發技術第二篇

content 單標簽 form 時間間隔 nbsp 標記 res 開發技術 tab 6.定時刷新或跳轉（1）定時自刷新 <meta http-equiv="refresh"content="x"/> x代表時

影象處理基本概念筆記（5）

作者：cvvision 連結：http://www.cvvision.cn/8935.html 五、 86、去噪 PGI以並行而不是順序進行的方式執行將原始影象處理為最終顏色影象所需的所有計算步驟，這樣就可以避免過度放大噪聲。噪聲是任何影象不可避免的部分，它有幾個來源，包括光子散粒噪聲、影象

數字影象處理技術之影象壓縮編碼

影象壓縮編碼是專門研究影象資料壓縮的技術，就是儘量減少表示資料影象所需要的資料量目的：減少儲存空間、縮短傳輸時間影象壓縮編碼從本質上來說就是對要處理的影象資料按照一定的規則進行變換和組合，從而達到以儘可能少的資料來表示儘可能多的資料資訊。一、資料的冗餘與相關 1.資

影象處理技術在視訊監視中的應用

轉自https://blog.csdn.net/shanghaiqianlun/article/details/12837279 1．視訊跟蹤技術自動視訊跟蹤是通過影象處理演算法，實時計算出選定的目標（如人、車輛等）

影象處理技術的新應用——視訊除震

電子科技大學格拉斯哥學院 2017級丁子帆隨著手機行業的迅速發展，手機的拍攝功能正受到越來越多的關注，甚至晉升為諸多廠商博取眼球的當家花旦。但鑑於手機有限的硬體條件，若想使拍攝效果媲

【影象處理——MATLAB基礎篇】cumsum

目錄 B = cumsum(A) B = cumsum(A,dim) B = cumsum(___,direction) B = cumsum(___,nanflag) B = cumsum(A) A = 1:5; B = cumsum(A) A = [1

【影象處理——MATLAB基礎篇】find函式

1、k = find(X) 2、k = find(X,n) 3、k = find(X,n,direction) 4、[row,col] = find(___) 5、[row,col,v] = find(___) 1、k = find(X) 查詢矩陣中非0元素的位置 X

【影象處理——MATLAB基礎篇】floor函式

1、floor（x）： 2、floor（t）： 3、floor(t,unit)： 1、floor（x）：取整 2、floor（t）：將持續時間陣列中的每個值舍入到小於或等於該值的最接近的秒數 3、floor(t,unit)：將t的每個元素舍入到小

《數字影象處理》第二章——數字影象基礎

雖然寫這個部落格主要目的是為了給我自己做一個思路記憶錄，但是如果你恰好點了進來，那麼先對你說一聲歡迎。我並不是什麼大觸，只是一個菜菜的學生，如果您發現了什麼錯誤或者您對於某些地方有更好的意見，非常歡迎您的斧正！目錄回顧第一章： 2.1節——視覺感知要素 2.1.

數字影象處理軟體ACDSee Photo Studio 5 Mac漢化版

ACDSee mac 破解版是mac上一款功能強大的看圖工具和數字影象處理軟體，支援多種模式，如檢視、編輯、管理、沖印、以及開發，身兼多種強大功能！使用acdsee5.0破解版可以從數碼相機和掃描器高效獲取圖片，支援超過幾十種常用多媒體格式，能夠獨立完成圖片管理、圖片編輯、數碼攝影、數字資產管理

FPGA的影象處理技術，你知道多少？

最近一段時間一直在研究基於FPGA的影象處理，乘著EEPW這個機會和大家交流一下，自己也順便總結一下。主要是為了大家對用FPGA做影象處理有個感性的認識，如果真要研究的話就得更加深入學習了。本人水平有限，如有錯誤，歡迎大家批評指正。本文引用地址：http://www.e

ROS學習筆記（2）：在ROS中使用OpenCV進行簡單的影象處理---程式碼實現篇

再上一篇blog中，筆者總結了ROS系統中使用OpenCV庫的進行簡單影象處理的原理、系統相關的設定和程式包的下載。在這篇部落格中，筆者將從程式碼層面介紹如何實現在ROS系統中讀取圖片，並使用OpenCV進行影象處理，在返回結果。例項：從ROS中讀取圖象，轉換後將彩色圖象

影象處理番外篇：在VS2010下使用HALCON12 的庫

HALCON 本質上講是一個函式庫，雖然也有HALCON10 11 12 之類的開發環境，但是這些東西頂到天上去不過是給我們除錯運算元用的，他沒有辦法開發出一個好看使用的介面出來。所以我們要使用其他開發環境，我選擇了VS2010。對於在如何在VS2010中呼叫HA

【Android開發】圖形影象處理技術-實現Android動畫的兩種方式

在應用Android進行專案開發時，特別是在進行遊戲開發時，經常需要涉及動畫。Android中的動畫通常可以分為逐幀動畫(Frame Animation)和補間動畫(Tween Animation)兩種。下面將分別介紹這兩種動畫。一.實現逐幀動畫(Frame Animat

圖片影象處理技術及開源圖片框架demo- Android(Picasso/Glide等)

1972年11月的《花花公子》雜誌的封面人物名叫Lena Soderberg模特照片，成為數字影象處理和壓縮的標準格式，研究人員用它來測試自己的演算法，還常被用作數字視訊處理各種實驗及科學出版物的例圖。規避圖片OOM或省流量及快速上傳給後臺。圖片類社交App可選Fr

Linux實戰第二篇：Centos6和Centos7密碼破解實戰

root恢復個人筆記分享（在線閱讀）：http://note.youdao.com/noteshare?id=744d026219e72c69e606f115bd333ddcPDF版本下載請在附近中下載本文出自 “人才雞雞” 博客，請務必保留此出處http://6575793.blog.51cto.com/6

自學C#第二篇變量和表達式

作用 -s 組合示例表達式技術分享怎麽就是截圖變量 1> 聲明變量需要指定類型和變量名： <type> <name> type：表示使用什麽類型來儲存數據name：表示存儲這個類型的名字實例：（每一個聲明都是一條語句，語句以

Python初探第二篇-裝飾器和叠代器，生成器

decorate name 返回 -s 調用手動新功能函數的調用賦值一，裝飾器　　1，概念　　裝飾器就是給已有的模塊添加新的功能，如登錄驗證功能，運行時間功能等。本身可以是任意可調用對象，被裝飾者也可以是任意可調用對象。　　強調裝飾器的原則：1 不修改被裝飾對

AI的影象處理技術---第二篇《LeNet-5和Inception-v3》

相關推薦