使用LeNet-5實現mnist手寫數字分類識別 TensorFlow

阿新 • • 發佈：2018-12-11

TensorFlow的學習材料很多，但很少有講得特別詳細，讓小白一看就懂的。我自己總結了cnn實現mnist分類識別的方法，希望能給TensorFlow初學者一些幫助，實測在python3下可以執行。

# -*- coding: utf-8 -*-
# 使用LeNet-5實現mnist手寫數字分類識別
import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input_data
import os
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "3"

# 獲取mnist資料
data_path = os.path.join('.', 'mnist')
mnist = input_data.read_data_sets(data_path, one_hot=True)  # 一定要加 one_hot
# 註冊預設session 後面操作無需指定session 不同sesson之間的資料是獨立的
sess = tf.InteractiveSession()  # 建立一個session物件，之後的運算都會跑在這個session裡

## 引數初始化
# 構造引數W函式 給一些偏差0.1防止死亡節點,標準差為0.1
def weight_variable(shape):
    initial = tf.truncated_normal(shape, stddev=0.1)  # 權重在初始化時應該加入少量的噪聲來打破對稱性以及避免0梯度  truncated_normal函式產生正態分佈
    return tf.Variable(initial)

# 構造偏差b函式 ,給偏置加了一個正值0.1來避免死亡節點
def bias_variable(shape):
    initial = tf.constant(0.1, shape=shape)
    return tf.Variable(initial)

## 定義卷積層和池化層函式
# x是輸入,W為卷積引數 如[5,5,1,30] 前兩個表示卷積核的尺寸 
# 第三個表示通道channel  第四個表示提取多少類特徵
# strides 表示卷積模板移動的步長，中間兩個引數都是1代表不遺漏的劃過圖片每一個點
# padding 表示邊界處理方式這裡的SAME代表給邊界加上padding讓輸出和輸入保持相同尺寸
def conv2d(x, W):
    return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')

# ksize 使用2x2最大池化即將一個2x2畫素塊變為1x1 最大池化保持畫素最高的點
# stride也橫豎兩個方向為2歩長,如果步長為1 得到尺寸不變的圖片
def max_pool_2x2(x):
    return tf.nn.max_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')

## 定義張量流輸入格式
# reshape變換張量shape 2維張量變4維 [None, 784] to [-1,28,28,1]  784=28*28
# [-1, 28, 28, 1] -1表示樣本數量不固定 28 28為尺寸 1為通道
x = tf.placeholder(tf.float32, [None, 784])  # placeholder 佔位符 此函式可以理解為形參，用於定義過程，在執行的時候再賦具體的值  [None, 784]表示列是784，行不定
y_ = tf.placeholder(tf.float32, [None, 10])  # 來自MNIST的訓練集，每一個圖片所對應的真實值
x_image = tf.reshape(x, [-1, 28, 28, 1])  # 第2、第3維對應圖片的寬、高，最後一維代表圖片的顏色通道數(因為是灰度圖所以這裡的通道數為1，如果是rgb彩色圖，則為3)

## 構建模型
# 第一次卷積池化 卷積層用ReLU啟用函式
# 權重這個值很重要，因為我們深度學習的過程，就是發現特徵，經過一系列訓練，從而得出每一個特徵對結果影響的權重，我們訓練，就是為了得到這個最佳權重值
W_conv1 = weight_variable([5, 5, 1, 32])  # 前兩個維度是patch的大小，接著是輸入的通道數目，最後是輸出的通道數目
b_conv1 = bias_variable([32])  # 對於每一個輸出通道都有一個對應的偏置量  這裡定義32維常量為0.1
h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1)  # 把x_image和權值向量進行卷積，加上偏置項，然後應用ReLU啟用函式  32*28*28
h_pool1 = max_pool_2x2(h_conv1)  # 最後進行max pooling  32*14*14

# 第二次卷積池化 卷積層用ReLU啟用函式
W_conv2 = weight_variable([5, 5, 32, 64])  # 每個5x5的patch會得到64個特徵
b_conv2 = bias_variable([64])
h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)  # 64*14*14
h_pool2 = max_pool_2x2(h_conv2)  # 64*7*7

# 全連線層使用ReLU啟用函式  reshape改變張量結構 變成一維
W_fc1 = weight_variable([7 * 7 * 64, 1024])  # 圖片尺寸減小到7x7，我們加入一個有1024個神經元的全連線層，用於處理整個圖片
b_fc1 = bias_variable([1024])
h_pool2_flat = tf.reshape(h_pool2, [-1, 7 * 7 * 64])
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)  # tf.matmul 矩陣乘法，表示全連線，而不是conv2d

# 為了減輕過擬合使用一個Dropout層，隨機丟掉一些神經元不參與運算
keep_prob = tf.placeholder(tf.float32)
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)

# softmax層  第二個全連線層　分為十類資料　softmax後輸出概率最大的數字
W_fc2 = weight_variable([1024, 10])
b_fc2 = bias_variable([10])
y_conv = tf.nn.softmax(tf.matmul(h_fc1_drop, W_fc2) + b_fc2)  # tf.nn.softmax 而不是 tf.nn.relu, y_conv是概率

## 儲存模型
# 建立saver的時候可以指明要儲存的tensor，如果不指明，就會全部存下來
# saves a model every 2 hours and maximum 4 latest models are saved.
#saver = tf.train.Saver(max_to_keep=4)
saver = tf.train.Saver()

# 儲存模型的路徑
ckpt_file_path = "./models/mnist"  # models是資料夾，mnist是檔案命名使用的
path = os.path.dirname(os.path.abspath(ckpt_file_path))
if os.path.isdir(path) is False:
    os.makedirs(path)

# loss函式  模型預測的類別概率輸出與真實類別的one hot形式進行cross entropy損失函式的計算。
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y_conv), reduction_indices=[1]))  # 交叉熵  reduction_indices引數，表示函式的處理維度

# 優化演算法Adam函式
train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)  #這裡用Ａdam優化器優化　也可以使用隨機梯度下降

#cross_entropy = -tf.reduce_sum(y_ * tf.log(y_conv),reduction_indices=[1])   #交叉熵
#train_step = tf.train.GradientDescentOptimizer(0.5*1e-4).minimize(cross_entropy)  # 梯度下降法

# accuracy函式 tf.equal(A, B)是對比這兩個矩陣或者向量的相等的元素，如果是相等的那就返回True，反之返回False
correct_prediction = tf.equal(tf.argmax(y_conv, 1), tf.argmax(y_, 1))  # tf.argmax()返回最大數值的下標， 第二個引數 0按列找，1按行找
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))  # 準確率  tf.cast是型別轉換函式，tf.float32是轉換目標型別，返回Tensor

tf.global_variables_initializer().run()  # 使用全域性引數初始化器　並呼叫run方法　來進行引數初始化

# 訓練1000次 每次大小為50的mini-batch 每100次訓練檢視訓練結果 用以實時監測模型效能  1000次是iteration,其實只有1個epoch???
for i in range(1000):
    batch = mnist.train.next_batch(50)
    if i % 100 == 0:  # 每100次驗證一下準確率       
        # feed_dict:一個字典，用來表示tensor被feed的值（聯絡placeholder一起看）  
        train_accuracy = accuracy.eval(feed_dict={x: batch[0], y_: batch[1], keep_prob: 1.0})  # 評估模型，得出訓練的準確率  
        print("step %d, train_accuracy %g" % (i+1, train_accuracy))  # %g 指數(e) 或浮點數(根據顯示長度)
        
    if i % 200 == 0:
        tf.train.Saver().save(sess, ckpt_file_path, write_meta_graph=True)  # 儲存模型
        
    # batch[0]   [1]　分別指資料維度　和標記維度　將資料傳入定義好的優化器進行訓練
    train_step.run(feed_dict={x: batch[0], y_: batch[1], keep_prob: 0.5})  # train_step是定義好的優化器
    
print("test accuracy %g" % accuracy.eval(feed_dict={               # 評估模型，得出測試的準確率
    x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0
}))

使用LeNet-5實現mnist手寫數字分類識別 TensorFlow

TensorFlow的學習材料很多，但很少有講得特別詳細，讓小白一看就懂的。我自己總結了cnn實現mnist分類識別的方法，希望能給TensorFlow初學者一些幫助，實測在python3下可以執行。 # -*- coding: utf-8 -*- # 使用LeNet-5實

使用LSTM實現mnist手寫數字分類識別 TensorFlow

RNN做影象識別原理：MNIST資料集中一張圖片資料包含28*28的畫素點。RNN是將一張圖片資料的一行作為一個向量總體輸入一個X中。也就是說，RNN有28個輸入X，一個輸入X有28個畫素點。輸出最後一個結果做為預測值。 TensorFlow入門學習程式碼： # -

深度學習之PyTorch —— CNN實現MNIST手寫數字分類

#　運用ＣＮＮ分析ＭＮＩＳＴ手寫數字分類 import torch import numpy as np from torch.utils.data import DataLoader from torchvision.datasets import mnist fro

深度學習系列——AlxeNet實現MNIST手寫數字體識別

本文實現AlexNet,用於識別MNIST手寫數字體。所有程式碼的框架基於tensorflow。看了幾篇論文的原始碼之後，覺得tensorflow 確實很難，學習程式設計還是靠實踐。這篇部落格留著給自己以及學習深度學習道路上的小夥伴們一些參考吧，希望能對大家有所幫助！

OpenCV機器學習：SVM分類器實現MNIST手寫數字識別

0. 開發環境最近機器學習隨著AI人工智慧的興起越來越火，博主想找一些ML的庫來練手。突然想起之前在看Opencv的doc時發現有ML的component，於是心血來潮就開始寫程式碼試試。話不多說，直接進正題。以下我的開發環境配置： -Windows7

Tensorflow 實戰Google深度學習框架——學習筆記（六）LeNet-5網路實現MNIST手寫數字集識別

使用LeNet-5模型實現MNIST手寫數字識別，其神經網路架構如下：一、詳細介紹LeNet-5模型每一層的結構第一層，卷積層這一層輸入原始的影象畫素，接受的輸入層大小為32*32*1，第一個卷積層過濾器尺寸為5*5,共6個，不使用全0填

MNIST手寫數字圖片識別（線性回歸、CNN方法的手工及框架實現）（未完待續）

shape 初始化 result rect not found pro res edi ise 0-Background 作為Deep Learning中的Hello World 項目無論如何都要做一遍的。代碼地址：Github 練習過程中將持續更新blog及代碼。第一

北大人工智慧網課攻略[2]:mnist手寫數字分類，並測試自己的手寫體

個人程式如下：連結: https://pan.baidu.com/s/1Yy0Dg9AOGntDIdb4VGle4A 提取碼: zwv4 北大人工智慧網課考試一是手寫數字體識別，與常見的入門題目唯一的區別是我們需要再讀入老師手寫的圖片進行識別。編寫一下讀取普通圖片的程式帶入

神經網路實現Mnist手寫數字識別筆記

目錄 1.Mnist手寫數字識別介紹 Mnist手寫數字識別是Kaggle上一個很經典的機器學習資料集，裡邊包括55000張訓練資料和10000張圖片的測試資料，每張圖片大小為28*28畫素的單通圖片。該任務為通過機器學習來識別圖片中的

Keras入門實戰（1）：MNIST手寫數字分類

前面的部落格中已經介紹瞭如何在Ubuntu下安裝Keras深度學習框架。現在我們使用 Keras 庫來學習手寫數字分類。我們這裡要解決的問題是：將手寫數字的灰度影象（28 畫素×28 畫素）劃分到 10 個類別中（0~9）。我們將使用 MNIST 資料集，它是機器學

CNN實現MNIST手寫數字識別

關鍵詞：CNN、TensorFlow、卷積、池化、特徵圖一. 前言本文用TensorFlow實現了CNN(卷積神經網路)的經典結構LeNet-5, 具體CNN的LeNet-5模型原理見《深度學習（四）卷積神經網路入門學習(1)》，講得還是比較清楚的。

PyTorch基礎入門六：PyTorch搭建卷積神經網路實現MNIST手寫數字識別

1）卷積神經網路(CNN)簡介關於什麼是卷積神經網路(CNN)，請自行查閱資料進行學習。如果是初學者，這裡推薦一下臺灣的李巨集毅的深度學習課程。連結就不給了，這些資料網站上隨處可見。值得一提的是，CNN雖然在影象處理的領域具有不可阻擋的勢頭，但是它絕對不僅僅只能用來影

基於PyTorch的LSTM長短時記憶網路實現MNIST手寫數字

本篇部落格主要介紹在PyTorch框架下，基於LSTM實現手寫數字的識別。在介紹LSTM長短時記憶網路之前，我先介紹一下RNN(recurrent neural network)迴圈神經網路.RNN是一種用來處理序列資料的神經網路，序列資料包括我們說話的語音、一段文字等等。它

深度學習入門——利用卷積神經網路實現MNIST手寫數字識別

MNIST（Modified National Institute of Standards and Technology）資料庫是一個大型手寫數字資料庫，通常用於訓練各種影象處理系統。該資料庫還廣泛用於機器學習領域的培訓和測試。它是通過重新打亂來自NIST原始資料集的樣本而

Keras下實現mnist手寫數字

之前一直在用tensorflow，被同學推薦來用keras了，把之前文件中的mnist手寫數字資料集拿來練手，程式碼如下。import struct import numpy as np import os import keras from keras.models im

初識GAN之MNIST手寫數字的識別

初識GAN，因為剛好在嘗試用純python實現手寫數字的識別，所以在這裡也嘗試了一下。筆者也是根據網上教程一步步來的，不多說了，程式碼如下： from tensorflow.examples.tutorials.mnist import input_data i

Tensorflow卷積神經網路實現MNIST手寫資料集識別

模型建的不好，最終只有85%左右的準確率，後面繼續改進吧 #卷積神經網路API 卷積層：tf.nn.conv2d(input, #輸入張量，具有[batch, height, width, chann

全連線神經網路實現MNIST手寫資料集識別

有目錄，內容大部分從官方教程copy，黑體加粗為對官方教程的補充 TensorFlow,pytorch,cuda,cudnn,anaconda安裝版本對應關係 Version Python version Compiler Build tools cu

MNIST手寫數字的識別——CNN篇

這裡貼一個用nolearn，lasagne訓練CNN的例子，資料集嘛，當然是MNIST咯，keras暫時還沒研究過，但nolearn訓練CNN真的炒雞炒雞方便啊這裡簡單說下CNN的結構，首先是輸入層，是一個1*28*28的影象矩陣，用32個5*5*1的濾波器去慮，得到3

運用tensorflow全連線神經網路進行MNIST手寫數字影象識別

本文記錄tensorflow搭建簡單神經網路，並進行模組化處理，目的在於總結並提取簡單神經網路搭建的基本思想和方法，提煉核心結構和元素，從而能夠移植到日後深入學習中去。 1 模組提煉 1.1 template_forward.py

使用LeNet-5實現mnist手寫數字分類識別 TensorFlow

相關推薦