1. 程式人生 > >【TensorFlow實戰】3.MNIST數字識別(1)

【TensorFlow實戰】3.MNIST數字識別(1)

  目前用的時TensorFlow1.8版本,python3.5,跑書上的例子會出問題,並且書上的程式碼存在一處錯誤,下面的程式碼時我親測可用的。

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data

#MNIST資料集相關的常數
INPUT_NODE = 784	#輸入層節點數,對於MNIST資料集這個值就等於圖片的畫素數
OUTPUT_NODE = 10	#輸出層的節點數,等於類別數。在MNIST資料集中需要分類的是0~9這10個數字,所以
			#輸出層的節點數為10
#配置神經網路的引數
LAYER1_NODE = 500	#隱藏層節點數。這裡使用只有一個隱藏層的網路結構作為樣例。隱藏層有500個節點
BATCH_SIZE = 100	#一個訓練batch中的訓練資料個數。數字越小,訓練過程越接近隨機梯度下降;數字越大
			#訓練越接近梯度下降
LEARNING_RATE_BASE = 0.8	#基礎的學習率
LEARNING_RATE_DECAY = 0.99	#學習率的衰減
REGULARIZATION_RATE = 0.0001	#描述模型複雜度的正則化項在損失函式中的係數
TRAINING_STEPS = 3000		#訓練輪數
MOVING_AVERAGE_DECAY = 0.99	#滑動平均衰減率

#定義一個輔助函式,給定神經網路的輸入和所有引數,計算神經網路的前向傳播結果。在這裡定義了一個使用
#ReLU啟用函式的三層全連線神經網路。通過加入隱藏層實現了多層網路結構,通過ReLU啟用函式實現了去線性化。
#在這個函式中也支援傳入用於計算引數平均值的類,方便在測試時使用滑動平均模型。
def inference(input_tensor, avg_class, weights1, biases1,weights2, biases2):
	#當沒有提供滑動平均類時,直接使用引數當前取值
	if avg_class == None:
		#計算隱藏層的前向傳播結果,這裡使用了ReLU啟用函式
		layer1 = tf.nn.relu(tf.matmul(input_tensor, weights1) + biases1)
		
		#計算輸出層的前向傳播結果。因為在計算損失函式時會一併計算softmax函式,
		#所以這裡不需要加入啟用函式。並且不加入softmax不會影響預測結果。
		#因為預測時使用的是不同類別對應節點輸出值的相對大小,有沒有softmax層對最後的分類
		#結果的計算沒有影響。於是在計算整個神經網路的前向傳播時可以不加入最後的softmax層。
		return tf.matmul(layer1, weights2) + biases2
	else:
		#首先使用avg_class.average函式來計算得出變數的滑動平均值
		#然後計算相應的神經網路前向傳播結果
		layer1 = tf.nn.relu(tf.matmul(input_tensor, avg_class.average(weights1))+avg_class.average(biases1))
		return tf.matmul(layer1, avg_class.average(weights2)) + avg_class.average(biases2)
#訓練模型的過程
def train(mnist):
	x = tf.placeholder(tf.float32, [None, INPUT_NODE], name='x-input')
	y_ = tf.placeholder(tf.float32, [None, OUTPUT_NODE], name='y-input')
	#生成隱藏層引數
	weights1 = tf.Variable(tf.truncated_normal([INPUT_NODE, LAYER1_NODE], stddev=0.1))
	biases1 = tf.Variable(tf.constant(0.1, shape=[LAYER1_NODE]))
	#生成輸出層引數
	weights2 = tf.Variable(tf.truncated_normal([LAYER1_NODE, OUTPUT_NODE], stddev=0.1))
	biases2 = tf.Variable(tf.constant(0.1, shape=[OUTPUT_NODE]))
	
	#計算在當前引數下神經網路前向傳播結構,這裡給出的用於計算滑動平均的類為None,所以函式不是使用
	#引數的滑動平均值
	y = inference(x, None, weights1, biases1, weights2, biases2)
	
	#定義儲存訓練輪數的變數,這個變數不需要計算滑動平均值,所以這裡指定這個變數為不可訓練的
	#變數(trainbale = False)。在使用TensorFlow訓練神經網路時,
	#一般會將代表訓練輪數的變數指定為不可訓練的引數
	global_step = tf.Variable(0, trainable=False)

	#給定滑動平均衰減率和訓練輪數的變數,初始化滑動平均類。給定訓練輪數的變數可以加快訓練早期
	#變數的更新速度
	variable_averages = tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY, global_step)

	#在所有代表神經網路引數的變數上使用滑動平均,其他輔助如global_step就不需要了
	#tf.trainable_variables返回的就是圖上的集合GraphKeys.TRAINABLE_VARIABLES中的元素。
	#這個集合的元素就是所有沒有指定trainable=False的引數
	variables_averages_op = variable_averages.apply(tf.trainable_variables())
	#計算使用了滑動平均之後的前向傳播結果。滑動平均不會改變變數本身的取值,而是會維護一個影子變數
	#來記錄滑動平均值。所以要使用這個滑動平均值時,需要明確呼叫average函式
	average_y = inference(x, variable_averages, weights1, biases1, weights2, biases2)

	#計算交叉熵作為刻畫預測值和真實值之間損差距的損失函式。這裡使用了TensorFLow中提供的
	#sparse_softmax_cross_entropy_with_logits函式來計算交叉熵。當分類問題只有一個正確答案時,可以
	#使用這個函式來計算交叉熵損失。這個函式的第一個引數是神經網路不包括softmax層的前向傳播結果,第二
	#個是訓練資料的正確答案。因為標準答案shingle長度為10的一維陣列,而該函式需要提供的是一個正確答案
	#的數字,所以需要使用tf.argmax函式來得到正確答案對應的類別編號。
	cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y,labels=tf.argmax(y_,1))#(y, tf.argmax(y_, 1))
	#計算在當前batch中所有樣例的交叉熵平均值
	cross_entropy_mean = tf.reduce_mean(cross_entropy)
	
	#計算L2正則化損失函式
	regularizer = tf.contrib.layers.l2_regularizer(REGULARIZATION_RATE)
	#計算模型的正則化損失。一般只計算神經網路邊上權重的正則化損失,而不使用偏置項
	regularization = regularizer(weights1) + regularizer(weights2)
	#總損失等於交叉熵損失和正則化損失的和
	loss = cross_entropy_mean + regularization
	#設定衰減的學習率
	learning_rate = tf.train.exponential_decay(LEARNING_RATE_BASE, global_step, mnist.train.num_examples/BATCH_SIZE, LEARNING_RATE_DECAY)
	
	#使用tf.train.GradientDescentOptimizer優化演算法來優化損失函式。注意這裡損失函式包含了交叉熵損失和L2正則
	#則化損失
	train_step=tf.train.GradientDescentOptimizer(learning_rate).minimize(loss, global_step=global_step)

	#在訓練神經網路模型時,每過一遍資料既需要通過反向傳播來更新神經網路中的引數,
	#又要更新每一個引數的滑動平均值。為了一次完成多個操作,TensorFlow提供了
	#tf.control_dependencies和tf.group兩種機制。下面兩行程式和
	#train_op = tf.group(train_step, variables_averages_op)是等價的
	with tf.control_dependencies([train_step, variables_averages_op]):
		train_op = tf.no_op(name='train')

	#檢驗使用了滑動平均模型的神經網路前向傳播結果是否正確。tf.argmax(averages_y,1)計算每一個樣例的預測答
	#案。其中average_y是一個batch_size*10的二維陣列,每一行表示一個樣例的前向傳播結果。tf.argmax的第二個
	#引數“1”表示選取最大值的操作僅在第一個維度中進行,也就是說,只在每一行選取最大值對應的下標。於是得到的
	#結果是一個長度為batch的一維陣列,這個一維陣列中的值就表示了每一個樣例對應的數字識別結果。
	#tf.equal判斷兩個張量的每一維是否相等,如果相等返回true,否則返回false
	correct_prediction = tf.equal(tf.argmax(average_y, 1), tf.argmax(y_,1))
	#這個運算首先將一個布林型的數值轉化為實數型,然後計算平均值。這個平均值就是模型在這一組資料上的正確率
	accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

	#初始化會話並開始訓練過程
	with tf.Session() as sess:
		tf.initialize_all_variables().run()
		#準備驗證資料。一般在神經網路的訓練過程中會通過驗證資料來大致判斷停止的條件和評判訓練的效果
		validate_feed = {x: mnist.validation.images,y_: mnist.validation.labels}
		#準備測試資料。在真實的應用中,這部分資料在訓練時時不可見的,這個資料只是作為模型優劣的的最後
		#評價標準
		test_feed = {x: mnist.test.images, y_: mnist.test.labels}
	
		#迭代地訓練神經網路
		for i in range(TRAINING_STEPS):
			#每1000論輸出一次在驗證資料集上的測試結果
			if i % 1000 == 0:
			#計算滑動平均模型在驗證資料上的效果。因為MNIST資料集比較小,所以一次可以處理所有的驗證資料
			#為了計算方便,本樣例程式沒有將驗證資料劃分為更小的batch。當神經網路模型比較複雜或者驗證資料
			#比較大時,太大的batch會導致計算時間過長甚至發生記憶體溢位的錯誤。
				validate_acc = sess.run(accuracy, feed_dict=validate_feed)
				print("After %d training step(s), validation accuracy"
					"using average model is %g " % (i, validate_acc))
			#產生這一輪使用的一個batch的訓練資料,並執行訓練過程
			xs, ys = mnist.train.next_batch(BATCH_SIZE)
			sess.run(train_op, feed_dict={x: xs, y_: ys})
		#在訓練結束之後,在測試資料集上檢測神經網路模型的最終正確率
		test_acc = sess.run(accuracy, feed_dict=test_feed)
		print("After %d training step(s), test accuracy using average" "model is %g"%(TRAINING_STEPS,
		test_acc))
#主程式入口
def main(argv=None):
	#宣告處理MNIST資料集的類,這個類在初始化時會自動下載資料
	mnist = input_data.read_data_sets("/tmp/data",one_hot=True)
	train(mnist)
#TensorFlow提供一個主程式入口,tf.app.run會呼叫上面定義的main函式
if __name__=='__main__':
	tf.app.run()

跑這段程式碼會出現幾個問題:

urllib.error.URLError: <urlopen error [Errno 101] Network is unreachable>

這是在下載資料集的時候因為網路問題(可能被牆了)下載不下來。這時候需要自己去下載資料集。

下載下面幾個資料集:

放到/tmp/data路徑下。這樣就可以了

另外一個問題:

ValueError: Only call `sparse_softmax_cross_entropy_with_logits` with named arguments (labels=..., logits=..., ...)

這是TensorFlow版本更新後函式介面的用法改變了,書上的程式碼是舊版本的用法,我已經改好了

書上程式碼:

cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(y, tf.argmax(y_, 1))

更改後:

cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y,labels=tf.argmax(y_,1))

相關推薦

TensorFlow實戰3.MNIST數字識別1

  目前用的時TensorFlow1.8版本,python3.5,跑書上的例子會出問題,並且書上的程式碼存在一處錯誤,下面的程式碼時我親測可用的。 import tensorflow as tf from tensorflow.examples.tutorials.mnis

TensorFlow學習筆記(3) MNIST數字識別問題

MNIST是一個手寫體數字識別資料體,作為機器學習的入門樣例。這個資料集包含了60000張圖片作為訓練資料,一般從中劃出5000張作為驗證資料(validation),另外55000張作為訓練資料(train),還有10000張圖片作為測試資料(test),且每一張圖片都代表了0-9中的一個數字。在

Tensorflow入門手寫字型識別MNIST)

轉載自: 地址 配置有困難的話可以直接下載:  地址 //當然照著這個教程配置很輕鬆的其實,完全可以不用浪費這1積分,攤手… MNIST機器學習入門 這個教程的目標讀者是對機器學習和TensorFlow都不太瞭解的新手。如果你已經瞭解MNIST和softmax

資料倉庫3.緩慢變化維度SCD

0x00 前言 本文會分享資料倉庫中和緩慢變化維度相關的內容。在看之前建議回顧一下和維度建模相關的知識點,可參考這篇:No.12 【漫談資料倉庫】維度建模。 為什麼會分享這個聽起來很奇怪的東西?因為站在的筆者的視角中,只要是做資料倉庫的小夥伴們,在工作中基本上都會接觸和維度建模相關的內容,而

django+xadmin實戰0131筆記——使用者模組1

一、 1.index介面的配置, 在url檔案下面配置:from django.views.generic import TemplateView,url('^$', TemplateView.as_view(template_name='index.html'),

Prince2科普Prince2的七大原則1

步驟 哪些 來看 產品 論證 img .com 驗證 mil 經過前幾講中關於PRINCE2六大要素,四大步驟及整體思維架構的學習,相信各位看官已經對於PRINCE2有了大概的了解,那我們今天的學習內容會正式進入到七大原則內容的分享。 我們先來看一下,PRINCE

資料結構順序表的應用1

 問題: 1.將順序表(a1,a2,…,an)重新排列以a1為界的兩部分:a1前面的值均比a1小,a1後面的值均比a1大(這裡假設資料元素的型別具有可比性,不妨設為整型)。 #include "

JAVA面試java面試題整理1

                                       java面試題整理(1) JAVA常考點總結1 目錄

LaTeX入門12、參考文獻1

    你在寫一篇論文,論文要求“根據引用文獻的順序對參考文獻進行編號”,目前你的參考文獻有文章 A(當前編號為1),文章 B(當前編號為2),文章 C(當前編號為3) 這三篇文獻,文章中有50處引用了文章A,20處引用了文章B,10處引用了文章C,這時候你發現在文章開頭需要引用一篇文章D,而這時就意味著你需

學習opencv實現霍夫變換1檢測直線

目前想對於霍夫圓檢測進行修改,想法是若能在固定圓心的橫座標的情景下去搜索圓,若要實現就需要對霍夫檢測有一定的深入瞭解。 霍夫變換原理 霍夫變換原理實則就是引數空間的轉變。 極座標轉換 首先因為直角座標系中垂直於x軸的直線不存在,即轉換用極座標表示

opencv——基於SVM的數字識別1

關於SVM的原理有很多優秀的視訊和資料,這裡我主要說下利用SVM對數字識別的具體應用 首先,需要有數字的訓練樣本 https://download.csdn.net/download/weixin_41721222/10784418 把0-9資料夾放入模版匹配樣本之中,自己可

Java GUI圖形使用者介面總結1

一、簡單視窗的顯示 import java.awt.Color; import java.awt.Container; import java.awt.Label; import javax.swing.*; public class SwingWin

機器學習手寫數字識別算法

alt gdi 數字識別 -1 轉換 error: erro files turn 1.數據準備 樣本數據獲取忽略,實際上就是將32*32的圖片上數字格式化成一個向量,如下: 本demo所有樣本數據都是基於這種格式的 訓練數據:將圖片數據轉成1*1024的數組,作為一

TensorFlow實戰TensorFlow實現經典卷積神經網絡之VGGNet

3*3 一次 卷積神經網絡 有意 研究 而不是 不同等級 帶來 這一 VGGNet   VGGNet是牛津大學計算機視覺組與Google DeepMind公司的研究員一起研發的深度卷積神經網絡。VGGNet探索了卷積神經網絡的深度與其性能之間的關系,通過反復堆疊3*3的小型

TensorFlow實戰TensorFlow實現經典卷積神經網絡之ResNet

man bject dep lte 也會 weight params detail 三層 ResNet   ResNet(Residual Neural Network)通過使用Residual Unit成功訓練152層深的神經網絡,在ILSVRC 2015比賽中獲得冠軍

AI實戰動手實現人臉識別程式

人臉識別在現實生活中有非常廣泛的應用,例如iPhone X的識別人臉解鎖螢幕、人臉識別考勤機、人臉識別開門禁、刷臉坐高鐵,還有識別人臉虛擬化妝、美顏,甚至支付寶還推出了刷臉支付、建設銀行還實現了刷臉取錢……,可見人臉識別的用處非常廣。   既然人臉識別這麼有用,那我們能否自己來實現一

TensorFlow實戰TensorFlow實現簡單的卷積神經網路

#本次將練習實現一個簡單的卷積神經網路,使用的資料集依然是MNIST, #預期可以達到99.2%左右的準確性 #使用兩個卷積層加上一個全連線蹭構建一個簡單但是非常具有代表性的卷積神經網路 #載入MNIST資料集,並且建立預設的Interactive Sessio

基於tensorflowMNIST手寫數字識別--入門篇

一、本文的意義       因為谷歌官方其實已經寫了MNIST入門和深入兩篇教程了,那我寫這些文章又是為什麼呢,只是抄襲?那倒並不是,更準確的說應該是筆記吧,然後用更通俗的語言來解釋,並且補充

TensorFlow實戰2.完整神經網路例子

# coding=utf-8 import tensorflow as tf #NumPy是科學計算工具包,呼叫生成模擬資料集 from numpy.random import RandomState #定義訓練資料batch的大小 batch_size = 8 #定

Tensorflow入門手寫字型識別——卷積神經網路

慣例放結果,瞬間識別率就上99.29%了…… import input_data mnist = input_data.read_data_sets('MNIST_data', one_hot=True) import tensorflow as tf sess =