深度學習分散式訓練實戰（二）——TF

阿新 • • 發佈：2018-12-13

本篇部落格主要介紹TF的分散式訓練，重點從程式碼層面進行講解。理論部分可以參考深度學習分散式訓練實戰（一)

TF的分散式實現方式

TF的分散式有兩種實現方式，一種是圖內分散式（In-graph replication）；一種是圖間分散式(Between-graph replication)。這兩種分別對應分散式訓練中的資料並行，模型並行方式。關於資料並行，模型並行可以參考深度學習分散式訓練實戰（一) 大部分情況下，我們使用圖間分散式，圖內分散式一般只會在模型太大的情況下使用。對於圖間分散式，其基於gRPC通訊框架，模型引數只有一份，計算圖有多份，一個master負責建立主session，多個worker執行計算圖任務。模型訓練過程中，每個計算圖計算出各自梯度，然後對引數進行更新。更新方式有兩種：同步更新，非同步更新。

分散式TF中，TF需要建立一個叢集，然後在叢集中建立兩個job，一個是ps job，負責引數初始化，引數更新，一個job下面可以有多個task（有多個task，說明有多臺機器，或者GPU負責引數初始化，更新）。一個是woker job，負責計算圖的運算，計算梯度，一個worker job下面也可以有很多個task（有多個task，說明有多臺機器，或者GPU負責執行計算圖）。

引數非同步更新的分散式訓練

引數同步更新基本上和這裡寫的差不多TensorFlow分散式部署。只不過為了方便在本機上除錯，所以改了一點點。（自己的筆記本沒有GPU），介紹下面幾個重點的語句： tf.train.ClusterSpec()

：建立一個叢集物件 tf.train.Server()：在這個叢集上面建立一個伺服器，根據實際情況，可以是引數伺服器，也可以是計算伺服器 tf.train.Supervisor()：建立一個監視器，就是用來監控訓練過程的，個人感覺主要就是方便恢復模型訓練，其logdir引數為訓練日誌目錄，如果裡面有模型，則直接恢復訓練。所以如果想重新訓練，需要刪除這個目錄。 sv.managed_session()：啟動Session，相比於其他啟動Session的方式，多了一些功能。可以參考TensorFlow 中三種啟動圖用法具體程式碼如下：

# tensorflow distribute train by asynchronously update  


import tensorflow as tf
import numpy as np

tf.app.flags.DEFINE_string("ps_hosts", "", "Comma-separated list of hostname:port pairs")
tf.app.flags.DEFINE_string("worker_hosts", "", "Comma-separated list of hostname:port pairs")
tf.app.flags.DEFINE_string("job_name", "", "one of ps or worker")
tf.app.flags.DEFINE_integer("task_index", 0, "0, 1, 2...")

FLAGS = tf.app.flags.FLAGS

def main(_):
	ps_hosts = FLAGS.ps_hosts.split(",")
	worker_hosts = FLAGS.worker_hosts.split(",")

	# Create a cluster from the parameter server and worker server
	cluster = tf.train.ClusterSpec({"ps":ps_hosts, "worker":worker_hosts})

	# Create and start a server for the local task
	server = tf.train.Server(cluster, job_name = FLAGS.job_name, task_index=FLAGS.task_index)
    # 如果是引數伺服器，則直接阻塞，等待計算伺服器下達引數初始化，引數更新命令就可以了。
    # 不過“下達命令”這個是TF內部實現的，沒有顯式實現
	if FLAGS.job_name == "ps":
		server.join() 
	elif FLAGS.job_name == "worker":
		# Assigns ops to the local worker by default
		with tf.device(tf.train.replica_device_setter(worker_device="/job:worker/task:%d" % FLAGS.task_index, cluster=cluster)):
			train_X = np.linspace(-1.0, 1.0, 100)
			train_Y = 2.0 * train_X + np.random.randn(*train_X.shape) * 0.33 + 10.0
			X = tf.placeholder("float")
			Y = tf.placeholder("float")

			w = tf.Variable(0.0, name="weight")
			b = tf.Variable(0.0, name="bias")
			loss = tf.square(Y - tf.multiply(X, w) - b)

			global_step = tf.Variable(0)
			train_op = tf.train.AdagradOptimizer(0.01).minimize(loss, global_step=global_step)

			saver = tf.train.Saver()
			summary_op = tf.summary.merge_all()

			init_op = tf.global_variables_initializer()

			# Create a "supervisor", which oversees the training process.
			sv = tf.train.Supervisor(is_chief=(FLAGS.task_index==0),
				logdir="~/Downloads/log/",
				init_op=init_op,
				summary_op = summary_op,
				saver=saver,
				global_step=global_step,
				save_model_secs=600)

			# The supervisor takes care of session initialization, retoring from a
			# checkpoint, and closing when done or an error occurs.
			with sv.managed_session(server.target) as sess:
				step = 0
				while step < 1000000:
					# Run a training step asynchronously
					for (x, y) in zip(train_X, train_Y):
						_, step =sess.run([train_op, global_step], feed_dict={X:x, Y:y})
					loss_value = sess.run(loss, feed_dict={X:x, Y:y})
					print("Step: {}, loss: {}".format(step, loss_value))

			# Ask for all the services to stop
			sv.stop()

if __name__=="__main__":
	tf.app.run()

開啟三個終端，分別輸入以下三個命令，就可以看到訓練結果了：

CUDA_VISIBLE_DEVICES='' python AsynDis.py --ps_hosts=localhost:2222 --worker_hosts=localhost:2224,localhost:2225 --job_name=ps --task_index=0
CUDA_VISIBLE_DEVICES='' python AsynDis.py --ps_hosts=localhost:2222 --worker_hosts=localhost:2224,localhost:2225 --job_name=worker --task_index=0
CUDA_VISIBLE_DEVICES='' python AsynDis.py --ps_hosts=localhost:2222 --worker_hosts=localhost:2224,localhost:2225 --job_name=worker --task_index=1

這裡有一點要注意，控制計算圖使用哪一塊GPU是通過命令列設定CUDA_VISIBLE_DEVICES來實現的，而不是寫死在程式碼裡面的。此外，還有一點不方便的地方，如果有很多臺機器，則需要把多份這份程式碼拷貝多次，在每臺機器上分別執行上述命令才可以，還是不太方便的。

引數同步更新的分散式訓練

同步更新稍微麻煩了點，需要加幾行程式碼（重點參考了《Tensorflow實戰》一書），改動部分已經標明，程式碼如下：

# tensorflow distribute train by synchronously update 

import tensorflow as tf
import numpy as np

tf.app.flags.DEFINE_string("ps_hosts", "", "Comma-separated list of hostname:port pairs")
tf.app.flags.DEFINE_string("worker_hosts", "", "Comma-separated list of hostname:port pairs")
tf.app.flags.DEFINE_string("job_name", "", "one of ps or worker")
tf.app.flags.DEFINE_integer("task_index", 0, "0, 1, 2...")

FLAGS = tf.app.flags.FLAGS
def main(_):
	ps_hosts = FLAGS.ps_hosts.split(",")
	worker_hosts = FLAGS.worker_hosts.split(",")
	n_works = len(worker_hosts)
	# Create a cluster from the parameter server and worker server
	cluster = tf.train.ClusterSpec({"ps":ps_hosts, "worker":worker_hosts})

	# Create and start a server for the local task
	server = tf.train.Server(cluster, job_name = FLAGS.job_name, task_index=FLAGS.task_index)

	if FLAGS.job_name == "ps":
		server.join()
	elif FLAGS.job_name == "worker":
		# Assigns ops to the local worker by default
		with tf.device(tf.train.replica_device_setter(worker_device="/job:worker/task:%d" % FLAGS.task_index, cluster=cluster)):
			train_X = np.linspace(-1.0, 1.0, 100)
			train_Y = 2.0 * train_X + np.random.randn(*train_X.shape) * 0.33 + 10.0
			X = tf.placeholder("float")
			Y = tf.placeholder("float")

			w = tf.Variable(0.0, name="weight")
			b = tf.Variable(0.0, name="bias")
			loss = tf.square(Y - tf.multiply(X, w) - b)

			global_step = tf.Variable(0)

			# for Syncmously updata
			# 同步更新模式下，需要等待所有計算圖計算出梯度，然後梯度求平均，tf.train.SyncReplicasOptimizer實現了這種封裝
			opt = tf.train.SyncReplicasOptimizer(
				tf.train.AdagradOptimizer(0.01),
				replicas_to_aggregate=n_works,
				total_num_replicas=n_works,
				)
			train_op = opt.minimize(loss, global_step=global_step)
			saver = tf.train.Saver()
			summary_op = tf.summary.merge_all()

			init_op = tf.global_variables_initializer()

			# for Syncmously updata
			# 同步模式下，主計算伺服器需要協調不同計算伺服器計算得到的梯度，並更新引數。
			if FLAGS.task_index==0:
			    # 定義協調不同計算伺服器的佇列，並定義初始化操作
				chief_queue_runner = opt.get_chief_queue_runner()
				init_tokens_op = opt.get_init_tokens_op(0)

			# Create a "supervisor", which oversees the training process.
			sv = tf.train.Supervisor(is_chief=(FLAGS.task_index==0),
				logdir="~/Downloads/log/",
				init_op=init_op,
				summary_op = summary_op,
				saver=saver,
				global_step=global_step,
				save_model_secs=600)



			# The supervisor takes care of session initialization, retoring from a
			# checkpoint, and closing when done or an error occurs.

			# for Syncmously updata. 
			# prepare_or_wait_for_session used by sync. It will wait until main node ok and parameter init over!
			# for Syncmously updata. 
			# 這裡用的是prepare_or_wait_for_session。
			# 相比於同步更新的managed_session：只要某個計算伺服器引數初始化完畢就可以開始，
			# prepare_or_wait_for_session：等待所有計算伺服器引數初始化完畢（引數只有一份，後續的計算伺服器應該不需要初始化了？只需要和引數伺服器建立一個關係？），主節點協調工作完畢後，開始。
			with sv.prepare_or_wait_for_session(server.target) as sess:
				# for Syncmously updata
				if FLAGS.task_index==0:
				    # 開始訓練之前，主計算伺服器需要啟動協調同步更新的佇列，並執行初始化操作
					sv.start_queue_runners(sess, [chief_queue_runner])
					sess.run(init_tokens_op)

				step = 0
				while step < 100000:
					# Run a training step asynchronously
					for (x, y) in zip(train_X, train_Y):
						_, step =sess.run([train_op, global_step], feed_dict={X:x, Y:y})
					loss_value = sess.run(loss, feed_dict={X:x, Y:y})
					print("Step: {}, loss: {}".format(step, loss_value))

			# Ask for all the services to stop
			sv.stop()

if __name__=="__main__":
	tf.app.run()

深度學習分散式訓練實戰（二）——TF

本篇部落格主要介紹TF的分散式訓練，重點從程式碼層面進行講解。理論部分可以參考深度學習分散式訓練實戰（一) TF的分散式實現方式 TF的分散式有兩種實現方式，一種是圖內分散式（In-graph replication）；一種是圖間分散式(Between-gra

深度學習分散式訓練實戰（一）

本系列部落格主要介紹使用Pytorch和TF進行分散式訓練，本篇重點介紹相關理論，分析為什麼要進行分散式訓練。後續會從程式碼層面逐一介紹實際程式設計過程中如何實現分散式訓練。常見的訓練方式單機單卡（單GPU）這種訓練方式一般就是在自己筆記本上，窮學生專

深度學習數學基礎介紹（二）概率與數理統計

特征數字特征抽樣分布第5章最大中心 3.4 獨立知識第1章隨機事件與概率§1.1 隨機事件§1.2 隨機事件的概率§1.3 古典概型與幾何概型§1.4 條件概率§1.5 事件的獨立性第2章隨機變量的分布與數字特征§2.1 隨機變量及其分布§2.2 隨機變

深度學習之PyTorch實戰（3）——實戰手寫數字識別

　　上一節，我們已經學會了基於PyTorch深度學習框架高效，快捷的搭建一個神經網路，並對模型進行訓練和對引數進行優化的方法，接下來讓我們牛刀小試，基於PyTorch框架使用神經網路來解決一個關於手寫數字識別的計算機視覺問題，評價我們搭建的模型的標準是它是否能準確的對手寫數字圖片進行識別。　　

深度學習論文翻譯解析（二）：An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

論文標題：An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition 論文作者： Baoguang Shi, Xiang B

基於深度學習的推薦系統（二）MLP based

在第二部分，我們總結MLP基礎上的推薦系統，我在這裡只截取了原文的一部分內容。這篇部落格中所使用的註解字元和參考文獻目錄可以在基於深度學習的推薦系統（一）Overview中找到。我們把這些工作分為如下幾部分：傳統推薦演算法的神經網路擴充套件許多現有的推薦模型

【深度學習】線性迴歸（二）小批量隨機梯度下降及其python實現

文章目錄概述小批量隨機梯度下降解析解和數值解小批量隨機梯度下降 python實現需要的先驗知識程式碼和實驗概述本文

深度學習之PyTorch實戰（1）——基礎學習及搭建環境

　　最近在學習PyTorch框架，買了一本《深度學習之PyTorch實戰計算機視覺》，從學習開始，小編會整理學習筆記，並部落格記錄，希望自己好好學完這本書，最後能熟練應用此框架。　　PyTorch是美國網際網路巨頭Facebook在深度學習框架Torch的基礎上使用Python重寫的一個全新的深度學習框架，

深度學習之PyTorch實戰（2）——神經網路模型搭建和引數優化

　　上一篇部落格先搭建了基礎環境，並熟悉了基礎知識，本節基於此，再進行深一步的學習。　　接下來看看如何基於PyTorch深度學習框架用簡單快捷的方式搭建出複雜的神經網路模型，同時讓模型引數的優化方法趨於高效。如同使用PyTorch中的自動梯度方法一樣，在搭建複雜的神經網路模型的時候，我們也可以使用PyTor

java深度學習框架Deeplearning4j實戰（一）BP神經網路分類器

1、Deeplearning4j 深度學習，人工智慧今天已經成了IT界最流行的詞，而tensorflow,phython又是研究深度學習神經網路的熱門工具。tensorflow是google的出品，而phython又以簡練的語法，獨特的程式碼結構和語言特性為眾多資料科學家和

深度學習論文隨記（二）---VGGNet模型解讀-2014年（Very Deep Convolutional Networks for Large-Scale Image Recognition）

深度學習論文隨記（二）---VGGNet模型解讀 Very Deep Convolutional Networks forLarge-Scale Image Recognition Author: K Simonyan ， A Zisserman Year: 2014

深度學習Deeplearning4j 入門實戰（5）：基於多層感知機的Mnist壓縮以及在Spark實現

在上一篇部落格中，我們用基於RBM的的Deep AutoEncoder對Mnist資料集進行壓縮，應該說取得了不錯的效果。這裡，我們將神經網路這塊替換成傳統的全連線的前饋神經網路對Mnist資料集進行壓縮，看看兩者的效果有什麼異同。整個程式碼依然是利用Deeplearnin

深度學習與TensorFlow實戰（一）深度學習基本概述

傳統的機器學習演算法例如SVM、Boosting、最大熵、LR都屬於淺層的機器學習模型，這些模型只有一層隱藏節點，或者沒有隱藏節點（LR），其侷限在於有限樣本和計算單單元對複雜函式的表示能力有限，泛化能力的侷限性也較大。深度學習可以通過學習深層非線性網路結構，實

分散式事務實戰（二）--可靠訊息的最終一致性方案（訊息的一致性問題）

前言訊息傳送一致性問題：在分散式部署環境下，通過網路進行通訊，就會有資料傳世的不確定性，也就是CAP中的P【會出現分割槽容錯性的問題】。主動方傳送訊息到訊息中介軟體以及訊息中介軟體到被動方應用題都會出現網路的問題；如何保證一致性問題

TensorFlow 實戰（二）—— tf train（優化演算法）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

TensorFlow 實戰（二）—— tf train（優化算法）

ise repr 自定義 optimizer 基類 word blank view rain Training | TensorFlow tf 下以大寫字母開頭的含義為名詞的一般表示一個類（class） 1. 優化器（optimizer）優化器的基類（Optimiz

深度學習入門實戰（二）-用TensorFlow訓練線性迴歸

TensorFlow是谷歌爸爸出的一個開源機器學習框架，目前已被廣泛應用，谷歌爸爸出品即使效能不是最強的（其實效能也不錯），但絕對是用起來最方便的，畢竟谷歌有Jeff Dean坐鎮，這波穩。 0x01 TensorFlow安裝官方有一個Mac上TensorFlow

深度學習入門實戰（二）：用TensorFlow訓練線性迴歸

0x00 概要 TensorFlow是谷歌爸爸出的一個開源機器學習框架，目前已被廣泛應用，谷歌爸爸出品即使效能不是最強的（其實效能也不錯），但絕對是用起來最方便的，畢竟谷歌有Jeff Dean坐鎮，這波穩。 0x01 TensorFlow安裝官方有一個Mac上Te

20180813視頻筆記深度學習基礎上篇（1）之必備基礎知識點深度學習基礎上篇（2）神經網絡模型視頻筆記：深度學習基礎上篇（3）神經網絡案例實戰和深度學習基礎下篇

計算概念人臉識別大量 png 技巧表現 lex github 深度學習基礎上篇（3）神經網絡案例實戰 https://www.bilibili.com/video/av27935126/?p=1 第一課:開發環境的配置 Anaconda的安裝庫的安裝 Windo

機器學習實戰（二）決策樹DT（Decision Tree、ID3演算法）

目錄 0. 前言 1. 資訊增益（ID3） 2. 決策樹（Decision Tree） 3. 實戰案例 3.1. 隱形眼鏡案例 3.2. 儲存決策樹 3.3. 決策樹畫圖表示學習完機器學習實戰的決策樹，簡單的做

深度學習分散式訓練實戰（二）——TF

TF的分散式實現方式

引數非同步更新的分散式訓練

引數同步更新的分散式訓練

相關推薦