GPU平行計算

阿新 • • 發佈：2018-11-21

GPU平行計算包括同步模式和非同步模式：

非同步模式：

這裡寫圖片描述

同步模式：
這裡寫圖片描述

非同步模式的特點是速度快，不用等待其他GPU計算完畢再更新，但是更新的不確定性可能導致到達不了全域性最優。

同步模式需要等到所有GPU計算完畢，並計算平均梯度，最後賦值，缺點是需要等待最後一個GPU計算完畢，時間較慢。

實踐中通常視情況使用上述兩種方式。

例項

from datetime import datetime
import os
import time

import tensorflow as tf

BATCH_SIZE = 128
LEARNING_RATE_BASE = 0.1 

LEARNING_RATE_DECAY = 0.99
REGULARIZATION_RATE = 0.0001
TRAINING_STEPS = 1000
MOVING_AVERAGE_DECAY = 0.99
N_GPU = 1

MODEL_SAVE_PATH = 'logs_and_models/'
MODEL_NAME = 'model.ckpt'
DATA_PATH = './output.tfrecords'

INPUT_NODE = 784
OUTPUT_NODE = 10
LAYER1_NODE = 500

#獲取權重張量，並將L2損失加入損失集合中
def get_weight_variable(shape, regularizer) 
:
    weights = tf.get_variable("weights", shape, initializer=tf.truncated_normal_initializer(stddev=0.1))
    if regularizer != None: tf.add_to_collection('losses', regularizer(weights))
    return weights

#實現兩層的全連線神經網路
def inference(input_tensor, regularizer):
    with tf.variable_scope('layer1'):

        weights = get_weight_variable([INPUT_NODE, LAYER1_NODE], regularizer)
        biases = tf.get_variable("biases" 
, [LAYER1_NODE], initializer=tf.constant_initializer(0.0))
        layer1 = tf.nn.relu(tf.matmul(input_tensor, weights) + biases)

    with tf.variable_scope('layer2'):
        weights = get_weight_variable([LAYER1_NODE, OUTPUT_NODE], regularizer)
        biases = tf.get_variable("biases", [OUTPUT_NODE], initializer=tf.constant_initializer(0.0))
        layer2 = tf.matmul(layer1, weights) + biases

    return layer2

#通過DataSet的方式獲取輸入
def get_input():
    dataset = tf.data.TFRecordDataset(DATA_PATH)

    def parser(record):
        features = tf.parse_single_example(
            record,
            features={
                'image_raw':tf.FixedLenFeature([],tf.string),
                'pixels':tf.FixedLenFeature([],tf.int64),
                'label':tf.FixedLenFeature([],tf.int64)
            }
        )

        decode_image = tf.decode_raw(features['image_raw'],tf.uint8)
        reshape_image = tf.reshape(decode_image,[784])
        retype_image = tf.cast(reshape_image,tf.float32)
        label = tf.cast(features['label'],tf.int32)

        return retype_image,label

    dataset = dataset.map(parser).shuffle(buffer_size=10000).repeat(100).batch(BATCH_SIZE)
    iterator = dataset.make_one_shot_iterator()

    features,labels = iterator.get_next()

    return features,labels

#獲取計算前向傳播總的損失
def get_loss(x,y_,regularizer,scope):
    with tf.variable_scope(scope,reuse=tf.AUTO_REUSE):
        y = inference(x,regularizer)

    cross_entropy = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y,labels=y_))
    regularization_loss = tf.add_n(tf.get_collection('losses'))

    loss = cross_entropy + regularization_loss

    return loss

#獲取所有張量的平均梯度
def average_gradients(tower_grads):
    #tower_grads的格式[[('var1',1.0),('var2',2.0)],[('var1',2.0),('var2',1.0)]]
    average_grads = []
    #*tower_grads:[('var1',1.0),('var2',2.0)],[('var1',2.0),('var2',1.0)]
    #zip(*tower_grads):[[('var1',1.0),('var1',2.0)],[('var2',2.0),('var2',1.0)]]
    for grad_and_vars in zip(*tower_grads):
        grads = []
        for g,_ in grad_and_vars:
            expended_g = tf.expand_dims(g,0)
            grads.append(expended_g)
        grad = tf.concat(grads,0)
        grad = tf.reduce_mean(grad,0)

        v = grad_and_vars[0][1]
        grad_and_var = (grad,v)
        #average_grads:[('var1',1.5),('var2',1.5)]
        average_grads.append(grad_and_var)

    return average_grads

def main(_):
    #將前向傳播和反向傳播放在GPU中，其他操作放在CPU中
    with tf.Graph().as_default(),tf.device('/cpu:0'):
        x,y_ = get_input()
        print(x)

        regularizer = tf.contrib.layers.l2_regularizer(REGULARIZATION_RATE)

        global_step = tf.get_variable('global_step',[],initializer=tf.constant_initializer(0),trainable=False)
        learning_rate = tf.train.exponential_decay(
            LEARNING_RATE_BASE,
            global_step,
            60000/BATCH_SIZE,
            LEARNING_RATE_DECAY,
            staircase=True
        )

        opt = tf.train.GradientDescentOptimizer(learning_rate)

        tower_grads = []

        #將相同的操作放在不同的GPU上
        #opt的compute_gradients和apply_graditents根據自己的需求計算並更新梯度
        for i in range(N_GPU):
            with tf.device('/gpu:%d'%i):
                with tf.variable_scope('GPU_%d'%i) as scope:
                    cur_loss = get_loss(x,y_,regularizer,scope)
                    grads = opt.compute_gradients(cur_loss)
                    tower_grads.append(grads)

        #獲取平均梯度
        grads = average_gradients(tower_grads)
        for grad,var in grads:
            if grad is not None:
                tf.summary.histogram('gradients_on_average/%s'%var.op.name,grad)

        #更新張量
        apply_gradient_op = opt.apply_gradients(grads,global_step)
        for var in tf.trainable_variables():
            tf.summary.histogram(var.op.name,var)

        ema = tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY,global_step)
        ema_op = ema.apply(tf.trainable_variables()+tf.moving_average_variables())

        train_op = tf.group(apply_gradient_op,ema_op)

        saver = tf.train.Saver()
        summary_op = tf.summary.merge_all()

        with tf.Session(config=tf.ConfigProto(allow_soft_placement=True,log_device_placement=True)) as sess:
            sess.run(tf.global_variables_initializer())
            summary_writer = tf.summary.FileWriter(MODEL_SAVE_PATH,sess.graph)

            for step in range(TRAINING_STEPS):
                start_time = time.time()
                _,loss_value = sess.run([train_op,cur_loss])
                duration = time.time() - start_time

                if step != 0 and step % 10 == 0:
                    num_examples_per_step = BATCH_SIZE * N_GPU

                    examples_per_sec = num_examples_per_step / duration

                    sec_per_batch = duration / N_GPU

                    print('{}: step {},loss={:.2f}({:.1f} example/sec;{:.3f} sec/batch)'.format(
                        datetime.now(),step,loss_value,examples_per_sec,sec_per_batch
                    ))

                    summary = sess.run(summary_op)
                    summary_writer.add_summary(summary,step)

                if step % 1000 == 0 or (step+1) == TRAINING_STEPS:
                    checkpoint_path = os.path.join(MODEL_SAVE_PATH,MODEL_NAME)
                    saver.save(sess,checkpoint_path,global_step=step)

if __name__ == '__main__':
    tf.app.run()

GPU平行計算

GPU平行計算包括同步模式和非同步模式：非同步模式：同步模式：非同步模式的特點是速度快，不用等待其他GPU計算完畢再更新，但是更新的不確定性可能導致到達不了全域性最優。同步模式需要等到所有GPU計算完畢，並計算平均梯度，最後賦值，缺點是需要等待最後一個GPU

【平行計算-CUDA開發】淺談GPU平行計算新趨勢

　隨著GPU的可程式設計性不斷增強，GPU的應用能力已經遠遠超出了圖形渲染任務，利用GPU完成通用計算的研究逐漸活躍起來，將GPU用於圖形渲染以外領域的計算成為GPGPU(General Purpose computing on graphics proces

GPU平行計算入門1——背景知識

專有名詞： GPGPU 通用圖形處理器（英語：General-purpose computing on graphics processing units，簡稱GPGPU或GP²U），利用處理圖形任務的圖形處理器來計算原本由中央處理器處理的通用計算任務，這些

課程總結 -- CPU／GPU平行計算基礎（CPU篇）

上學期選修了Prof. Tolga Soyata的“GPU Parallel Programming using C/C++”課程。該課程主要分兩部分：前半部分通過講解CPU並行程式來介紹平行計算的原理和思路；後半部分講解如何用CUDA在GPU上進行平行計算。本

利用GPU平行計算來加速簡單積分過程的實驗

由於CPU的摩爾定律已經不再適用，目前加速程式的最佳選擇就是通過GPU並行。經過幾天的摸索後，完成了這個利用GPU加速積分演算法的小實驗。數值積分中最常用的方法之一就是辛普森積分法，首先我們寫出一段三階辛普森積分的小程式： double Simpson_integ (i

CPU與GPU平行計算聯絡與區別

最近在做利用GPU實現並行渲染的工作，前天同學問我CPU和GPU在多執行緒和平行計算方面的區別具體是什麼，雖然做了幾個月這方面的工作，但我一下子答卻不知道從何答起，因此在這裡做一下整理。一、CPU和GPU的區別 CPU（(Central Processing Uni

平行計算-CUDA開發：淺談GPU平行計算新趨勢

前幾天偶然之間與同事談論到ROM，RAM,FLASH一些知識，而突然之間當我們去說這些英文單詞的

一起做實驗 | 多GPU平行計算訓練深度神經網路

科技你好關注我們·成為科技潮人2018年2月25日，平昌東奧會閉幕式上，備受矚目的“北京八分鐘”

89、tensorflow使用GPU平行計算

''' Created on May 25, 2017 @author: p0079482 ''' # 分散式深度學習模型訓練模式 # 在一臺機器的多個GPU上並行訓練深度學習模型 from datetime import datetime import os impor

C++AMP 遇見C++ AMP 在GPU上做平行計算

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

GPU】基於Python的GPU加速平行計算 -- pyCUDA

Python實現的CUDA – pyCUDA Nvidia的CUDA 架構為我們提供了一種便捷的方式來直接操縱GPU 並進行程式設計，但是基於 C語言的CUDA實現較為複雜，開發週期較長。而pyth

【計算機視覺】【平行計算與CUDA開發】GPU硬解碼---CUVID

問題描述：專案中，需要對高清監控視訊分析處理，經測試，其解碼過程所佔CPU資源較多，導致整個系統處理效率不高，解碼成為系統的瓶頸。解決思路：利用GPU解碼高清視訊，降低解碼所佔用CPU資源，加速解碼過程。一、OpenCV中的硬解碼 OpenCV2.4.6中，

Caffe支援多GPU分散式計算

Caffe允許多GPU間平行計算，多GPU模式工作模式為“不共享資料，卻共享網路”。當目標機器GPU數量大於1時，Caffe將允許多個solver存在，且應用到不同的GPU上去。 vector<int> gpus; get_gpus(&gpus

MATLAB上的GPU加速計算——學習筆記 (2014-12-22 04:44:05)

轉自：http://blog.sina.com.cn/s/blog_6f062c360102v9ic.html MATLAB可謂工程計算中的神器，一方面它自帶豐富的函式庫，另一方面它所有的資料都是內建的矩陣型別，最後畫圖也方便，因此解決一些小規模的計算問題如果對效能要求不高的話

CUDA實現矩陣相加的平行計算

（一）目的熟悉基本的CUDA程式架構以及如何呼叫相應的API進行CUDA程式設計（二）內容完成矩陣相加的並行程式的實現（不用share memory實現）要求：實現2個矩陣（32*32）的相加，M矩陣的初始值全為2，N矩陣的初始值全為5。同時用C

MATLAB上的GPU加速計算

【時間】2018.10.12 【題目】MATLAB上的GPU加速計算概述怎樣在MATLAB上做GPU計算呢?主要分為三個步驟：資料的初始化、對GPU資料進行操作、把GPU上的資料回傳給CPU 一、資料的初始化首先要進行資料的初始化。有兩種

opencv 平行計算函式 parallel_for_的使用

opencv 平行計算函式 parallel_for_ 前面的話在使用opencv的過程中，對圖片的處理計算量還是很大的，所以在實施執行的程式中如何高效的計算會節省很多時間。現有的方法有很多，如OpenMp,TBB,OpenCL,當然還有Nvidia的CUDA。但是OpenMP在wi

利用CountDownLatch實現平行計算

import java.util.concurrent.CountDownLatch; /** * @Author pipi * @Date 2018/10/15 13:56 **/ public class ParallelComputing { private int[] nums;

平行計算框架

概念框架與引擎批處理框架流處理框架混合處理框架 MapReduce Hadoop 基本處理過程優勢和侷限

演算法與平行計算常規

利用平行計算機實現軟體和硬體上的並行演算法的主要步驟和層次第5層是指應用層，在這一層裡描述的是需要平行計算平臺實現的應用和問題。對應所需的輸入和輸出的格式也在這層進行定義。某些輸入和輸出（I/O）介面的描述還需要考慮資料儲存的位置和時間的相關性。這一層的結果會被更

GPU平行計算

相關推薦