Tensorflow 核心流程剖析 3-- 執行裝置Device的生成和管理

阿新 • • 發佈：2019-02-15

1. 關鍵術語描述

kernel

在神經網路模型中，每個node都定義了自己需要完成的操作，比如要做卷積、矩陣相乘等。而實現這個操作的演算法，我們單獨抽象出來，叫做kernel。可以將kernel看做是一段能夠跑在具體硬體裝置上的演算法程式，所以即使同樣的2D卷積演算法，我們有基於gpu的Convolution 2D kernel例項、基於cpu的Convolution 2D kernel例項。

device

負責執行kernel的具體硬體裝置抽象。每個device例項，對應系統中一個具體的處理器硬體，比如gpu:0 device, gpu:1 device, cpu:0 device。一般來說，每個device例項同時包括處理器資源、記憶體資源。device的抽象支援硬體裝置提供的並行處理能力。

2. device是什麼

為方便描述，下面我們把在tensorflow裡面執行的神經網路模型都統一稱為graph。

我們知道，tensorflow主要針對的是跨硬體平臺、分散式、併發執行的場景，參與運算的每個硬體資源，我們都抽象為device例項，便於管理。

device的主要職責：

管理處理器資源，為支援device內部的平行計算，進一步將其抽象為thread pool或streams：
- cpu：使用thread pool來管理，thread之間可支援不同程度的平行計算能力
- gpu: 針對nvidia gpu，使用cuda streams來管理，根據不同的gpu型號，可支援不同數量的stream做平行計算
管理記憶體資源：為kernel的執行，分配和釋放記憶體，進一步抽象為Allocator及其各種子類的例項來管理。
- 主機記憶體：
  - cpu kernel 計算時需要的記憶體。
  - gpu kernel的輸出結果如果要放置到主機記憶體中時，gpu kernel也需要申請主機記憶體。
- 視訊記憶體： gpu kernel 計算時需要的記憶體。

3. device的種類及應用場景

由於device要抽象的裝置種類較多，我們主要描述一下本地執行的cpu device、gpu device例項型別。先用一個UML圖來表示一下各種device抽象類的關係：

devices and classes UML

可以看到，cpu device例項使用的類是GPUCompatibleCPUDevice，主要是在ThreadPoolDevice的基礎上，增加了gpu<-> cpu之間記憶體傳輸資料的優化措施。

gpu device例項使用的類是 GPUDevice 。

4. device例項的關鍵資料結構

我們以常用的cpu device，gpu device為例，用下圖描述一下device例項的關鍵資料結構：

device key data members

可以看到每個device例項內部都具備並行處理的能力：

GPUCompatibleCPUDevice例項
- 將 cpu 的計算資源抽象為thread pool，以支援多thread之間的併發執行；
- 將主機記憶體抽象為 CPUAllocator 例項來進行管理，為cpu kernel、gpu kernel提供主機記憶體的申請、釋放功能；
GPUDevice例項
- 將gpu的計算資源抽象為streams，由於目前只支援NVIDIA的gpu，所以這裡我們可以看作抽象為cuda streams，多個cuda streams之間的計算可以併發處理；
- 通過GPUBFCAllocator例項來管理視訊記憶體，為gpu kernel提供視訊記憶體的申請、釋放功能。

5. device例項的建立

系統中可用的device例項，由session發起建立，歸屬於session例項。

device的建立，使用Factory 設計模式，session會呼叫所有註冊的device factory，逐一產出 符合條件的device例項。

以DirectSession例項建立gpu device、cpu device為例，具體流程如下圖所示。
為方便結合程式碼閱讀，已包含主要的類、函式呼叫路徑：

device create

可以看到，最終產出 的gpu device、cpu device例項，都會儲存至DirectSession例項的 devices_ 表中，由DirectSession例項進行分配和使用。

6. 在graph執行階段device的使用

在graph的建立階段，session為每個node分配一個具體的device例項，同時為每個node建立一個具體的kernel例項，這個kernel例項將會執行在分配的device例項上。(參見Tensorflow 核心流程剖析 2 – 神經網路模型的建立和分割)

接下來，在graph的執行階段，session會依次處理graph中的node，排程node所分配的device例項，去執行node的kernel例項。

每個kernel 在執行時，會向其分配的device，申請需要的計算資源、記憶體資源等，完成具體的運算操作。

上述流程如下圖所示。
為方便結合程式碼閱讀，已包含主要的類、函式呼叫路徑：

device usage

Tensorflow 核心流程剖析 3-- 執行裝置Device的生成和管理

1. 關鍵術語描述 kernel 在神經網路模型中，每個node都定義了自己需要完成的操作，比如要做卷積、矩陣相乘等。而實現這個操作的演算法，我們單獨抽象出來，叫做kernel。可以將kernel看做是一段能夠跑在具體硬體裝置上的演算法程式

TensorFlow 核心流程剖析 -- 2 神經網路模型的構建、分割和優化

與本章節相關的一些關鍵術語 graph 我們知道，在tensorflow裡，模型是以compuatation graph的形式存在，作為訓練和inference的載體。下面簡稱graph。 graph的組成： node：即定義一個具體的計

池與執行緒池技術點目錄 1. 執行緒池作用：提升效能 1 2. 使用流程 1 3. 執行緒與執行緒池的監控 jvisual 1 4. 執行緒常用方法 2 5. 執行緒池相關概念 2 5.1. 佇列

池與執行緒池技術點目錄 1. 執行緒池作用：提升效能 1 2. 使用流程 1 3. 執行緒與執行緒池的監控 jvisual 1 4. 執行緒常用方法 2 5. 執行緒池相關概念 2 5.1. 佇列 &n

【Linux 1.0核心原始碼剖析】執行程式——exec.c

父程序 fork的子程序的目的自然不是建立一個幾乎與自己一模一樣的程序。而是通過子程序呼叫 exec 函式簇去執行另外一個程式。exec() 系統呼叫必須定位該執行檔案的二進位制映像，載入並執行它。 exec() 的Linux實現支援不同的二進位制格式，這是通過 linux

spark核心架構剖析--Application執行過程

以standalone模式（基於spark的Master—Worker）解析spark核心架構，先羅列spark核心中的幾個概念再詳解程式的執行流程。一、常用名詞1、Application2、spark-submit3、Driver4、SparkContext5、Master

Docker02：Docker核心技術探索(3)網絡命名空間和網絡隔離

net running all pack 網卡 roo span 命名空間 collision 在Docker中可以為Docker容器創建與原始宿主系統以及其它容器中的虛擬系統之間相互隔離的虛擬網絡環境。 Docker的網絡分為以下幾種模式： (1)bridge模式。這將配

Linux核心移植 part2：uboot裝置樹--生成過程分析

本文從裝置樹軟體控制相關程式碼進行分析，進而理清裝置樹相關的知識。先放一個裝置樹在記憶體中的結構圖：分析來源為$(tree)/lib/fdtdec_test.c 一、資料結構 1.1 檔案頭每個dtb都包含如下結構的檔案頭，用來表示裝

【Tensorflow】Tensorflow的圖、會話、裝置、變數、核心

前言基礎知識，前面我們介紹到，Tensorflow的資料流圖是由節點和邊組成的有向無環圖，此外，還涉及一些其他概念，如圖、會話、裝置、變數、核心等。圖（Graph） import tensorflow as tf # 建立圖 # 建立一個常量運算操作，產生一個1 x 2

Spring Security 案例實現和執行流程剖析

線上演示演示地址：http://139.196.87.48:9002/kitty 使用者名稱：admin 密碼：admin Spring Security Spring Security 是 Spring 社群的一個頂級專案，也是 Spring Boot 官方推薦使用的安全框架。除了常規的認證（Au

Spring Security Oauth2 單點登入案例實現和執行流程剖析

線上演示演示地址：http://139.196.87.48:9002/kitty 使用者名稱：admin 密碼：admin Spring Security Oauth2 OAuth是一個關於授權的開放網路標準，在全世界得到的廣泛的應用，目前是2.0的版本。OAuth2在“客戶端”與“服務提供商”之間

linux核心device生成流程

一、前言在驅動模型的框架下，裝置驅動的開發主要包含以下兩個步驟：步驟1：分配一個struct device型別的變數，填充必要的資訊後，把它註冊到核心中。步驟2：分配一個struct device_driver型別的變數，填充必要的資訊後，把它註冊到核心中。上述

Linux 3.15核心將啟用非同步執行緒來減少掛起和恢復時間

Phoronix近期報道：Linux 3.15核心版本，預計將於2014年中期公佈，該版本“將有大量的ACPI和電源管理的更新”，並允許基於Linux的計算機掛起和恢復速度更快。 Linux的最新的穩定版本是3.13.6版本，Linux 3.14即將釋出，同時Linux 3.15的合併視窗即將開啟。

關於Android Studio 3 執行應用時提示 “Instant Run requires that the platform corresponding to your target device (Android 7.0 (Nougat)) is installed.” 的說明

　　執行App後，Android Studio顯示如圖1-1介面：圖1-1 　　這是因為你連線的外部裝置（比如Android手機或AVD）的SDK版本在你的電腦上沒有安裝對應的版本，所以解決辦法為點選“Install and Continue”，安裝缺失版本安裝對應版本的SDK即可。　　安裝後，

Tensorflow 核心流程剖析 3-- 執行裝置Device的生成和管理

1. 關鍵術語描述

2. device是什麼

3. device的種類及應用場景

4. device例項的關鍵資料結構

5. device例項的建立

6. 在graph執行階段device的使用

Tensorflow 核心流程剖析 3-- 執行裝置Device的生成和管理

TensorFlow 核心流程剖析 -- 2 神經網路模型的構建、分割和優化

池與執行緒池技術點目錄 1. 執行緒池作用：提升效能 1 2. 使用流程 1 3. 執行緒與執行緒池的監控 jvisual 1 4. 執行緒常用方法 2 5. 執行緒池相關概念 2 5.1. 佇列

【Linux 1.0核心原始碼剖析】執行程式——exec.c

spark核心架構剖析--Application執行過程

Docker02：Docker核心技術探索(3)網絡命名空間和網絡隔離

Linux核心移植 part2：uboot裝置樹--生成過程分析

【Tensorflow】Tensorflow的圖、會話、裝置、變數、核心

Spring Security 案例實現和執行流程剖析

Spring Security Oauth2 單點登入案例實現和執行流程剖析

linux核心device生成流程

Linux 3.15核心將啟用非同步執行緒來減少掛起和恢復時間

關於Android Studio 3 執行應用時提示 “Instant Run requires that the platform corresponding to your target device (Android 7.0 (Nougat)) is installed.” 的說明

Tensorflow原始碼解析3 -- TensorFlow核心物件 - Graph

Cocos Creator 資源載入流程剖析【五】——從編輯器到執行時

2019年面試必備：最新Java核心知識點（3）—JAVA多執行緒併發（上）

【一起學原始碼-微服務】Hystrix 原始碼三：Hystrix核心流程：Hystix降級、熔斷等原理剖析

通過遊戲學python 3.6 第一季第三章實例項目猜數字遊戲--核心代碼--猜測次數--隨機函數和屏蔽錯誤代碼--優化代碼及註釋可復制直接使用娛樂可封裝函數

通過遊戲學python 3.6 第一季第九章實例項目猜數字遊戲--核心代碼--猜測次數--隨機函數和屏蔽錯誤代碼--優化代碼及註釋--簡單賬號密碼登陸--賬號的註冊查詢和密碼的找回修改--鎖定賬號--鎖定次數--菜單功能'menufile

線程池處理用戶請求的流程剖析

Tensorflow 核心流程剖析 3-- 執行裝置Device的生成和管理

1. 關鍵術語描述

2. device是什麼

3. device的種類及應用場景

4. device例項的關鍵資料結構

5. device例項的建立

6. 在graph執行階段device的使用

相關推薦