Cuda Core，SM，SP等等傻傻分不清？

阿新 • • 發佈：2019-01-15

背景

在深度學習大熱的年代，平行計算也跟著火熱了起來。深度學習變為可能的一個重要原因就是算力的提升。作為平行計算平臺的一種，GPU及其架構本身概念是非常多的。下面就進行一個概念闡述，以供參考。

GPU：視訊記憶體+計算單元

GPU從大的方面來講，就是由視訊記憶體和計算單元組成：

視訊記憶體（Global Memory）：視訊記憶體是在GPU板卡上的DRAM，類似於CPU的記憶體，就是那堆DDR啊，GDDR5啊之類的。特點是容量大（可達16GB），速度慢，CPU和GPU都可以訪問。

計算單元（Streaming Multiprocessor）：執行計算的。每一個SM都有自己的控制單元（Control Unit），暫存器（Register），快取（Cache），指令流水線（execution pipelines）。

我們可以看一下圖：
這裡寫圖片描述

所以其實Global Memory的真身就是那個記憶體顆粒。
來看下GPU裡邊的東西，是時候對密集恐懼症患者放出大招了：

這個是英偉達PASCAL架構的GP100 GPU的架構。由非常多的Streaming Multiprocesser組成的（裡邊的各種外設先不說了）。下面我們看一下Streaming Multiprocessor的內容。

Streaming Multiprocessor (SM)

下面這個圖是SM：
這裡寫圖片描述
在GP100裡，每一個SM有兩個SM Processing Block（SMP），裡邊的綠色的就是CUDA Core，CUDA core也叫Streaming Processor（SP），這倆是一個意思。每一個SM有自己的指令快取，L1快取，共享記憶體。而每一個SMP有自己的Warp Scheduler、Register File等。要注意的是CUDA Core是Single Precision的，也就是計算float單精度的。雙精度Double Precision是那個黃色的模組。所以一個SM裡邊由32個DP Unit，由64個CUDA Core，所以單精度雙精度單元數量比是2:1。LD/ST 是load store unit，用來記憶體操作的。SFU是Special function unit，用來做cuda的intrinsic function的，類似於__cos()這種。

CUDA Core

下面這個圖是CUDA Core的結構：
這裡寫圖片描述
包括控制單元Dispatch Port、Operand Collector，以及浮點計算單元FP Unit、整數計算單元Int Unit，另外還包括計算結果佇列。當然還有Compare、Logic、Branch等。相當於微型CPU。

GPU記憶體架構

貼一張圖：
這裡寫圖片描述
越靠近SM的記憶體就越快。

L1 Cache：Pascal架構上，L1 Cache和Texture已經合為一體（Unified L1/Texture Cache），作為一個連續快取供給warp使用。

L2 Cache：用來做Global Memory的快取，容量大，給整個GPU使用。

關於CUDA方面的一些參考文獻

我發現Nvidia的文獻非常分散，下面列舉一些常用的。btw，PASCAL啊，VOLTA都是英偉達GPU架構代號。

Cuda Core，SM，SP等等傻傻分不清？

背景

GPU：視訊記憶體+計算單元

Streaming Multiprocessor (SM)

CUDA Core

GPU記憶體架構

關於CUDA方面的一些參考文獻

Cuda Core，SM，SP等等傻傻分不清？

CUDA程式設計——GPU架構，由sp，sm，thread，block，grid，warp說起

JavaScript陣列之傻傻分不清系列（split，splice，slice）

指標陣列，陣列指標傻傻分不清

RCurl中這麼多get函式，是不是一直傻傻分不清！！！

過濾器和攔截器 6個區別，別再傻傻分不清了

Linux中su和su -區別，別再傻傻分不清

Web前端後端傻傻分不清,

NPM install -save 和 -save-dev 傻傻分不清

python接口自動化13-data和json參數傻傻分不清

[web前端] npm install -save 和 -save-dev 傻傻分不清

神經網路訓練中,傻傻分不清Epoch、Batch Size和迭代

Post,Get介面傻傻分不清？

[隨手記]NPM install -save 和 -save-dev 傻傻分不清

[轉自有道]十六種英語時態傻傻分不清？一篇文章告訴你它們的所有用法

傻傻分不清的javascript執行機制

超畫素、語義分割、例項分割、全景分割傻傻分不清？

C++ 全域性變數靜態全域性變數傻傻分不清

均值與期望：傻傻分不清？

ERP、進銷存、倉儲管理系統三者傻傻分不清？

Cuda Core，SM，SP等等傻傻分不清？

背景

GPU：視訊記憶體+計算單元

Streaming Multiprocessor (SM)

CUDA Core

GPU記憶體架構

關於CUDA方面的一些參考文獻

相關推薦