CUDA 學習（三）、CUDA硬體概述

阿新 • • 發佈：2019-01-17

一、PC架構

先看一下酷睿架構圖：

PCI-E 是一個有意思的匯流排。與其上一代PCI（外圍裝置互連）匯流排不同，PCI-E提供一個確定的頻寬。在原先的PCI系統中，每個裝置都可以使用匯流排的全部頻寬，但一次只能讓一個裝置使用。因此，你增加的PCI卡越多，每個卡能夠獲得的可用頻寬就越少。PCI-E匯流排通過引入PCI-E通道解決了這個問題。這些通過時一些高速的序列鏈路，這些鏈路組合在一起構成了X1，X2，X4，X8或X16鏈路。圖中PCI-E配置提供5GB/S的全雙工匯流排。這意味著，資料的傳入與傳出可用同時並行享有同樣的速度。也就是說，我們在以5GB/S的速度向GPU卡傳資料的同時，還能夠以5GB/S的速度從GPU卡接收資料。但是，這並不是意味著如果不接收資料，我們就可以10GB/S的速度向GPU卡傳送資料（即頻寬是不可以累加）。

二、GPU硬體結構

從圖中可以看出，GPU的硬體由以下幾個關鍵模組組成：（1）記憶體（全域性的、常理的、共享的）、（2）流處理器簇（SM）、（3）流處理器（SP）

GPU實際上是一個SM的陣列，每個SM包含N個核（如G80和GT200中有8個核）。一個GPU裝置中包含一個或多個SM,這是處理器具有可擴充套件型的關鍵因素。如果向裝置中增加更多的SM，GPU就可以在同一時刻處理更多的任務，或者對於同一任務，如果有足夠的並行性的話，GPU可以更快的完成它。

每個SM都是由不同數量的一些關鍵部件組成，為了簡單起見，沒有在圖中畫出。最重要的部分是每個SM中若干個SP，圖中顯示的是8個SP,在費米架構中增加至32-48個。在下一代產品中每個SM中SP的數量極有可能繼續增加。

每個SM都需要訪問一個所謂的暫存器檔案（register File），這是一組能夠以與SP相同速度工作的儲存單元，所以訪問這組暫存器單元幾乎不需要任何等待時間。不同型號的GPU中，暫存器檔案的大小可能是不同的。它用來儲存SP上執行的執行緒內部活躍的暫存器。另外，還有一個只供每個SM內部訪問的共享記憶體（shared Memory）,這可以用作“程式可控”快取記憶體。與CPU內部的快取記憶體不同，它沒有自動完成資料的硬體邏輯---它完全是由程式設計師控制。

對於紋理記憶體（texture memory）、常理記憶體（constant memory）、全域性記憶體（global memory）每一個SM都分別設定有獨立訪問它們的匯流排。其中，紋理記憶體是針對全域性記憶體的一個特殊檢視，用來儲存插值（interpolation）計算所需的資料，例如，顯示2D或3D影象時需要的查詢表。它擁有基於硬體進行插值得特性。常理記憶體用於儲存那些只讀的資料，所有的GPU卡均對其進行快取。與紋理記憶體一樣，常理記憶體也是全域性記憶體建立的一個檢視。

每個SM還有兩個甚至更多的專用單元（SPU），SPU專門執行諸如高速的24位正弦函式/餘弦函式/指數函式操作等類似的特殊硬體指令。

三、GPU計算能力

CUDA 學習（三）、CUDA硬體概述

CUDA 學習（三）、CUDA硬體概述

CUDA學習（三）之使用GPU進行兩個陣列相加

操作系統學習（三）、分頁機制

操作系統學習（七）、保護機制概述

作業系統學習（七）、保護機制概述

CUDA系列學習（三）GPU設計與結構QA & coding練習

機器學習（三）—線性回歸、邏輯回歸、Softmax回歸的區別

機器學習（三）深度學習的經典論文、程式碼、部落格文章

python學習（三）字典、元組、字串語法基礎與常用操作

web前端學習（三）css學習筆記部分（5）-- CSS動畫--頁面特效、HTML與CSS3簡單頁面效果實例

rabbitmq學習（三）：rabbitmq之扇形交換機、主題交換機

python--基礎學習（三）字串單引號、雙引號、三引號

Redis 學習（三）redis伺服器叢集、客戶端分片

3.Redis 學習（三）redis伺服器叢集、客戶端分片

《MySQL必知必會》學習筆記（三）、MySQL中的資料運算

OpenLayers 學習（三）向量圖層上新增點繪製點、線、多邊形

CUDA 學習（二）

機器學習演算法原理與實踐（三）、卡爾曼濾波器演算法淺析及matlab實戰

Kotlin學習（三）—— 基本型別，包，控制流：if、when、for、while，Break和continue

javascript 面向物件學習（三）——this，bind、apply 和 call

CUDA 學習（三）、CUDA硬體概述

相關推薦