NVIDIA CUDA初級教程視訊 - 學習筆記（一）CPU體系架構概述

阿新 • • 發佈：2018-12-10

一句話：CPU大量用於資料搬運而非數值運算，用流水線和分支提高效率

周斌老師：NVIDIA CUDA初級教程視訊第2集

【計算機組成原理】

Q：什麼是CPU?
A：是執行指令、處理資料的器件，用於完成基本的邏輯和算術指令，現在增加了複雜功能（記憶體介面、外部裝置介面），包含大量電晶體（上百億）

Q：什麼是指令?
A：包括算術、訪存、控制。對於一個編譯好的程式，最優化目標：CPI（每條指令所需時鐘週期：cycles/instruction）× 時鐘週期（seconds/cycle）。這兩個指標彼此並不獨立

桌面應用多為輕量級程序，少量執行緒，有大量分支和互動操作，需要大量的儲存器訪問

，而真正用於數值運算的指令很少（大量用於搬運資料，於是CPU不是計算機，而是是吞吐機、儲存機）

摩爾定律：晶片的整合密度每2年翻一翻，且成本下降一半。但目前矽基晶片達到物理極限（量子效應明顯）

流水線 Pipeline

利用指令級並行，極大的減小時鐘週期，同時增加一些延遲和芯片面積
帶來處理具有依賴關係指令和分支處理的問題
流水線長度（流水線分級）：級數多不一定能帶來效能提升

旁路 Bypassing

（開後門）處理具有依賴關係的指令

停滯 Stalls

分支 Branches

等待判斷條件，要不要執行

分支預測 Branch Prediction

基於過去的分支記錄，猜測下一條指令
現代預測器準確度大於90%。提升效能及能量效率，面積增加，可能會增加延遲（猜也需要時間）

分支斷定 Another option: Predication

不使用分支預測器，用條件語句替換分支（所有分支都做）
在GPU中使用分支斷定

提升 IPC

常規 IPC (instructions/cycle) 受限於 1 instruction / clock
超標量 (Superscalar) – 增加流水線寬度（類似於三頭六臂，為了處理更多的資料）
N倍資源使用，旁路網路N^2，需要更多的暫存器和儲存器頻寬（但三頭六臂吃的飯也多了，需要的床也大了）

指令排程 Scheduling :

指令直接是否依賴

暫存器重新命名 Register Renaming

替換暫存器，讓指令可以並行執行

亂序執行 Out-of-Order(OoO) Execution

重排指令，獲得最大的吞吐率：Fetch → Decode → Rename → Dispatch → Issue → Register-Read → Execute → Memory → Writeback → Commit （調節順序，用更合理的順序做事情）
重排緩衝區Reorder Buffer (ROB)：記錄所有執行中的指令狀態
發射佇列/排程器Issue Queue/Scheduler：選擇下一條執行的指令

快取 Caching

將資料放在儘可能接近的位置（手機放在口袋裡，而不是放包裡）
利用時間臨近性（剛剛使用過的資料很可能會被再使用）和空間臨近性（傾向於使用周圍的臨近的資料）

CPU內部的並行性

指令級並行 Instruction-Level (ILP) extraction ：超標量Superscalar、亂序執行Out-of-order（OoO）
資料級並行 Data-Level Parallelism (DLP) ：向量計算Vectors （資料間沒有相關性，可以同時運算）
執行緒級並行 Thread-Level Parallelism (TLP) ：同步多執行緒Simultaneous Multithreading (SMT) 、多核 Multicore

鎖、一致性、同一性 Locks，Coherence，Consistency

多執行緒讀寫同一塊資料？加鎖（我用完了再把鎖給你，你來用）
誰的資料是正確的 (Coherence)？ 快取一致性協議
什麼樣的資料是正確的 (Consistency)？儲存器同一性模型

現實的困境

能量牆: Power Wall（拿掉散熱器片，晶片煎雞蛋）
儲存器牆：處理器的儲存器頻寬無法滿足處理能力的提升

結論

CPU 為序列程式優化

Pipelines, branch prediction, superscalar, OoO

Reduce execution time with high clock speeds and high utilization

緩慢的記憶體頻寬（儲存器頻寬）將會是大問題
並行處理是方向

NVIDIA CUDA初級教程視訊 - 學習筆記（一）CPU體系架構概述

一句話：CPU大量用於資料搬運而非數值運算，用流水線和分支提高效率周斌老師：NVIDIA CUDA初級教程視訊第2集【計算機組成原理】 Q：什麼是CPU? A：是執行指令、處理資料的器件，用於完成基本的邏輯和算術指令，現在增加了複雜功能（記憶體介面、外部裝置介面），包含大量電晶體（上

C# WPF 基礎教程視訊學習筆記（一）

1.[STAThread()] 代表單執行緒 2.using語句允許程式設計師指定使用資源的物件應當何時釋放資源 3.Border 一般用於裝載面板 Padding 邊框和內部內容中間新增空間 CornerRadius可以使邊框具有一個圓角 4.DockP

Linux視訊學習筆記（一）--系統分割槽

宣告：本系列文章是博主根據 “兄弟連新版Linux視訊教程”做的筆記和視訊截圖，只為學習和教學使用，不適用任何商業用途。 PS：如果對Linux感興趣，建議去看《細說Linux》，沈超老師和李明老師的教學風格我很喜歡：）視訊2.1-VMWare虛擬機器安裝與使用

曹鋒老師《一頭扎進EasyUI視訊教程》學習筆記（1）

介紹了一本書《深入淺出設計模式》，來說明“一頭扎進”這個系列名字的由來。參考資料： 1、Easyui中文示例文件 http://www.java1234.com/easyui.html 說明：

Ubuntu16.04：CUDA學習筆記（一）：GPU背景知識

host：CPU，記憶體 device：GPU，視訊記憶體我是純粹小白，裡面的一些圖是根據我自己的理解畫的，可能並不一定對一，GPU和CPU執行程式的區別（圖片來源：CUDA_C_Programming-Guide）可以看到GPU有跟多的cores，你可以先把cores理

HIVE簡明教程學習筆記（一）——資料庫及表的操作HIVE DDL

1.建立資料庫 create database if not exists aa_db; 2.檢視資料庫定義 describe database aa_db; 3.檢視資料庫列表 show databases; 4.刪除資料庫 drop database if exists testdb casca

Git教程-廖雪峰——學習筆記（一）

按照教程學習了git工具的簡單使用，目前最先進的分散式版本控制系統，無論是從GitHub上學習他人的程式碼，還是儲存自己的程式碼都非常有用。按照教程練習了一遍程式碼，這裡總結一下：一.建立版本庫 1.開啟git工具，用下面的指令可以

Linux視訊學習筆記（五）--許可權管理命令、檔案搜尋命令、幫助命令、使用者管理命令、壓縮解壓命令

宣告：本系列文章是博主根據 “兄弟連新版Linux視訊教程”做的筆記和視訊截圖，只為學習和教學使用，不適用任何商業用途。 PS：文章基於Linux版本CentOS6.9，如果對Linux感興趣，建議去看《細說Linux》，沈超老師和李明老師的教學風格我很喜歡：） 4.

CUDA學習筆記（一）：GPU背景知識

host：CPU，記憶體 device：GPU，視訊記憶體我是純粹小白，裡面的一些圖是根據我自己的理解畫的，可能並不一定對 GPU的背景知識 GPU的每一個core（計算核心）都有兩個計算單元輸

各種音視訊編解碼學習詳解之編解碼學習筆記（一）：基本概念

最近在研究音視訊編解碼這一塊兒，看到@bitbit大神寫的【各種音視訊編解碼學習詳解】這篇文章，非常感謝，佩服的五體投地。奈何大神這邊文章太長，在這裡我把它分解很多小的篇幅，方便閱讀。大神部落格傳送門：https://www.cnblogs.com/skyofbitbit/p/3651270.htm

《崔慶才Python3網路爬蟲開發實戰教程》學習筆記（2）：常用庫函式的安裝與配置

python的一大優勢就是庫函式極其豐富，網路爬蟲工具的開發使用也是藉助於這一優勢來完成的。那麼要想用Python3做網路爬蟲的開發需要那些庫函式的支援呢？與網路爬蟲開發相關的庫大約有6種，分別為：請求庫：requests，selenium，ChromeDrive

UFLDL 教程學習筆記（一）神經網路

UFLDL（Unsupervised Feature Learning and Deep Learning）Tutorial 是由 Stanford 大學的 Andrew Ng 教授及其團隊

《GPU高效能程式設計CUDA實戰》學習筆記（一）

第一天讀這本書，先將封面讓大家看看吧這兩張圖好大啊，不過讀者會更加清晰的看到作者資訊，這樣也不錯。近年來英偉達在CUDA上float運算效能基本上已經超過了cpu，並且gpu（Graphics Procdss Unit）程式設計難度也接近cpu程式設計。NVID

AutoCAD二次開發(.net教程)C#版——學習筆記（一）

最近開始學習AutoCAD（ObjectARX）的二次開發，首先遇到的一個最大問題就是——開發環境的設定問題，CAD的二次開發對開發工具的版本要求很嚴，開發包、CAD版本和開發工具都得對應（在網上看了很多貼了也有人不用對應）。當下C#比較流行的開發工具就是V

張孝祥java視訊學習筆記（十）

GUI/圖形使用者介面 AWT的基礎知識 GUI全稱是圖形使用者介面，分成兩大類：基本元件（java.awt.componnent）不能放置元件和容器(java.awt.container)可以放置按鈕等元件程式的GUI部分由AWT執行緒管理（dispose這個方法是將執

Tensorflow教程學習筆記（一）----將自己的資料集轉換成TFRecord

import tensorflow as tf import numpy as np import os import matplotlib.pyplot as plt import skimage.io as io os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' # %%

python爬蟲學習筆記（一）—— 爬取騰訊視訊影評

前段時間我忽然想起來，以前本科的時候總有一些公眾號，能夠為我們提供成績查詢、課表查詢等服務。我就一直好奇它是怎麼做到的，經過一番學習，原來是運用了爬蟲的原理，自動登陸教務系統爬取的成績等內容。我覺得挺好玩的，於是自己也琢磨了一段時間，今天呢，我為大家分享一個爬蟲

TensorFlow官方教程學習筆記（一）——起步

TensorFlow可以拆成兩個詞：Tensor（張量）和Flow（流），Tensor代表最底層的資料結構，每一個Tensor可以簡易的理解為一個多維陣列，類似於Caffe中的Blob，不過與Blob不同的是，對於一張圖片，Tensor的四個維度分別是[batch, h

cuda 學習筆記（一）

inline int findCudaDevice(int argc, const char **argv) error C2664: 'findCudaDevice' : cannot convert parameter 2 from 'char **' to 'c

Cuda學習筆記（一）——sm流處理器簇對blocks的排程策略

　　由於GPU目前在各行各業的廣泛應用，無論是深度學習、大資料、雲端計算等都離不開GPU的並行加速，前陣子自學了Cuda-c程式設計，希望將來的研究工作能夠用得上。　　Cuda系列總共有4篇，這裡主要用於記錄本人學習過程中的一些問題的思考和總結，及網上彙總摘

NVIDIA CUDA初級教程視訊 - 學習筆記（一）CPU體系架構概述

【計算機組成原理】

相關推薦