Udacity cs344Unit 3-Introduction to Parallel Programming筆記（超詳細，CUDA，並行，GPU）

阿新 • • 發佈：2019-01-04

1.課程目標

如何分析GPU演算法的速度和效率（speed and efficiency）

三個新的基本演算法：歸約，掃描和直方圖（reduce，scan and histogram）

3.再看之前講的例子

考慮兩件事

介紹幾個概念

a.步驟（step）：指的是單人！完成某特定計算（比如挖洞）所需時間

b.工作總量（total amount of work）：所有參與員工完成計算量的總值

也就是，人數 * 步數 = 工作總量

4.談論演算法時，將討論兩個成本

a.step complexity（步驟複雜度）：一共分成幾個步驟得到了最終結果，那個步驟數量

b.work complexity（工作複雜度）：一共進行了多少次計算？

我們會用step complexity 或者work complexity來衡量一個演算法，而這兩個指標通常與input的大小是有關聯的

從數學定義開始

有兩個輸入（一個數組和一個運算子）運算子要具有兩個性質：二元性和可結合性

先看序列的歸約（每一個操作都依賴前一個操作）

操作次數為4次，共計4 steps

這意味著工作複雜度（與節點數目一致）和步驟複雜度（操作總次數）都是和input成正比的

7.並行歸約（就是想辦法給他湊成可以一同運算的，互相不依賴的——改變運算次序）結合性保證了次序改變，結果不受影響

如果只有p個處理器，需要多少步，才能處理n個輸入

8.試著編寫一下這個程式碼

舉一個現實中用到scan的例子：收支平衡（計算餘額）

你輸入一個，我得一個結果

9.數學描述

介紹一個概念：某個運算子的標識元素（identify element）：比如“+”的identify element 是0

10.序列的for迴圈，n是幾就進行了多少次操作，就是多少個步驟，並行怎麼計算？

a.我們怎麼計算掃描和並行（的步驟和操作次數）

b.我們怎麼能儘量降低工作和步驟複雜度？

在這兩個小問題之前

先來看一個大問題：

在並行有這麼多種操作的前提下，我們為啥偏偏先關注掃描的並行化？

當每次只能進行一次計算的時候，是沒辦法並行的（都要依賴前面一次的結果）

但是像這類的計算，通常可以轉化成掃描的形式

當可以用掃描的方式來刻畫計算的時候，就有用啦！

因為：我們可以使掃描並行化！並且在GPU上飛快執行！

我們要做的是：找到能轉化成scan的運算模型！把問題從不適合GPU的轉化成適合GPU的

11.當找到模型後，怎麼實現掃描呢？

有兩種方法

a.不包含掃描（exclusive scan）：計算結果中不包含當前元素

b.包含掃描（include scan）

把包含掃描轉化成不包含

12.測驗：scan的複雜度

步驟複雜度：就看最複雜的那個需要多少步驟就行了

工作複雜度：每一次運算都加起來的總和【0+1+2+...+（n-1）】

由於工作複雜度太高，所以聰明的人們又想出了兩種演算法！

12.Hill + Steele VS Blelloch

先看步驟複雜度，是logn（一般採用了分治思想的，複雜度都會是logn，因為砍掉了一些資料沒有切實的計算，而這裡的底數也不必在意，就像是若複雜度為n的平方，也不必在意前面的係數一樣）

工作複雜度：是這個矩形的面積，用長n乘上寬logn

b. 三角矩形法（想著傳手畫圖）【這個很像郭老師講的歸約和回溯啊，第一階段進行歸約，得出最後想要的結果，第二階段再去找湊成這個結果的路徑是什麼】

測試 max操作

看複雜度

工作量是不是也是2倍的？比logn要小嘛？

13.給你一點直覺，在兩個演算法分別在工作複雜度和步驟複雜度上各佔優勢時候，要怎麼選擇

a.工作多於處理器：可以犧牲步驟，換取工作量

b.處理器多於工作：願意犧牲工作量來換取更少的步驟（選擇步驟複雜度低的）

在並行演算法裡有很多的沙漏模型（比如剛剛的三角矩形演算法就是這樣）：那麼我們可以在不同的階段採用不同的演算法，來保證總體執行通常，效率最高

14.直方圖

（就是統計介於某個段值內的實體個數）

如果我知道我的身高，想知道比我矮的有多少個，就用exclusive scan

15.實現過程

16.程式碼實現

線上性程式中

看並行的為啥會出錯：有兩個執行緒同時執行的風險

所以暴力簡單法不可行

17.看仨有效的法子

a.改成原子操作就可以啦

這種方法在bin（也就是各個段盛放的容器）個數很大是時候，會很好用。因為原子操作會限制並行度的大小

推出b

b.分本地記憶體，再歸約

不需要原子操作

c.先排序再歸約

18最終思想：由於這三種方法（沒有最好，各有利弊），所以把這三個方法分別用於不同的階段就好啦

a.大多數執行緒試圖訪問bin儲存器時候，原子操作不適用，因為會有大量執行緒處於等待之中（bin是直方圖下面的段數）

所以就先分block，因為在共享記憶體裡是不需要進行原子操作的，只有當最後合併時候，才需要進行原子操作

19.

Udacity cs344Unit 3-Introduction to Parallel Programming筆記（超詳細，CUDA，並行，GPU）

1.課程目標如何分析GPU演算法的速度和效率（speed and efficiency）三個新的基本演算法：歸約，掃描和直方圖（reduce，scan and histogram） 2. 3.再看之前講的例子考慮兩件事

Udacity cs344Unit 5-Introduction to Parallel Programming筆記（超詳細，CUDA，並行，GPU）

1.優化的等級 2.應該有一個系統化的優化過程（類似於一個優化的週期，缺少哪一步效果都不好）在真實資料集上跑很重要不要“真空”優化別忘了思考你到底想實現啥和在現實世界中執行收到反饋 3.具體過程 a.分析

Udacity cs344Unit 4-Introduction to Parallel Programming筆記（超詳細，CUDA，並行，GPU）

1.啥是緊密（compact）：這裡的壓縮指的是過濾，filter，過濾出一個子集，也就是隻留我們想要的（比如一把撲克牌裡的方片）（只計算我們關心的物件才更有意義，計算代價較小，需要更少空間） 2. 3.密集運算好一點？為啥第一個稀疏運算要啟動52個

[Java] Introduction to Java Programming 筆記 Chapter 9. 物件和類

如果一個檔案含有兩個類，只有一個類可以為public，public 類和檔名同名，但此檔案編譯後，將生成兩個.class 檔案，一個類對應一個class檔案。匿名物件：建立一個物件，但是並不將其引用賦給變數 new Circle(); // or Sy

STM32學習筆記（超詳細整理144個問題）

1、AHB系統匯流排分為APB1（36MHz）和APB2（72MHz），其中2>1，意思是APB2接高速裝置； 2、Stm32f10x.h相當於reg52.h（裡面有基本的位操作定義），另一個為stm32f10x_conf.h專門控制外圍器件的配置，也就

ElasticSearch學習筆記（超詳細）

文章目錄初識ElasticSearch 什麼是ElasticSearch ElasticSearch特點 ElasticSearch用途 ElasticSearch底層實現 ElasticSearch和Solr的區別 Solr是什麼不同場景時兩個的對比總結 Elastic

2018.09.22 上海大學技術分享 - An Introduction To Go Programming Language

針對 Language 社區相對基礎語法 ref 同學 master tree 老實說筆者學習 Go 的時間並不長，積澱也不深厚，這次因緣巧合，同組的同事以前是上海大學的開源社區推動者之一，同時我們也抱著部分宣傳公司和技術分享的意圖，更進一步的，也是對所學做一個總結，所

CSCI 1300 Introduction to Computer Programming

CSCI 1300作業代做、代寫TA/CA留學生作業、代做C/C++程式作業、C/C++課程設計作業代寫CSCI 1300 Introduction to Computer ProgrammingInstructor: FlemingHomework 9: Choose Project, Meet with

Recurrent Neural Networks Tutorial, Part 1 – Introduction to RNNs學習筆記

介紹-什麼是RNN 1.RNN的主要思想是利用序列資訊。 The idea behind RNNs is to make use of sequential information. In a traditional neural network we assu

《Pro SQL Server Internals, 2nd edition》（pdf已傳至群檔案）的CHAPTER 3 Statistics中的Introduction to SQL Server Statistics（P55~P58）、Statistics and Execution Plans

每次你改變聚簇索引鍵的值時，都會發生兩件事。首先，SQL Server將行移動到聚簇索引頁鏈和資料檔案中的不同位置。其次，它更新聚集索引鍵，行編號。行編號被儲存起來而且要在所有非聚簇索引中更新。對於I / O而言，這花銷可能很昂貴，尤其是在批處理更新的情況下。此外，它可以增加聚簇索引的碎片，並且在行編

Udacity cs344Unit 3-Introduction to Parallel Programming筆記（超詳細，CUDA，並行，GPU）

Udacity cs344Unit 3-Introduction to Parallel Programming筆記（超詳細，CUDA，並行，GPU）

Udacity cs344Unit 5-Introduction to Parallel Programming筆記（超詳細，CUDA，並行，GPU）

Udacity cs344Unit 4-Introduction to Parallel Programming筆記（超詳細，CUDA，並行，GPU）

[Java] Introduction to Java Programming 筆記 Chapter 9. 物件和類

STM32學習筆記（超詳細整理144個問題）

ElasticSearch學習筆記（超詳細）

2018.09.22 上海大學技術分享 - An Introduction To Go Programming Language

CSCI 1300 Introduction to Computer Programming

Recurrent Neural Networks Tutorial, Part 1 – Introduction to RNNs學習筆記

《Pro SQL Server Internals, 2nd edition》（pdf已傳至群檔案）的CHAPTER 3 Statistics中的Introduction to SQL Server Statistics（P55~P58）、Statistics and Execution Plans

Introduction to Java Programming程式設計題5.29

Introduction to Java Programming程式設計題8.13

Introduction to Sound Programming with ALSA

Introduction to Java Programming程式設計題5.32

MTH5001: Introduction to Computer Programming

【2018版】Spring4.3入門視頻課程——筆記（一）

【Swift 3.1】iOS開發筆記（四）

Coursera 程式設計實習 / Practice on Programming 筆記（第一週）

GCC-3.4.6原始碼學習筆記（128）

makedown學習筆記（以後可能會用makedown寫博客）

Udacity cs344Unit 3-Introduction to Parallel Programming筆記（超詳細，CUDA，並行，GPU）

相關推薦