GPU對CNN計算的加速原理到底是怎樣的？

阿新 • • 發佈：2019-01-18

具體到cnn，利用gpu加速主要是在conv（卷積）過程上。conv過程同理可以像以上的向量加法一樣通過cuda實現並行化。具體的方法很多，不過最好的還是利用fft（快速傅立葉變換）進行快速卷積。NVIDIA提供了cufft庫實現fft，複數乘法則可以使用cublas庫裡的對應的level3的cublasCgemm函式。再具體到各大框架是如何使用gpu對cnn進行加速的，目前主流的做法是使用NVIDIA的cudnn庫NVIDIA cuDNN。這個庫集成了tensors變數、cnn、rnn等重要基礎模型的ff、bp、update的函式，並支援multi device，框架通過傳遞tensors

並呼叫cudnn來實現cnn、rnn等模型的核心運算。cudnn庫和上面的cublas、cufft等庫一樣，是NVIDIA花重金打造的cuda加速庫，效能優化幾乎達到了巔峰，除非有強烈的造輪子衝動或者定製函式的需求，使用NVIDIA官方加速庫是最佳選擇。不過在GitHub的上一個叫deepcore的輕量級框架專案裡，開發者聲稱cnn速度比cudnn快，看程式碼也是使用的fft快速卷積。說明cudnn還有提升潛力。而且通過閱讀NVIDIA的cudnn的sample，我覺得cudnn作為一個全面嚴謹的深度學習加速庫，雖然體現了開發者高超的程式設計能力，但是對於個人使用者來說，體系過於龐大、使用太繁瑣。

GPU對CNN計算的加速原理到底是怎樣的？

GPU對CNN計算的加速原理到底是怎樣的？

TensorFlow使用GPU計算加速

【Python-GPU加速】基於Numba的GPU計算加速（一）基本

GPU加速原理

GPU硬體加速原理 /轉

GPU伺服器及計算原理

【ARM-Linux開發】【CUDA開發】【視訊開發】關於Linux下利用GPU對視訊進行硬體加速轉碼的方案

『開發技術』GPU訓練加速原理（附KerasGPU訓練技巧）

娛樂圈最虛偽的5對閨蜜大起底

CDN技術的加速原理

EL表達式獲取對象屬性的原理

CDN加速原理普及

DCOM（分布式組件對象模型）原理淺析（一）

DCOM（分布式組件對象模型）原理淺析（二）

39、【華為HCIE-Storage】--對象存儲原理

小米筆記本pro CPU GPU 做科學計算的算力對比

如何獲得對雲計算的正確控制

對雲端計算的理解

Alluxio 在京東Ad Hoc平臺的應用--對JDPresto的加速

一文詳解大規模資料計算處理原理及操作重點

GPU對CNN計算的加速原理到底是怎樣的？

相關推薦