為什麼depthwise convolution 比 convolution更加耗時？ 2018年08月07日 11:33:48 文尹習習閱讀數：608更多

阿新 • • 發佈：2018-11-10

轉自：https://blog.csdn.net/liu1152239/article/details/81478463

首先，caffe原先的gpu實現group convolution很糟糕，用for迴圈每次算一個卷積，速度極慢。第二，cudnn7.0及之後直接支援group convolution，但本人實測，速度比github上幾個直接寫cuda kernel計算的dw convolution速度慢。例如對於n=128, c=512, h=32, w=32, group=512的卷積跑100次，cudnn 7.0裡的group convolution需要4秒多，而yonghenglh6/DepthwiseConvolution大概只需要1秒。本人分析了一下dw convolution與普通convolution的理論計算複雜度，舉例如下：卷積1：普通卷積，輸入為64*64*256，輸出為64*64*256，卷積核大小為3*3。引數為3*3*256*256=590K，計算量為64*64*256*3*3*256=2.42G，計算過程的工作集記憶體總量（輸入輸出資料+引數）為64*64*256*2 + 3*3*256*256 = 2.69M。卷積2：dw卷積，輸入為64*64*256，輸出為64*64*256，卷積核大小為3*3。引數為3*3*256=2.3K個，計算量為64*64*256*3*3=9.44M，計算過程的工作集記憶體總量為64*64*256*2 + 3*3*256=2.10M。卷積3：普通卷積，輸入為64*64*16，輸出為64*64*16，卷積核大小為3*3。引數為3*3*16*16=2.3K個，計算量為64*64*16*3*3*16=9.44M，計算過程的工作集記憶體總量為64*64*16*2 + 3*3*16*16=133K。可以看到卷積2肯定比卷積1快，因為計算量下降到1/256了，但卷積2實際上無法達到卷積1的256倍速度（我記得我測得結果大概是快10倍左右），因為工作集記憶體大小並沒有顯著降低。卷積2也無法達到卷積3的速度，因為雖然FLOPS相同，但工作集記憶體大小相差了很多倍，因此單位資料的計算密度小很多，很難充分利用GPU上的計算單元。

為什麼depthwise convolution 比 convolution更加耗時？ 2018年08月07日 11:33:48 文尹習習閱讀數：608更多

為什麼depthwise convolution 比 convolution更加耗時？ 2018年08月07日 11:33:48 文尹習習閱讀數：608更多

2018年3月29日 11:02:33 關於docker分享之分布式存儲 glusterfs

魯賓遜非標準微積分全面覆蓋國內高等數學課程內容此時此刻，“預告：電子版微積分投放安排，陽光事業在陽光下進行”，2018年08月05日發表， 11:58:31 yuanmeng001 此刻閱讀數：

2018年10月24日 JS中【“邏輯運算”，“面試題：作用域問題”，“dom對象”】這些問題的意見見解

距離矢量路由協議以及鏈路狀態路由協議（2018年1月3日 09:09:15）

在虛擬機中安裝kali linux （2018年1月9日 15:23:06）---摘選自百度經驗（https://jingyan.baidu.com/article/f00622283a29c0fbd3f0c8ea.html）

2018年1月17日總結 css3裏transition 和animation 區別

2018年1月22日第九次小組會議

2018年1月21日第八次會議

2018年2月6日無奈的一天

資訊 | 2018年1月15日微信公開課解讀！微信小程序開發資源

Office 365 將在2018年3月1日棄用TLS 1.0/1.1

【20180312】2018年03月12日（隨想）

2018年3月13日早晨的夢

2018年3月19日推薦文章精選，讓您一篇內容閱盡好文

2018年3月19日推薦文章精選 “一周好文，一文打盡”

RxJava2.0學習筆記2 2018年3月29日星期四

2018年4月2日推薦文章精選 “推薦好文，一篇看盡”

2018年4月10日筆記

2018年4月12日--python

為什麼depthwise convolution 比 convolution更加耗時？ 2018年08月07日 11:33:48 文尹習習 閱讀數：608更多

相關推薦

為什麼depthwise convolution 比 convolution更加耗時？ 2018年08月07日 11:33:48 文尹習習閱讀數：608更多