Quantized -CNN是一種卷積神經網路量化框架,在測試階段可以進行計算加速和模型壓縮。移動裝置可以利用Quantized -CNN框架進行有效的時實影象分類,只有極小的準確性損失。文章測試的硬體平臺是華為mate10,在在ILSVRC-12基準測試上進行了大量的實驗,結果表明有4~6倍的加速和15~20倍的壓縮,分類準確率僅下降了1個百分點,如下圖所示:

     我們知道,模型的耗時主要集中在卷積層,引數主要集中在全連線層,論文主要思想是量化卷積的kernel和FC的權值矩陣,論文針對卷積和全連線層採取了不同的量化方法,不過都是基於權重共享策略,採用k-means聚類演算法加速和壓縮模型的卷積層和全連線層,通過量化網路引數,用近似內積計算有效地估計卷積和全連線層的響應,最小化引數量化期間每層響應的估計誤差,更好地保持模型效能。通過減小每層輸出響應的估計誤差可實現更好的量化結果,並提出一種有效的訓練方案抑制量化後的多層累積誤差 .