0 摘要

基於內積運算的卷積操作一直是卷積神經網路（CNN）的核心元件，也是學習視覺表示的關鍵。我們觀察發現，CNN學習的特徵是類內差異（特徵的幅值）和類間差異（特徵間的夾角，語義差異）的耦合。我們提出了一種通用的解耦學習框架，該框架對類內差異和類間差異進行獨立的建模。具體而言，我們首先將內積重新分解為解耦的形式，然後將其推廣到解耦卷積運算元，利用該運算元構建解耦網路。我們提出瞭解耦卷積運算元的幾個例項。每個解耦運算元具有直觀的幾何解釋。基於這些解耦運算元，解耦網路直接從資料中學習。大量實驗表明，這種解耦具有比較顯著的效能，並且易於收斂，魯棒性更強。

1 介紹

卷積神經網路推動了許多視覺任務的發展，包括物體識別，物體檢測，語義分割等。最近的研究中有相當一部分對CNN的結構進行改進（如ResNet的short cut和GoogLeNet的多分支卷積），他們著重於提高網路深度和表示能力。儘管取得了這些進展，但理解卷積網路是如何產生有區分力的表示，並且能良好地泛化仍然是一個有趣的問題。
目前的卷積操作： $f (w, x) =< w, x >= w^{T} x$

f (w, x) =< w, x >= w^{T} x

，其本質上是一個矩陣相乘計算兩個矩陣的相似度操作。這個操作將類間差異和類內差異統一在一個度量中。因此，當兩個樣本之間的內積較大時，無法判斷這兩個樣本是類內差異造成的還是類間的差異造成的。（也就是說當你通過卷積操作得到的結果很相似的時候，你並不能夠得到一個結論說這兩個很相似，反之亦不能，因為你不能夠區別這種差異或者是相似度是類內差異造成的還是類間的差異造成的）。為了更好地研究CNN表示的屬性並進一步改進現有框架，我們建議明確區分類間差異和類內變異。具體來說，我們用幅值和角度來重新設計內積，比如：

| | w | |_{2} | | x | |_{2} c o s (θ_{(w, x)})

。

圖1是CNN在手寫體識別任務上學到的特徵的2D視覺化示意圖。 0~9每一個手寫體數字對應的特徵是圖中的一束；任意一束當中的不同位置表示的是同一類別的不同表徵，也就是類間差距（intra-class Variations）；束與束之間形成的夾角表達的是兩個類別之間的差距（inter-class difference），也就是這裡所謂的語義差異。這種解耦現象促使我們提出解耦卷積運算元。我們希望內積中的解耦幅值和角度能更好地模擬深層網路中的類內差異和類間差異。
我們通過將傳統的基於內積的卷積運算元推廣到解耦運算元，提出了一種新的解耦網路（DCNet）。（如果不解耦會存在一個什麼樣的問題呢？就是說你只能得到一個最終的結果，但是對於兩個同樣的輸出，你不能分辨造成這個結果的原因是因為他們實際就是同一種類別，還是因為剛好 ab =cd。）那麼具體怎麼解耦呢？作者給出的解決方案：

f (w, x) = | | w | |_{2} | | x | |_{2} c o s (θ_{(w, x)}) = h (| | w | |, | | x | |) \times g (θ_{(w, x)})

。
其中，

θ = a r c c o s \frac{w^{T} x}{| | w^{T} | |_{2} | | x | |_{2}}

將卷積操作解耦為幅值（Norm）和角度（Angle）兩部分，並且將這兩部分分別用兩個函式

h (.)

和

g (.)

來表示。關於角度的函式

g (.)

則度量著類間差異（inter-class difference），關於幅值的函式

h (.)

則度量著類內差異（intra-class variations），同時其值的大小也就表示了這個類別的可信度。解耦卷積提供了一種更通用的框架以更好區分類間差異和類內差異，並且傳統的卷積操作就變成了解耦網路的一個特例：

h (| | w | |, | | x | |) = | | w | |_{2} | | x | |_{2}, g (θ_{(w, x)}) = c o s (θ_{(w, x)})

。
從解耦的角度來看，原始的CNN基於一個強有力的假設，即類內變異可以通過正規化乘法來線性建模，而類間差異由角度餘弦來描述。但是，這種建模方法不一定適用於所有任務。通過解耦學習框架，我們可以根據不同的任務設計解耦運算子，也可以直接從資料中學習。 DCNets的優點有四個方面：
1.DCNets不僅允許我們使用一些替代函式來更好地模擬類內差異和類間差異，而且它們還使我們能夠直接學習這些函式，而不是擬合它們。
2.DCNets可以更快地收斂，同時達到與原始CNN相當甚至更好的精度。
3.DCNets的一些例項可以具有更強的魯棒性可以抵抗對抗樣本的攻擊。我們可以用有界的

h (\cdot)

來壓縮每個類的特徵空間，這可以帶來魯棒性。
4.解耦的運算子非常靈活，並且與架構無關。他們可以很容易地適應VGG，GoogLeNet，ResNet。
具體而言，我們提出了兩種不同型別的解耦卷積運算元：有界運算元和無界運算元。我們為每種型別的解耦運算元提供多個例項。從經驗上講，有界運算元可能會產生更快的收斂速度和更好的抵抗對抗樣本攻擊的魯棒性，無界運算元可能具有更好的表徵能力。這些解耦運算元可以是平滑的也可以是不平滑的，會產生不同的行為。此外，我們引入了一個新的概念：解耦運算元的運算元半徑operator radius。運算元半徑描述了幅值函式

h (\cdot)

的導數相對於輸入

| | x | |

的變化。通過反向傳播學習運算元半徑，我們進一步提出了可學習的解耦運算元。此外，我們還展示了一些優化這些運算元的替代方法，這些運算元由標準的反向傳播學習。。我們的貢獻如下：
1.受CNN特徵解耦觀察的啟發，我們提出了一個解耦框架來研究神經網路。
2.傳統CNNs對類間差異和類內差異做了強有力的假設，這可能不是最優的。通過解耦內積，我們能夠設計更有效的幅度和角度函式。
3.與標準CNN相比，DCNets更容易收斂，精度更高，魯棒性更強。

2 相關工作

越來越多的工作側重於改善分類層（最後一個softmax層）以增加學習特徵的區分性。相反，解耦學習提供了一個更加普遍和更加系統的方式來研究CNN。在我們的框架中，先前的工作（改善分類層）可以看成對最後的softmax層優化 $h (| | w | |, | | x | |)$ 和 $g (θ_{(w, x)})$

Decoupled Networks 論文筆記

0 摘要基於內積運算的卷積操作一直是卷積神經網路（CNN）的核心元件，也是學習視覺表示的關鍵。我們觀察發現，CNN學習的特徵是類內差異（特徵的幅值）和類間差異（特徵間的夾角，語義差異）的耦合。我們提出了一種通用的解耦學習框架，該框架對類內差異和類間差

[CVPR 2016] Weakly Supervised Deep Detection Networks論文筆記

del found score feature 圖片 http spl span 根據 p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #323333 } p.p2

[CVPR2015] Is object localization for free? – Weakly-supervised learning with convolutional neural networks論文筆記

sed pooling was 技術分享 sco 評測 5.0 ict highest p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 15.0px "Helvetica Neue"; color: #323333 } p.p2

WRNS：Wide Residual Networks 論文筆記

轉載請標明出處，理解不到位的地方也希望大家批評指正，謝謝！前言俗話說，高白瘦才是唯一的出路。但在深度學習界貌似並不是這樣。Wide Residual Networks就要證明自己，矮胖的神經網路也是潛力股。其實從名字中就可以看出來，Wide Re

Training Very Deep Networks論文筆記

Abstract Theoretical and empirical evidence indicates that the depth of neural networks is crucial for their success. However, training becomes

Densely Connected Convolutional Networks 論文筆記

0 摘要最近的成果顯示，如果神經網路各層到輸入和輸出層採用更短的連線，那麼網路可以設計的更深、更準確且訓練起來更有效率。本文根據這個現象，提出了Dense Convolutional Network (DenseNet)，它以前饋的方式將每個層都連線

論文筆記-Sequence to Sequence Learning with Neural Networks

map tran between work down all 9.png ever onf 大體思想和RNN encoder-decoder是一樣的，只是用來LSTM來實現。 paper提到三個important point： 1）encoder和decoder的LSTM

論文筆記-Personal Recommendation Using Deep Recurrent Neural Networks in NetEase

use clas max onf 一位 url base 輸入 ont 思路：利用RNN對用戶瀏覽順序建模，利用FNN模擬CF，兩個網絡聯合學習 RNN網絡結構：輸出層的state表示用戶瀏覽的某一頁面，可以看做是一個one-hot表示，state0到3是依次瀏覽的

論文筆記--PCN:Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks

.com 角度 ati 分享圖片直接算法二級使用計算測試demo：https://github.com/Jack-CV/PCN 關鍵詞：rotation-invariant face detection， rotation-in-plane， coarse-t

論文筆記 Locality-Sensitive Deconvolution Networks with Gated Fusion for RGB-D Indoor Semantic Segmentation

extract pear rain bsp ble rgb oge nbsp png 用於RGB-D室內語義分割的具有門控融合的局部敏感反卷積網絡 abstract problem: indoor semantic segmentation using RGB

論文筆記：Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

感想最近深度學習面試的時候，有個面試官問了我LSTM，我一下子傻眼了，確實不怎麼好懂，學LSTM已經有半年的時間了，但是對這個玩意兒卻還不怎麼明白，可能是沒用過它的緣故吧，我找了一篇它和GRU比較的論文，這篇論文沒有從理論上證明哪個模型的好壞，只是從實驗，應用場景的角度發現GRU在一些場景比LST

《Learning both Weights and Connections for Efficient Neural Networks》論文筆記

1. 論文思想深度神經網路在計算與儲存上都是密集的，這就妨礙了其在嵌入式裝置上的運用。為了解決該問題，便需要對模型進行剪枝。在本文中按照網路量級的排序，使得通過只學習重要的網路連線在不影響精度的情況下減少儲存與計算量。論文中的方法分為三步：首先，使用常規方法訓練模型；使用剪枝策略進

論文筆記：Interpret Neural Networks by Identifying Critical Data Routing Paths

這是一篇做可解釋性AI的文章，文章的主要內容就是提出了一種新的資料表示分析方法，在此之上做了一些分析工作。 Abstract：大概就是說定義了一個叫CDRPs（可分離路徑），這是文章的主要內容。 Introduction：大多的視覺化分析方法多是定性的，沒法定量分

Feature Pyramid Networks for Object Detection 論文筆記

版權宣告：本文為博主原創文章，未經博主允許不得轉載。 https://blog.csdn.net/Jesse_Mx/article/details/54588085 論文地址：Feature Pyramid Networks for Object Detection 前言這篇論文主要使

論文筆記 Stacked Hourglass Networks for Human Pose Estimation

Stacked Hourglass Networks for Human Pose Estimation key words:人體姿態估計 Human Pose Estimation 給定單張RGB影象，輸出人體某些關鍵點的精確畫素位置.堆疊式沙漏網路 Stacked Hourglass Net

Feature Pyramid Networks for Object Detection論文筆記

1、摘要 Feature pyramids are a basic component in recognition systems for detecting objects at diferent scales.But recent deep learning object detector

Question Answering over Freebase with Multi-Column Convolutional Neural Networks【論文筆記】

一、概要通過知識庫回答自然語言問題是一個重要的具有挑戰性的任務。大多數目前的系統依賴於手工特徵和規則。本篇論文，我們介紹了MCCNNs，從三個不同層面（答案路徑，答案型別，答案上下文）來理解問題。同時，在知識庫中我們共同學習實體和關係的低維詞向量。問答對用於訓練模型以對候選答案

深度學習論文筆記：Deep Residual Networks with Dynamically Weighted Wavelet Coefficients for Fault Diagnosis of Planetary Gearboxes

這篇文章將深度學習演算法應用於機械故障診斷，採用了“小波包分解+深度殘差網路(ResNet)”的思路，將機械振動訊號按照故障型別進行分類。文章的核心創新點：複雜旋轉機械系統的振動訊號包含著很多不同頻率的衝擊和振盪成分，而且不同頻帶內的振動成分在故障診斷中的重要程度經常是不同的，因此可以按照如下步驟設計深度

論文筆記12:Building Adaptive Tutoring Model using Artificial Neural Networks and Reinforcement Learning

論文筆記12：《Building Adaptive Tutoring Model using Artificial Neural Networks and Reinforcement Learning》參考文獻:Building Adaptive Tutoring Model Using Ar

論文筆記 Learning Visual Knowledge Memory Networks for Visual Question Answering （CVPR2018)

這篇文章的一個出發點也是希望VQA裡面的視覺內容與人的結構化知識相聯絡起來，提出了一種visual knowledge memory network (VKMN)來將結構化知識與視覺特徵融合進端對端的學習框架。在經典VQA 資料集VQA v1.0與v2.0上在與知識推理相關的問題