殘差網路ResNet

resnet是何凱明大神在2015年提出的.並且獲得了當年的ImageNet比賽的冠軍. 殘差網路具有里程碑的意義,為以後的網路設計提出了一個新的思路.
googlenet的思路是加寬每一個layer,resnet的思路是加深layer.

論文地址:https://arxiv.org/abs/1512.03385
論文裡指出,隨著網路深度的增加,模型表現並沒有更好,即所謂的網路退化.注意,不是過擬合,而是更深層的網路即便是train error也比淺層網路更高.

這說明,深層網路沒有學習到合理的引數．

然後,大神就開始開腦洞了,提出了殘差結構,也叫shortcut connection:

以前學習的是F(x)(就是每一層的對映關係,輸入x,輸出F(x)),現在學的是F(x)-x,那為啥學習Ｆ(x)-x就更容易呢？
關於殘差網路為何有效的分析,參考:https://zhuanlan.zhihu.com/p/80226180
目前並沒有一個統一的結論,我比較傾向於模型整合這個說法.

殘差網路就可以被看作是一系列路徑集合組裝而成的一個整合模型，其中不同的路徑包含了不同的網路層子集。Andreas Veit等人展開了幾組實驗（Lesion study），在測試時，刪去殘差網路的部分網路層（即丟棄一部分路徑）、或交換某些網路模組的順序（改變網路的結構，丟棄一部分路徑的同時引入新路徑）。實驗結果表明，網路的表現與正確網路路徑數平滑相關（在路徑變化時，網路表現沒有劇烈變化），這表明殘差網路展開後的路徑具有一定的獨立性和冗餘性，使得殘差網路表現得像一個整合模型（ensemble）

模型結構

大神的思路咱跟不上,管他孃的為啥有效呢,深度學習裡的玄學事情還少嗎,這種問題留給科學家去研究吧. 咱們用深度學習是來做產品的,實際提高生產力的.
我們來看看resnet模型結構.

實現殘差結構

按照論文裡的34-layer這個來實現.
仔細看上面兩個圖可知,殘差塊用的卷積核為kernel_size=3．模型的conv3_1,conv4_1,conv5_1之前做了寬高減半的downsample．conv2_x是通過maxpool(stride=2)完成的下采樣.其餘的是通過conv2d(stride=2)完成的.

resnet採取了和vgg類似的堆疊結構,只不過vgg堆疊的是連續卷積核,resnet堆疊的是連續殘差塊.和vgg一樣,越往後面的層,channel相較於前面的layer翻倍,h,w減半.

程式碼不是一蹴而就的,具體如何一步步實現可以去看github提交的history.

殘差塊的實現注意兩點

第一個卷積需要傳入stride完成下采樣
卷積後改變了輸入shape的話,為了完成相加的操作,需要對輸入做1x1卷積

class Residual(nn.Module):
    def __init__(self,in_channels,out_channels,stride=1):
        super(Residual,self).__init__()
        self.stride = stride
        self.conv1 = nn.Conv2d(in_channels,out_channels,kernel_size=3,stride=stride,padding=1)
        self.bn1 = nn.BatchNorm2d(out_channels)
        self.relu = nn.ReLU(inplace=True)
        self.conv2 = nn.Conv2d(out_channels,out_channels,kernel_size=3,padding=1)
        self.bn2 = nn.BatchNorm2d(out_channels)

        #　ｘ卷積後shape發生改變,比如:x:[1,64,56,56] --> [1,128,28,28],則需要1x1卷積改變x
        if in_channels != out_channels:
            self.conv1x1 = nn.Conv2d(in_channels,out_channels,kernel_size=1,stride=stride)
        else:
            self.conv1x1 = None
            

    def forward(self,x):
        # print(x.shape)
        o1 = self.relu(self.bn1(self.conv1(x)))
        # print(o1.shape)
        o2 = self.bn2(self.conv2(o1))
        # print(o2.shape)

        if self.conv1x1:
            x = self.conv1x1(x) 

        out = self.relu(o2 + x)
        return out

在卷積層完成特徵提取後,　每張圖可以得到512個7x7的feature map．做全域性平均池化後得到512個feature.再傳入全連線層做特徵的線性組合得到num_classes個類別．

我們來實現34-layer的resnet

class ResNet(nn.Module):
    def __init__(self,in_channels,num_classes):
        super(ResNet,self).__init__()
        self.conv1 = nn.Sequential(
            nn.Conv2d(in_channels,64,kernel_size=7,stride=2,padding=3),
            nn.BatchNorm2d(64),
            nn.ReLU(inplace=True)
        )

        self.conv2 = nn.Sequential(
            nn.MaxPool2d(kernel_size=3,stride=2,padding=1),
            Residual(64,64),
            Residual(64,64),
            Residual(64,64),
        )

        self.conv3 = nn.Sequential(
            Residual(64,128,stride=2),
            Residual(128,128),
            Residual(128,128),
            Residual(128,128),
            Residual(128,128),
        )

        self.conv4 = nn.Sequential(
            Residual(128,256,stride=2),
            Residual(256,256),
            Residual(256,256),
            Residual(256,256),
            Residual(256,256),
            Residual(256,256),
        )

        self.conv5 = nn.Sequential(
            Residual(256,512,stride=2),
            Residual(512,512),
            Residual(512,512),
        )

        # self.avg_pool = nn.AvgPool2d(kernel_size=7)
        self.avg_pool = nn.AdaptiveAvgPool2d(1) #代替AvgPool2d以適應不同size的輸入
        self.fc = nn.Linear(512,num_classes)

    def forward(self,x):
        out = self.conv1(x)
        out = self.conv2(out)
        out = self.conv3(out)
        out = self.conv4(out)
        out = self.conv5(out)
        
        out = self.avg_pool(out)
        out = out.view((x.shape[0],-1))

        out = self.fc(out)

        return out

接下來就還是熟悉的套路

資料載入

batch_size,num_workers=32,2
train_iter,test_iter = learntorch_utils.load_data(batch_size,num_workers,resize=48)
print('load data done,batch_size:%d' % batch_size)

模型定義

net = ResNet(1,10).cuda()

損失函式定義

l = nn.CrossEntropyLoss()

優化器定義

opt = torch.optim.Adam(net.parameters(),lr=0.01)

評估函式定義

num_epochs=5
def test():
    acc_sum = 0
    batch = 0
    for X,y in test_iter:
        X,y = X.cuda(),y.cuda()
        y_hat = net(X)
        acc_sum += (y_hat.argmax(dim=1) == y).float().sum().item()
        batch += 1
    
    test_acc = acc_sum/(batch*batch_size)

    # print('test acc:%f' % test_acc)
    return test_acc

訓練

def train():
    for epoch in range(num_epochs):
        train_l_sum,batch,train_acc_sum=0,1,0
        start = time.time()
        for X,y in train_iter:
            X,y = X.cuda(),y.cuda() #把tensor放到視訊記憶體
            y_hat = net(X)  #前向傳播
            loss = l(y_hat,y) #計算loss,nn.CrossEntropyLoss中會有softmax的操作
            opt.zero_grad()#梯度清空
            loss.backward()#反向傳播,求出梯度
            opt.step()#根據梯度,更新引數

            #　資料統計
            train_l_sum += loss.item()
            train_acc_sum += (y_hat.argmax(dim=1) == y).float().sum().item()
            train_loss = train_l_sum/(batch*batch_size)
            train_acc = train_acc_sum/(batch*batch_size)
            
            if batch % 100 == 0: #每100個batch輸出一次訓練資料
                print('epoch %d,batch %d,train_loss %.3f,train_acc:%.3f' % (epoch,batch,train_loss,train_acc))

            if batch % 300 == 0: #每300個batch測試一次
                test_acc = test()
                print('epoch %d,batch %d,test_acc:%.3f' % (epoch,batch,test_acc))

            batch += 1

        end = time.time()
        time_per_epoch =  end - start
        print('epoch %d,batch_size %d,train_loss %f,time %f' % 
                (epoch + 1,batch_size ,train_l_sum/(batch*batch_size),time_per_epoch))
        test()

train()

輸出如下:

load data done,batch_size:32
epoch 0,batch 100,train_loss 0.082,train_acc:0.185
epoch 0,batch 200,train_loss 0.065,train_acc:0.297
epoch 0,batch 300,train_loss 0.053,train_acc:0.411
epoch 0,batch 300,test_acc:0.684
epoch 0,batch 400,train_loss 0.046,train_acc:0.487
epoch 0,batch 500,train_loss 0.041,train_acc:0.539
epoch 0,batch 600,train_loss 0.038,train_acc:0.578
epoch 0,batch 600,test_acc:0.763
epoch 0,batch 700,train_loss 0.035,train_acc:0.604
epoch 0,batch 800,train_loss 0.033,train_acc:0.628
epoch 0,batch 900,train_loss 0.031,train_acc:0.647
epoch 0,batch 900,test_acc:0.729
epoch 0,batch 1000,train_loss 0.030,train_acc:0.661
epoch 0,batch 1100,train_loss 0.029,train_acc:0.674
epoch 0,batch 1200,train_loss 0.028,train_acc:0.686
epoch 0,batch 1200,test_acc:0.802
epoch 0,batch 1300,train_loss 0.027,train_acc:0.696 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    從頭學pytorch(二十):殘差網路resnet
      殘差網路ResNet
resnet是何凱明大神在2015年提出的.並且獲得了當年的ImageNet比賽的冠軍. 殘差網路具有里程碑的意義,為以後的網路設計提出了一個新的思路.
googlenet的思路是加寬每一個layer,resnet的思路是加深layer.
論文地址:https://arxiv.org/a 

  
 

    

    
    從頭學pytorch(二十一):全連線網路dense net
      DenseNet
論文傳送門,這篇論文是CVPR 2017的最佳論文.
resnet一文裡說了,resnet是具有里程碑意義的.densenet就是受resnet的啟發提出的模型.
resnet中是把不同層的feature map相應元素的值直接相加.而densenet是將channel維上的feature  

  
 

    

    
    高速路神經網路(Highway Networks)與深度殘差網路(ResNet)的原理和區別
       
 
 
 高速路神經網路(Highway Networks)： 
 我們知道，神經網路的深度是其成功的關鍵因素。然而，隨著深度的增加，網路訓練變得更加困難，並且容易出現梯度爆炸或梯度消失的問題。高速路神經網路(Highway Networks)就是為了解決深層網路訓練困難的問題而提出的。 
 在一般的神經 

  
 

    

    
    大牛教你使用dlib中的深度殘差網路(ResNet)實現實時人臉識別
      
                opencv中提供的基於haar特徵級聯進行人臉檢測的方法效果非常不好，本文使用dlib中提供的人臉檢測方法（使用HOG特徵或卷積神經網方法），並使用提供的深度殘差網路（ResNet）實現實時人臉識別，不過本文的目的不是構建深度殘差網路，而是利用已經訓練好的模型進行實時人臉識 

  
 

    

    
    殘差網路ResNet網路原理及實現
      
                    

                    

                    
                    
                    全文共1483字，5張圖，預計閱讀時間10分鐘。作者介紹：石曉文，中國人民大學資訊學院在讀研究生 

  
 

    

    
    CNN入門講解：什麼是殘差網路Resnet
      微信公眾號：follow_bobo知乎：蔣竺波加公眾號，回覆殘差網路，可以得得到視訊所有高清PPT-----------------------------------------------------------------------------------------------大家好，我是第一行こん 

  
 

    

    
    使用 tensorlayer 組建 殘差網路 resnet 實現 mnist 手寫識別例子
      
							
							
							最近學習殘差網路，非常給力，即使是深層網路也能很快收斂 
這裡的程式碼構建了一個17層的網路，5 epoch就能達到96%以上準確率

lost-損失，acc-準確率

不過發現幾個問題 
1.使用訓練過程中，lost值會先減小，然後會一直增大，而acc值卻在一 

  
 

    

    
    深度殘差網路 ResNet
      
							
							
							作為 CVPR2016 的 best paper，何凱明的文章【1】針對深層網路梯度彌散導致的SGD優化難題，提出了 residual（殘差）結構，很好的解決了模型退化問題，在50層、101層、152層甚至1202層的網路上測試均獲得了很好的效果。

應用了Re 

  
 

    

    
    深度殘差網路(ResNet)
      引言
　　對於傳統的深度學習網路應用來說，網路越深，所能學到的東西越多。當然收斂速度也就越慢，訓練時間越長，然而深度到了一定程度之後就會發現越往深學習率越低的情況，甚至在一些場景下，網路層數越深反而降低了準確率，而且很容易出現梯度消失和梯度爆炸。
 
　　這種現象並不是由於過擬合導致的，過擬合是在訓練集 

  
 

    

    
    從頭學pytorch(十二):模型儲存和載入
      模型讀取和儲存
總結下來,就是幾個函式

torch.load()/torch.save()

通過python的pickle完成序列化與反序列化.完成記憶體<-->磁碟轉換.

Module.state_dict()/Module.load_state_dict()

state_dict()獲 

  
 

    

    
    從頭學pytorch(十七):網路中的網路NIN
      網路中的網路NIN
之前介紹的LeNet,AlexNet,VGG設計思路上的共同之處,是加寬(增加捲積層的輸出的channel數量)和加深(增加捲積層的數量),再接全連線層做分類.　　
NIN提出了一個不同的思路,串聯多個由卷積層和'全連線層'(1x1卷積)構成的小網路來構建一個深層網路.
論文地址:http 

  
 

    

    
    PyTorch—torchvision.models匯入預訓練模型與殘差網路講解
       
  
  
 
 
  文章目錄
  
   
    
     torchvision.models
     
      
       1. 模組呼叫
       2. 原始碼解析
       3. ResNet類
       4. Bottlenect類
       5. BasicB 

  
 

    

    
    學習筆記之——基於pytorch的殘差網路（deep residual network）
       
 
 
 本博文為本人學習pytorch系列之——residual network。 
 前面的博文（ 學習筆記之——基於深度學習的分類網路）也已經介紹過ResNet了。ResNet是2015年的ImageNet競賽的冠軍，由微軟研究院提出，通過引入residual block能夠成功地訓練高達 

  
 

    

    
    【轉載】十分鐘一起學會ResNet殘差網路
        
深層次網路訓練瓶頸：梯度消失，網路退化 
深度卷積網路自然的整合了低中高不同層次的特徵，特徵的層次可以靠加深網路的層次來豐富。從而，在構建卷積網路時，網路的深度越高，可抽取的特徵層次就越豐富。所以一般我們會傾向於使用更深層次的網路結構，以便取得更高層次的特徵。但是在使用深層次的網路結構時我們會 

  
 

    

    
    從頭學pytorch(十四):lenet
      卷積神經網路
在之前的文章裡,對28 X 28的影象,我們是通過把它展開為長度為784的一維向量,然後送進全連線層,訓練出一個分類模型.這樣做主要有兩個問題

影象在同一列鄰近的畫素在這個向量中可能相距較遠。它們構成的模式可能難以被模型識別。
對於大尺寸的輸入影象，使用全連線層容易造成模型過大。假設輸入是高和 

  
 

    

    
    從頭學pytorch(十五):AlexNet
      AlexNet
AlexNet是2012年提出的一個模型,並且贏得了ImageNet影象識別挑戰賽的冠軍.首次證明了由計算機自動學習到的特徵可以超越手工設計的特徵,對計算機視覺的研究有著極其重要的意義.
AlexNet的設計思路和LeNet是非常類似的.不同點主要有以下幾點:

啟用函式由sigmoid改為R 

  
 

    

    
    從頭學pytorch(十六):VGG NET
      VGG
AlexNet在Lenet的基礎上增加了幾個卷積層,改變了卷積核大小,每一層輸出通道數目等,並且取得了很好的效果.但是並沒有提出一個簡單有效的思路.
VGG做到了這一點,提出了可以通過重複使⽤簡單的基礎塊來構建深度學習模型的思路.
論文地址:https://arxiv.org/abs/1409.155 

  
 

    

    
    從頭學pytorch(十八):GoogLeNet
      GoogLeNet
GoogLeNet和vgg分別是2014的ImageNet挑戰賽的冠亞軍.GoogLeNet則做了更加大膽的網路結構嘗試，雖然深度只有22層，但大小卻比AlexNet和VGG小很多，GoogleNet引數為500萬個，AlexNet引數個數是GoogleNet的12倍，VGGNet引數又是 

  
 

    

    
    從頭學pytorch(十九):批量歸一化batch normalization
      批量歸一化
論文地址:https://arxiv.org/abs/1502.03167
批量歸一化基本上是現在模型的標配了.
說實在的,到今天我也沒搞明白batch normalize能夠使得模型訓練更穩定的底層原因,要徹底搞清楚,涉及到很多凸優化的理論,需要非常紮實的數學基礎才行.
目前為止,我理解的批量歸 

  
 

    

    
    使用keras實現深度殘差網路
       
  
  
 from keras.models import Model
from keras.layers import Input, Dense, Dropout, BatchNormalization, Conv2D, MaxPooling2D, AveragePooling2D, concate