pytorch fine-tune 預訓練的模型

阿新 • • 發佈：2018-12-11

之一:

torchvision 中包含了很多預訓練好的模型，這樣就使得 fine-tune 非常容易。本文主要介紹如何 fine-tune torchvision 中預訓練好的模型。

安裝

pip install torchvision

如何 fine-tune

以 resnet18 為例：

from torchvision import models
from torch import nn
from torch import optim

resnet_model = models.resnet18(pretrained=True) 
# pretrained 設定為 True，會自動下載模型 所對應權重，並載入到模型中
# 也可以自己下載 權重，然後 load 到 模型中，原始碼中有 權重的地址。

# 假設 我們的 分類任務只需要 分 100 類，那麼我們應該做的是
# 1. 檢視 resnet 的原始碼
# 2. 看最後一層的 名字是啥 （在 resnet 裡是 self.fc = nn.Linear(512 * block.expansion, num_classes)）
# 3. 在外面替換掉這個層
resnet_model.fc= nn.Linear(in_features=..., out_features=100)

# 這樣就 哦了，修改後的模型除了輸出層的引數是 隨機初始化的，其他層都是用預訓練的引數初始化的。

# 如果只想訓練 最後一層的話，應該做的是：
# 1. 將其它層的引數 requires_grad 設定為 False
# 2. 構建一個 optimizer， optimizer 管理的引數只有最後一層的引數
# 3. 然後 backward， step 就可以了

# 這一步可以節省大量的時間，因為多數的引數不需要計算梯度
for para in list(resnet_model.parameters())[:-2]:
    para.requires_grad=False 

optimizer = optim.SGD(params=[resnet_model.fc.weight, resnet_model.fc.bias], lr=1e-3)

...

為什麼

這裡介紹下執行resnet_model.fc= nn.Linear(in_features=..., out_features=100)時框架內發生了什麼

這時應該看 nn.Module 原始碼的 __setattr__ 部分，因為 setattr 時都會呼叫這個方法：

def __setattr__(self, name, value):
    def remove_from(*dicts):
        for d in dicts:
            if name in d:
                del d[name]

首先映入眼簾就是 remove_from

這個函式，這個函式的目的就是，如果出現了同名的屬性，就將舊的屬性移除。用剛才舉的例子就是：

預訓練的模型中有個名字叫fc 的 Module。
在類定義外，我們將另一個 Module 重新賦值給了 fc。
類定義內的 fc 對應的 Module 就會從模型中刪除。

之二:

前言

這篇文章算是論壇PyTorch Forums關於引數初始化和finetune的總結，也是我在寫程式碼中用的算是“最佳實踐”吧。最後希望大家沒事多逛逛論壇，有很多高質量的回答。

引數初始化

引數的初始化其實就是對引數賦值。而我們需要學習的引數其實都是Variable，它其實是對Tensor

的封裝，同時提供了data，grad等藉口，這就意味著我們可以直接對這些引數進行操作賦值了。這就是PyTorch簡潔高效所在。這裡寫圖片描述

所以我們可以進行如下操作進行初始化，當然其實有其他的方法，但是這種方法是PyTorch作者所推崇的：

def weight_init(m):
# 使用isinstance來判斷m屬於什麼型別
    if isinstance(m, nn.Conv2d):
        n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
        m.weight.data.normal_(0, math.sqrt(2. / n))
    elif isinstance(m, nn.BatchNorm2d):
# m中的weight，bias其實都是Variable，為了能學習引數以及後向傳播
        m.weight.data.fill_(1)
        m.bias.data.zero_()

Finetune

往往在載入了預訓練模型的引數之後，我們需要finetune模型，可以使用不同的方式finetune。

區域性微調

有時候我們載入了訓練模型後，只想調節最後的幾層，其他層不訓練。其實不訓練也就意味著不進行梯度計算，PyTorch中提供的requires_grad使得對訓練的控制變得非常簡單。

model = torchvision.models.resnet18(pretrained=True)
for param in model.parameters():
    param.requires_grad = False
# 替換最後的全連線層， 改為訓練100類
# 新構造的模組的引數預設requires_grad為True
model.fc = nn.Linear(512, 100)

# 只優化最後的分類層
optimizer = optim.SGD(model.fc.parameters(), lr=1e-2, momentum=0.9)

全域性微調

有時候我們需要對全域性都進行finetune，只不過我們希望改換過的層和其他層的學習速率不一樣，這時候我們可以把其他層和新層在optimizer中單獨賦予不同的學習速率。比如：

ignored_params = list(map(id, model.fc.parameters()))
base_params = filter(lambda p: id(p) not in ignored_params,
                     model.parameters())

optimizer = torch.optim.SGD([
            {'params': base_params},
            {'params': model.fc.parameters(), 'lr': 1e-3}
            ], lr=1e-2, momentum=0.9)

其中base_params使用1e-3來訓練，model.fc.parameters使用1e-2來訓練，momentum是二者共有的。

之三:

pytorch finetune模型

文章主要講述如何在pytorch上讀取以往訓練的模型引數，在模型的名字已經變更的情況下又如何讀取模型的部分引數等。 --------作者:jiangwenj02【轉載請註明】

pytorch 模型的儲存與讀取

其中在模型的儲存過程有儲存模型和引數一起的也有單獨儲存模型引數的

單獨儲存模型引數

儲存時使用：

torch.save(the_model.state_dict(), PATH)

讀取時：

the_model = TheModelClass(*args, **kwargs)
the_model.load_state_dict(torch.load(PATH))

儲存模型與引數

儲存：

torch.save(the_model, PATH)

讀取：

the_model = torch.load(PATH)

模型的引數

fine-tune的過程是讀取原有模型的引數，但是由於模型的所要處理的資料集不同，最後的一層class的總數不同，所以需要修改模型的最後一層，這樣模型讀取的引數，和在大資料集上訓練好下載的模型引數在形式上不一樣。需要我們自己去寫函式讀取引數。

pytorch模型引數的形式

模型的引數是以字典的形式儲存的。

model_dict = the_model.state_dict(),
for k,v in model_dict.items():
    print(k)

即可看到所有的鍵值如果想修改模型的引數，給相應的鍵值賦值即可

model_dict[k] = new_value

最後更新模型的引數

the_model.load_state_dict(model_dict)

如果模型的key值和在大資料集上訓練時的key值是一樣的

我們可以通過下列演算法進行讀取模型

model_dict = model.state_dict()

pretrained_dict = torch.load(model_path)
 # 1. filter out unnecessary keys
diff = {k: v for k, v in model_dict.items() if \
            k in pretrained_dict and pretrained_dict[k].size() == v.size()}
pretrained_dict = {k: v for k, v in pretrained_dict.items() if k in model_dict and model_dict[k].size() == v.size()}
pretrained_dict.update(diff)
# 2. overwrite entries in the existing state dict
model_dict.update(pretrained_dict)
# 3. load the new state dict
model.load_state_dict(model_dict)

如果模型的key值和在大資料集上訓練時的key值是不一樣的，但是順序是一樣的

model_dict = model.state_dict()

pretrained_dict = torch.load(model_path)
keys = []
for k,v in pretrained_dict.items():
    keys.append(k)
i = 0
for k,v in model_dict.items():
    if v.size() == pretrained_dict[keys[i]].size():
        print(k, ',', keys[i])
         model_dict[k]=pretrained_dict[keys[i]]
    i = i + 1
model.load_state_dict(model_dict)

如果模型的key值和在大資料集上訓練時的key值是不一樣的，但是順序是也不一樣的

自己找對應關係，一個key對應一個key的賦值

pytorch fine-tune 預訓練的模型

之一: torchvision 中包含了很多預訓練好的模型，這樣就使得 fine-tune 非常容易。本文主要介紹如何 fine-tune torchvision 中預訓練好的模型。安裝 pip install torchvision 如何 fine-tune 以

pytorch學習筆記（十一）：fine-tune 預訓練的模型

torchvision 中包含了很多預訓練好的模型，這樣就使得 fine-tune 非常容易。本文主要介紹如何 fine-tune torchvision 中預訓練好的模型。安裝 pip install torchvision 如何 fine

Pytorch載入部分預訓練模型的引數

前言自從從深度學習框架caffe轉到Pytorch之後，感覺Pytorch的優點妙不可言，各種設計簡潔，方便研究網路結構修改，容易上手，比TensorFlow的臃腫好多了。對於深度學習的初學者，Pytorch值得推薦。今天主要主要談談Pytorch是如何載入預訓練模型的引數以

《錯誤手記-01》 facenet使用預訓練模型fine-tune重新訓練自己資料集報錯

環境資訊：windows10+python3.5+tensorflow1.6.0 問題描述：在自己的訓練集上跑train_softmax.py. 引數： --logs_base_dir F:/work/runspace/log/ --models_base_

如何使用預訓練模型對新資料做fine-tune

http://mxnet.io/how_to/finetune.html 使用fine-tune.py檔案對預訓練模型做fine-tune，將最後一層的fc層替換成所需的類別數量和初始化隨機值。例子:從 data/caltech256.sh 下載 caltech256資料集

Pytorch使用預訓練模型加速訓練的技巧

當屬於預訓練模型屬於下面的情況的時候，可以採用這個加速的技巧：固定前部分的層，只改變網路後面層的引數。比如，使用vgg16的預訓練模型，固定特徵提取層，改變後面的全連線層。要注意的是，如果固定的是特徵提取層+一個全連線層，也可以使用這個技巧，只要固定的是前一部分。

pytorch 如何載入部分預訓練模型

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

pytorch 更改預訓練模型網路結構

一個繼承nn.module的model它包含一個叫做children()的函式，這個函式可以用來提取出model每一層的網路結構，在此基礎上進行修改即可，修改方法如下(去除後兩層)： resnet_layer = nn.Sequential(*list(model.children())[:-2])

pytorch 預訓練模型修改

# coding=UTF-8 import torchvision.models as models import torch import torch.nn as nn import math import torch.utils.model_zoo as model_zoo class C

PyTorch—torchvision.models匯入預訓練模型與殘差網路講解

文章目錄 torchvision.models 1. 模組呼叫 2. 原始碼解析 3. ResNet類 4. Bottlenect類 5. BasicB

PyTorch中使用預訓練的模型初始化網路的一部分引數(增減網路層，修改某層引數等) 固定引數

在預訓練網路的基礎上，修改部分層得到自己的網路，通常我們需要解決的問題包括： 1. 從預訓練的模型載入引數 2. 對新網路兩部分設定不同的學習率，主要訓練自己新增的層一. 載入引數的方法：載入引數可以參考apaszke推薦的做法，即刪除與當前mo

pytorch學習筆記之載入預訓練模型

原文：https://blog.csdn.net/weixin_41278720/article/details/80759933 pytorch自發布以來，由於其便捷性，贏得了越來越多人的喜愛。 Pytorch有很多方便易用的包，今天要談的是torchvision包，

PyTorch學習系列(十五)——如何載入預訓練模型？

PyTorch提供的預訓練模型 PyTorch定義了幾個常用模型，並且提供了預訓練版本： AlexNet: AlexNet variant from the “One weird trick” paper. VGG: VGG-11, VGG-13, VGG

Pytorch 快速入門（七）載入預訓練模型初始化網路引數

在預訓練網路的基礎上，修改部分層得到自己的網路，通常我們需要解決的問題包括： 1. 從預訓練的模型載入引數 2. 對新網路兩部分設定不同的學習率，主要訓練自己新增的層 PyTorch提供的預訓練模型PyTorch定義了幾個常用模型，並且提供了預訓練版本：AlexNet: Al

韓國小哥哥用Pytorch實現谷歌最強NLP預訓練模型BERT | 程式碼

乾明編譯整理自 GitHub 量子位報道 | 公眾號 QbitAI新鮮程式碼，還熱乎著呢。前

小白程式設計用Pytorch匯入預訓練模型&&設定不同學習速率

前兩天正好在做這個部分，參考了很多網友的做法，也去pytorch論壇查了一下，現在總結如下。建議還是自己單步除錯一下看看每個引數裡面的值是什麼樣的比較好。1.匯入預訓練的模型，預訓練模型是現有模型的一個或者幾個部分假設我有一個網路包含 pretrained和classify兩

基於densenet新增預訓練模型的pytorch訓練模型

本程式碼針對基於densenet 的 pytorch新增預訓練模型的的一個分類方法，由官方教程為基礎做的更改。本實驗主要目的是以Imagenet或其他大資料集已經訓練好的權重檔案，初始化到我們要用到的訓練網路中。本演算法基於jupyter noetbook 下載an

用pytorch搭建AlexNet（微調預訓練模型及手動搭建）

本文介紹瞭如何在pytorch下搭建AlexNet，使用了兩種方法，一種是直接載入預訓練模型，並根據自己的需要微調（將最後一層全連線層輸出由1000改為10），另一種是手動搭建。構建模型類的時候需要繼承自torch.nn.Module類，要自己重寫__\_\_

PyTorch-網路的建立，預訓練模型的載入

本文是PyTorch使用過程中的的一些總結，有以下內容：構建網路模型的方法網路層的遍歷各層引數的遍歷模型的儲存與載入從預訓練模型為網路引數賦值主要涉及到以下函式的使用 add_module,ModulesList,Sequential 模型建立 modules(),named_modules

【小白學PyTorch】5 torchvision預訓練模型與資料集全覽

文章來自：微信公眾號【機器學習煉丹術】。一個ai專業研究生的個人學習分享公眾號文章目錄： [TOC] # torchvision >官網上的介紹（FQ）：The torchvision package consists of popular datasets, model architecture

pytorch fine-tune 預訓練的模型

安裝

如何 fine-tune

為什麼

前言

引數初始化

Finetune

區域性微調

全域性微調

pytorch finetune模型

pytorch 模型的儲存與讀取

單獨儲存模型引數

儲存模型與引數

模型的引數

pytorch模型引數的形式

如果模型的key值和在大資料集上訓練時的key值是一樣的

如果模型的key值和在大資料集上訓練時的key值是不一樣的，但是順序是一樣的

如果模型的key值和在大資料集上訓練時的key值是不一樣的，但是順序是也不一樣的

相關推薦