訓練模型之loss曲線滑動平均

阿新 • • 發佈：2019-01-01

power lis fill optimize join size ace super cep

- 只依賴python

def print_loss(config, title, loss_dict, epoch, iters, current_iter, need_plot=False):
    data_str = ‘‘
    for k, v in loss_dict.items():
        if data_str != ‘‘:
            data_str += ‘, ‘
        data_str += ‘{}: {:.10f}‘.format(k, v)

        if need_plot and config.vis is 
 not None:
            plot_line(config, title, k, (epoch-1)*iters+current_iter, v)

    # step is the progress rate of the whole dataset (split by batchsize)
    print(‘[{}] [{}] Epoch [{}/{}], Iter [{}/{}]‘.format(title, config.experiment_name, epoch, config.epochs, current_iter, iters))
    print 
(‘        {}‘.format(data_str))

class AverageWithinWindow():
    def __init__(self, win_size):
        self.win_size = win_size
        self.cache = []
        self.average = 0
        self.count = 0

    def update(self, v):
        if self.count < self.win_size:
            self.cache.append(v)
            self.count  
+= 1
            self.average = (self.average * (self.count - 1) + v) / self.count
        else:
            idx = self.count % self.win_size
            self.average += (v - self.cache[idx]) / self.win_size
            self.cache[idx] = v
            self.count += 1


class DictAccumulator():
    def __init__(self, win_size=None):
        self.accumulator = OrderedDict()
        self.total_num = 0 
        self.win_size = win_size

    def update(self, d):
        self.total_num += 1
        for k, v in d.items():
            if not self.win_size:
                self.accumulator[k] = v + self.accumulator.get(k,0)
            else:
                self.accumulator.setdefault(k, AverageWithinWindow(self.win_size)).update(v)

    def get_average(self):
        average = OrderedDict()
        for k, v in self.accumulator.items():
            if not self.win_size:
                average[k] = v*1.0/self.total_num 
            else:
                average[k] = v.average 
        return average

def train(epoch,  train_loader, model):
    loss_accumulator = utils.DictAccumulator(config.loss_average_win_size)
    grad_accumulator = utils.DictAccumulator(config.loss_average_win_size)
    score_accumulator = utils.DictAccumulator(config.loss_average_win_size)
    iters = len(train_loader)

    for i, (inputs, targets) in enumerate(train_loader):
        inputs = inputs.cuda()
        print (inputs.shape)
        targets = targets.cuda()
        inputs = Variable(inputs)
        targets = Variable(targets)

        net_outputs, loss, grad, lr_dict, score = model.fit(inputs, targets, update=True, epoch=epoch,
                                                            cur_iter=i+1, iter_one_epoch=iters)
        loss_accumulator.update(loss)
        grad_accumulator.update(grad)
        score_accumulator.update(score)

        if (i+1) % config.loss_average_win_size == 0:
            need_plot = True
            if hasattr(config, ‘plot_loss_start_iter‘):
                need_plot = (i + 1 + (epoch - 1) * iters >= config.plot_loss_start_iter)
            elif hasattr(config, ‘plot_loss_start_epoch‘):
                need_plot = (epoch >= config.plot_loss_start_epoch)

            utils.print_loss(config, "train_loss", loss_accumulator.get_average(), epoch=epoch, iters=iters, current_iter=i+1, need_plot=need_plot)
            utils.print_loss(config, "grad", grad_accumulator.get_average(), epoch=epoch, iters=iters, current_iter=i+1, need_plot=need_plot)
            utils.print_loss(config, "learning rate", lr_dict, epoch=epoch, iters=iters, current_iter=i+1, need_plot=need_plot)

            utils.print_loss(config, "train_score", score_accumulator.get_average(), epoch=epoch, iters=iters, current_iter=i+1, need_plot=need_plot)

    if epoch % config.save_train_hr_interval_epoch == 0:
        k = random.randint(0, net_outputs[‘output‘].size(0) - 1)
        for name, out in net_outputs.items():
            utils.save_tensor(out.data[k], os.path.join(config.TRAIN_OUT_FOLDER, ‘epoch_%d_k_%d_%s.png‘ % (epoch, k, name)))


def validate(valid_loader, model):
    loss_accumulator = utils.DictAccumulator()
    score_accumulator = utils.DictAccumulator()

    # loss of the whole validation dataset
    for i, (inputs, targets) in enumerate(valid_loader):
        inputs = inputs.cuda()
        targets = targets.cuda()

        inputs = Variable(inputs, volatile=True)
        targets = Variable(targets)

        loss, score = model.fit(inputs, targets, update=False)

        loss_accumulator.update(loss)
        score_accumulator.update(score)

    return loss_accumulator.get_average(), score_accumulator.get_average()

- 依賴torch

# Copyright (c) Facebook, Inc. and its affiliates. All Rights Reserved.
import time
from collections import defaultdict
from collections import deque
from datetime import datetime

import torch

from .comm import is_main_process


class SmoothedValue(object):
    """Track a series of values and provide access to smoothed values over a
    window or the global series average.
    """

    def __init__(self, window_size=20):
        self.deque = deque(maxlen=window_size)
        self.series = []
        self.total = 0.0
        self.count = 0

    def update(self, value):
        self.deque.append(value)
        self.series.append(value)
        self.count += 1
        self.total += value

    @property
    def median(self):
        d = torch.tensor(list(self.deque))
        return d.median().item()

    @property
    def avg(self):
        d = torch.tensor(list(self.deque))
        return d.mean().item()

    @property
    def global_avg(self):
        return self.total / self.count


class MetricLogger(object):
    def __init__(self, delimiter="\t"):
        self.meters = defaultdict(SmoothedValue)
        self.delimiter = delimiter

    def update(self, **kwargs):
        for k, v in kwargs.items():
            if isinstance(v, torch.Tensor):
                v = v.item()
            assert isinstance(v, (float, int))
            self.meters[k].update(v)

    def __getattr__(self, attr):
        if attr in self.meters:
            return self.meters[attr]
        return object.__getattr__(self, attr)

    def __str__(self):
        loss_str = []
        for name, meter in self.meters.items():
            loss_str.append(
                "{}: {:.4f} ({:.4f})".format(name, meter.median, meter.global_avg)
            )
        return self.delimiter.join(loss_str)


class TensorboardLogger(MetricLogger):
    def __init__(self,
                 log_dir=‘logs‘,
                 exp_name=‘maskrcnn-benchmark‘,
                 start_iter=0,
                 delimiter=‘\t‘):

        super(TensorboardLogger, self).__init__(delimiter)
        self.iteration = start_iter
        self.writer = self._get_tensorboard_writer(log_dir, exp_name)

    @staticmethod
    def _get_tensorboard_writer(log_dir, exp_name):
        try:
            from tensorboardX import SummaryWriter
        except ImportError:
            raise ImportError(
                ‘To use tensorboard please install tensorboardX ‘
                ‘[ pip install tensorflow tensorboardX ].‘
            )

        if is_main_process():
            timestamp = datetime.fromtimestamp(time.time()).strftime(‘%Y%m%d-%H:%M‘)
            tb_logger = SummaryWriter(‘{}/{}-{}‘.format(log_dir, exp_name, timestamp))
            return tb_logger
        else:
            return None

    def update(self, ** kwargs):
        super(TensorboardLogger, self).update(**kwargs)
        if self.writer:
            for k, v in kwargs.items():
                if isinstance(v, torch.Tensor):
                    v = v.item()
                assert isinstance(v, (float, int))
                self.writer.add_scalar(k, v, self.iteration)
            self.iteration += 1

def do_train(
    model,
    data_loader,
    optimizer,
    scheduler,
    checkpointer,
    device,
    checkpoint_period,
    arguments,
    tb_log_dir,
    tb_exp_name,
    use_tensorboard=False
):
    logger = logging.getLogger("maskrcnn_benchmark.trainer")
    logger.info("Start training")

    meters = TensorboardLogger(log_dir=tb_log_dir,
                               exp_name=tb_exp_name,
                               start_iter=arguments[‘iteration‘],
                               delimiter="  ")         if use_tensorboard else MetricLogger(delimiter="  ")

    max_iter = len(data_loader)
    start_iter = arguments["iteration"]
    model.train()
    start_training_time = time.time()
    end = time.time()
    for iteration, (images, targets, _) in enumerate(data_loader, start_iter):
        data_time = time.time() - end
        iteration = iteration + 1
        arguments["iteration"] = iteration

        scheduler.step()

        images = images.to(device)
        targets = [target.to(device) for target in targets]

        loss_dict = model(images, targets)

        losses = sum(loss for loss in loss_dict.values())

        # reduce losses over all GPUs for logging purposes
        loss_dict_reduced = reduce_loss_dict(loss_dict)
        losses_reduced = sum(loss for loss in loss_dict_reduced.values())
        meters.update(loss=losses_reduced, **loss_dict_reduced)

        optimizer.zero_grad()
        losses.backward()
        optimizer.step()

        batch_time = time.time() - end
        end = time.time()
        meters.update(time=batch_time, data=data_time)

        eta_seconds = meters.time.global_avg * (max_iter - iteration)
        eta_string = str(datetime.timedelta(seconds=int(eta_seconds)))

        if iteration % 20 == 0 or iteration == max_iter:
            logger.info(
                meters.delimiter.join(
                    [
                        "eta: {eta}",
                        "iter: {iter}",
                        "{meters}",
                        "lr: {lr:.6f}",
                        "max mem: {memory:.0f}",
                    ]
                ).format(
                    eta=eta_string,
                    iter=iteration,
                    meters=str(meters),
                    lr=optimizer.param_groups[0]["lr"],
                    memory=torch.cuda.max_memory_allocated() / 1024.0 / 1024.0,
                )
            )
        if iteration % checkpoint_period == 0:
            checkpointer.save("model_{:07d}".format(iteration), **arguments)
        if iteration == max_iter:
            checkpointer.save("model_final", **arguments)

    total_training_time = time.time() - start_training_time
    total_time_str = str(datetime.timedelta(seconds=total_training_time))
    logger.info(
        "Total training time: {} ({:.4f} s / it)".format(
            total_time_str, total_training_time / (max_iter)
        )
    )

- 依賴torch

import math
from . import meter
import torch


class MovingAverageValueMeter(meter.Meter):
    def __init__(self, windowsize):
        super(MovingAverageValueMeter, self).__init__()
        self.windowsize = windowsize
        self.valuequeue = torch.Tensor(windowsize)
        self.reset()

    def reset(self):
        self.sum = 0.0
        self.n = 0
        self.var = 0.0
        self.valuequeue.fill_(0)

    def add(self, value):
        queueid = (self.n % self.windowsize)
        oldvalue = self.valuequeue[queueid]
        self.sum += value - oldvalue
        self.var += value * value - oldvalue * oldvalue
        self.valuequeue[queueid] = value
        self.n += 1

    def value(self):
        n = min(self.n, self.windowsize)
        mean = self.sum / max(1, n)
        std = math.sqrt(max((self.var - n * mean * mean) / max(1, n - 1), 0))
        return mean, std

def main():
    .....
    # TensorBoard Logger
    writer = SummaryWriter(CONFIG.LOG_DIR)
    loss_meter = MovingAverageValueMeter(20)

    model.train()
    model.module.scale.freeze_bn()

    for iteration in tqdm(
        range(1, CONFIG.ITER_MAX + 1),
        total=CONFIG.ITER_MAX,
        leave=False,
        dynamic_ncols=True,
    ):

        # Set a learning rate
        poly_lr_scheduler(
            optimizer=optimizer,
            init_lr=CONFIG.LR,
            iter=iteration - 1,
            lr_decay_iter=CONFIG.LR_DECAY,
            max_iter=CONFIG.ITER_MAX,
            power=CONFIG.POLY_POWER,
        )

        # Clear gradients (ready to accumulate)
        optimizer.zero_grad()

        iter_loss = 0
        for i in range(1, CONFIG.ITER_SIZE + 1):
            try:
                images, labels = next(loader_iter)
            except:
                loader_iter = iter(loader)
                images, labels = next(loader_iter)

            images = images.to(device)
            labels = labels.to(device).unsqueeze(1).float()

            # Propagate forward
            logits = model(images)

            # Loss
            loss = 0
            for logit in logits:
                # Resize labels for {100%, 75%, 50%, Max} logits
                labels_ = F.interpolate(labels, logit.shape[2:], mode="nearest")
                labels_ = labels_.squeeze(1).long()
                # Compute crossentropy loss
                loss += criterion(logit, labels_)

            # Backpropagate (just compute gradients wrt the loss)
            loss /= float(CONFIG.ITER_SIZE)
            loss.backward()

            iter_loss += float(loss)

        loss_meter.add(iter_loss)

        # Update weights with accumulated gradients
        optimizer.step()

        # TensorBoard
        if iteration % CONFIG.ITER_TB == 0:
            writer.add_scalar("train_loss", loss_meter.value()[0], iteration)
            for i, o in enumerate(optimizer.param_groups):
                writer.add_scalar("train_lr_group{}".format(i), o["lr"], iteration)
            if False:  # This produces a large log file
                for name, param in model.named_parameters():
                    name = name.replace(".", "/")
                    writer.add_histogram(name, param, iteration, bins="auto")
                    if param.requires_grad:
                        writer.add_histogram(
                            name + "/grad", param.grad, iteration, bins="auto"
                        )

        # Save a model
        if iteration % CONFIG.ITER_SAVE == 0:
            torch.save(
                model.module.state_dict(),
                osp.join(CONFIG.SAVE_DIR, "checkpoint_{}.pth".format(iteration)),
            )

        # Save a model (short term)
        if iteration % 100 == 0:
            torch.save(
                model.module.state_dict(),
                osp.join(CONFIG.SAVE_DIR, "checkpoint_current.pth"),
            )

    torch.save(
        model.module.state_dict(), osp.join(CONFIG.SAVE_DIR, "checkpoint_final.pth")
    )

訓練模型之loss曲線滑動平均

power lis fill optimize join size ace super cep - 只依賴python def print_loss(config, title, loss_dict, epoch, iters, current_iter, ne

（Tensorflow之六）滑動平均模型ExponentialMovingAverage

1、計算方法設{a1,a2,a3,...,an},其衰減率為decay,對應的影子變數為： {m1,m2,m3,...,mn},則： mn=decay∗mn−1+(1−decay)∗an 可以展開來分析： m1=a1 m2=decay∗a1+(1−

TensorFlow之滑動平均模型

滑動平均模型的相關知識：一、移動平均法相關知識移動平均法又稱滑動平均法、滑動平均模型法（Moving average，MA）什麼是移動平均法　移動平均法是用一組最近的實際資料值來預測未來一期或幾期內公司產品的需求量、公司產能等的一種常用方法。移動平均法適

畫caffe訓練loss曲線

color spa blog iter inux inf pan sin pre Linux下操作 1. 將loss值存儲到lossInf.txt中 fName1=‘loss.txt‘ cat loss.log | grep "solver.cpp:218] Iterat

Tensorflow中的滑動平均模型

思想 pan ans color 操作方法 class 變量 pre 原文鏈接在Tensorflow的教程裏面，使用梯度下降算法訓練神經網絡時，都會提到一個使模型更加健壯的策略，即滑動平均模型。基本思想在使用梯度下降算法訓練模型時，每次更新權重時，為每個權重維護一個

移動平均法，滑動平均模型法（Moving average，MA）

什麼是移動平均法移動平均法是用一組最近的實際資料值來預測未來一期或幾期內產品的需求量的一種常用方法。移動平均法適用於即期預測。當產品需求既不快速增長也不快速下降，且不存在季節性因素時，移動平均法能有效地消除預測中的隨機波動，是非常有用的。移動平均法根據預測時使用的各元素的權重不同，可以變為加權

tensorflow的滑動平均模型

文章目錄 1. 什麼是滑動平均法 2、tensorflow中的滑動平均模型 1. 什麼是滑動平均法基本原理滑動模型是一種簡單的平滑預測技術。當一組資料在變化中存在較大波動起伏較大，不易顯示出變化

tensorflow-滑動平均模型

隨機梯度下降演算法訓練時，使用滑動平均模型可以提高模型健壯性。在Tensorflow中提供了tf.train.ExponentialMovingAverage來實現滑動平均模型。在初始化ExponentialMovingAverage時，需要提供一個衰減率。控制模型更新速度，它對每個變數會維護一個影子變數，

用大白話講滑動平均模型（Tensorflow）

無論是書上還是論壇講的滑動平均模型都太官方，看了好久才看懂，其實很簡單的事，大家說起來確很費事。首先，先不要分析這個名字的含義，我就是被這幾個字給騙了，其實他的作用就一個：控制衰減率！！！那怎麼控制呢？ TensorFlow中給出了影子變數（shadow varible）的概念，我當初看

滑動平均模型：使用ExponentialMovingAverage

參考自：TensorFlow 實戰Google深度學習框架 import tensorflow as tf #定義一個變數用於計算滑動平均，這個變數的初始值為0。 v1 = tf.Variable(0, dtype=tf.float32) #此變數模擬神經網路中的迭代的輪數，可以用

keras 預訓練模型finetune,多模型ensemble，修改loss函式，調節學習率

keras 預訓練模型finetune,多模型ensemble，修改loss函式，調節學習率載入預訓練模型並finetune 修改loss函式兩個網路做ensemble，進行網路訓練，調節learning rate 載入預訓練模型並fi

神經網路優化演算法二（正則化、滑動平均模型）

1、神經網路進一步優化——過擬合與正則化過擬合，指的是當一個模型過為複雜後，它可以很好的“記憶”每一個訓練資料中隨機噪音的部分而忘了要去“學習”訓練資料中通用的趨勢。舉一個極端的例子，如果一個模型中的引數比訓練資料的總數還多，那麼只要訓練資料不衝突，這個模型完全可以記住所有訓練資料

pytorch學習筆記之載入預訓練模型

原文：https://blog.csdn.net/weixin_41278720/article/details/80759933 pytorch自發布以來，由於其便捷性，贏得了越來越多人的喜愛。 Pytorch有很多方便易用的包，今天要談的是torchvision包，

滑動平均模型基礎

init( decay, num_updates=None, zero_debias=False, name='ExponentialMovingAverage' ) The moving averages are computed using exponential

深度學習中基於tensorflow_slim進行復雜模型訓練三之TFRecords的介紹

一、TFRecords的資料結構 TFRecords資料集是一種二進位制的資料集，是tensorflow推薦的標準檔案格式。Tensorflow通過ProtocolBuffers定義了TFRecords檔案中儲存的記錄及其所含的欄位結構，使用該方式可以將資料，標籤以及和資料相關的資訊通過ke

深度學習中基於tensorflow_slim進行復雜模型訓練二之tensorflow_slim的使用

上篇部落格主要介紹了tensorflow_slim的基本模組，本篇主要介紹一下如何使用該模組訓練自己的模型。主要分為資料轉化，資料讀取，資料預處理，模型選擇，訓練引數設定，構建pb檔案，固化pb檔案中的引數幾部分。一、資料轉化：主要目的是將圖片轉化為TFrecords檔案，該部分屬於

深度學習中基於tensorflow_slim進行復雜模型訓練一之tensorflow_slim基本介紹

最近在進行微表情識別，但是目前沒有查到比較有效的模型方式，考慮使用inception_v3的模型進行開發，但是該模的構造過程比較複雜，訓練更是麻煩，因此考慮基於tensorflow_slim的模組進行二次訓練，首先介紹一下關於tensorflow_slim的基本模組。 tensorflow_

二分類模型評估之 ROC曲線和PR曲線

1、二分模型考慮一個二分問題，即將例項分成正類（Positive）或負類（Negative）。對一個二分問題來說，會出現四種情況: TP: 如果一個例項是正類並且也被預測成正類，即為真正類（True Positive); FP: 如果一個例項是負類而被

神經網路中的滑動平均模型

在採用隨機梯度下降（SGD）演算法訓練神經網路時，使用滑動平均模型可以一定程度增強引數的穩定性，提高最終模型在測試資料上的表現，使模型在測試資料上更健壯。在TensorFlow中提供了tf.train.ExponentialMovingAverage(decay, steps)來實現滑

Word2Vec模型之訓練篇

第一部分我們瞭解skip-gram的輸入層、隱層、輸出層。在第二部分，會繼續深入講如何在skip-gram模型上進行高效的訓練。在第一部分講解完成後，我們會發現Word2Vec模型是一個超級大的神經網路（權重矩陣規模非常大）。舉個栗子，我們擁有10000個單詞的詞

訓練模型之loss曲線滑動平均

相關推薦