深度學習 - 模型調優經歷（1）

阿新 • • 發佈：2019-01-01

模型調優經歷（1）

背景
遇到問題
思路
解決辦法

背景
1. 樣本規模及劃分
  
  $\bullet$ 二分類問題，正負樣本 1:1，特徵數：20
  
  $\bullet$ 訓練集：3475；測試集：896；驗證集：1087
2. 使用模型
  
  $\bullet$
  
  $∙$ 深度學習模型
  $\bullet$ 損失函式使用對數損失函式：binary_crossentropy
  $\bullet$ 優化方法：Adam，lr = 0.0035
遇到問題

訓練中的損失函式正常下降，測試集中的損失函式正常下降；

訓練中的預測準確率達到 99%

但關鍵問題是：在測試集的損失函式正常下降的情況下，測試集精度非常不穩定！就我以前的認知來講，過擬合，是在訓練集上準確好而測試集上不好，即二者有較大差距，但之前沒有見過測試集上震盪如此大的情況，一時有些不解。

如圖：

在測試集上的準確度震盪非常厲害！
思路

對於損失函式，雖然在下降，但卻是在10左右（後來幾次是 3 左右），距離最優損失值 0 仍有差距。所以我認為，此時情況相當於預測值在類別 0，與類別 1 周圍的分佈較為離散，而距離常用的閾值 0.5 來說比較接近，當預測值稍微改變，可能就跨過閾值0.5，成為另一個類別。相當於預測值都在黑色框裡，雖然可以被分類正確，但很容易受影響。

對於測試精度不穩定忽高忽低，可以說明泛化能力不穩定，有可能學到噪聲或訊號中的干擾，易受噪聲影響。

綜上，說明此時的模型預測結果方差大，易受波動，表明是過擬合的。
解決辦法

因為使用的資料量不是很大，特徵數並不多，所以不需要使用 dropout 或更嚴格的正則化，只需降低複雜的網路結構，減少層數，降低神經元結點即可。

在降低模型複雜度後損失函式值與測試準確度完全負相關，在驗證集上正確率為98.6%，損失值為：0.097，且最終 AUC 達到 0.995.

問題解決。

深度學習 - 模型調優經歷（1）

模型調優經歷（1）背景遇到問題思路解決辦法背景樣本規模及劃分

深度學習模型調優方法（Deep Learning學習記錄）

深度學習模型的調優，首先需要對各方面進行評估，主要包括定義函式、模型在訓練集和測試集擬合效果、交叉驗證、啟用函式和優化演算法的選擇等。那如何對我們自己的模型進行判斷呢？——通過模型訓練跑程式碼，我們可以分別從訓練集和測試集上看到這個模型造成的損失大小（loss），還有它的精確率（ac

吳恩達《深度學習》第一門課（1）深度學習引言

數據規模梯度神經網絡以及應該精確構建關於 http 1.1歡迎主要講了五門課的內容：第一門課：神經網絡基礎，構建網絡等；第二門課：神經網絡的訓練技巧；第三門課：構建機器學習系統的一些策略，下一步該怎麽走（吳恩達老師新書《Machine Learning

深度學習模型壓縮方法綜述（一）

前言目前在深度學習領域分類兩個派別，一派為學院派，研究強大、複雜的模型網路和實驗方法，為了追求更高的效能；另一派為工程派，旨在將演算法更穩定、高效的落地在硬體平臺上，效率是其追求的目標。複雜的模型固然具有更好的效能，但是高額的儲存空間、計算資源消耗是使其難以有

PyTorch 深度學習:60分鐘快速入門（1） ----什麼是PyTorch

本文翻譯的版本是pytorch 1.0.0官方文件譯自 pytorch官方文件作者：Soumith Chintala 教程目標：深入理解PyTorch張量庫和神經網路訓練一個小的神經網路來分類圖片這個教程假設你熟悉numpy的基本操作。

深度學習模型壓縮方法綜述（三）

前言在前兩章，我們介紹了一些在已有的深度學習模型的基礎上，直接對其進行壓縮的方法，包括核的稀疏化，和模型的裁剪兩個方面的內容，其中核的稀疏化可能需要一些稀疏計算庫的支援，其加速的效果可能受到頻寬、稀疏度等很多因素的制約；而模型的裁剪方法則比較簡單明瞭，直接在原有的模型上剔除掉

基於Matconvnet深度學習框架的方言分類（1）

背景本文是基於Matconvnet深度學習框架對方言音訊檔案進行分類，介紹如下：預處理資料聲譜圖預處理資料都是對音訊檔案進行處理，我們都知道 CNN 主要是針對二維資料做分類等，因此我們第一步需要做的是將一維的音訊訊號，通過呼叫specgram函式將音訊檔案轉換成聲譜

六種人體姿態估計的深度學習模型和程式碼總結（轉載）

六種人體姿態估計的深度學習模型和程式碼總結姿態估計的目標是在RGB影象或視訊中描繪出人體的形狀，這是一種多方面任務，其中包含了目標檢測、姿態估計、分割等等。有些需要在非水平表面進行定位的應用可能也會用到姿態估計，例如圖形、增強現實或者人機互動。姿態估計同樣包

Dubbo 效能調優經歷（一）

Dubbo調優經歷原型階段，主要影響如下：服務的日誌I/O 會影響效能。資料庫的I/O 會嚴重影響效能。服務的部署情況會影響效能。原型優化： 1.優化資料庫，嘗試使用記憶體，增大記憶體buff。 2.調整服務部署，服務間呼叫，由於該宿主機器的cpu佔用率不同和

深度學習模型調參-基於keras的python學習筆記（四）

版權宣告：本文為博主原創文章，未經博主允許不得轉載。 https://blog.csdn.net/weixin_44474718/article/details/86250535 適用於少量資料的實驗是非常有效的方法。 from keras.models import Sequent

JVM調優總結（五）-分代垃圾回收詳述1

為什麼要分代分代的垃圾回收策略，是基於這樣一個事實：不同的物件的生命週期是不一樣的。因此，不同生命週期的物件可以採取不同的收集方式，以便提高回收效率。在Java程式執行的過程中，會產生大量的物件

深度學習模型的量化方法（論文學習 & tensorflow lite量化方法）

curl -L "https://storage.googleapis.com/download.tensorflow.org/models/inception_v3_2016_08_28_frozen.pb.tar.gz" | tar -C tensorflow/examples/label_imag

Coursera吳恩達《優化深度神經網路》課程筆記（1）-- 深度學習的實用層面

Andrew Ng的深度學習專項課程的第一門課《Neural Networks and Deep Learning》的5份筆記我已經整理完畢。迷路的小夥伴請見如下連結：在接下來的幾次筆記中，我們將對第二門課《Improving Dee

caffe︱深度學習引數調優雜記+caffe訓練時的問題+dropout/batch Normalization

一、深度學習中常用的調節引數 1、學習率步長的選擇：你走的距離長短，越短當然不會錯過，但是耗時間。步長的選擇比較麻煩。步長越小，越容易得到區域性最優化（到了比較大的山谷，就出不去了），而大了會全域性最優一般來說，前1000步，很大，0.1；到了後面，迭代次數增高，

深度學習與人臉識別系列（4）__vgg人臉識別模型測試

# -*- coding: utf-8 -*- #想要加中文註釋就必須將字元編碼格式設定為utf8 #作者:郭開 import numpy as np import os import cv2 import cv2.cv as cv from skimage import transform as tf

深度學習演算法調優trick總結

1：優化器。機器學習訓練的目的在於更新引數，優化目標函式，常見優化器有SGD，Adagrad，Adadelta，Adam，Adamax，Nadam。其中SGD和Adam優化器是最為常用的兩種優化器，SGD根據每個batch的資料計算一次區域性的估計，最小化代價函式。學

深度學習與人臉識別系列（3）__利用caffe訓練深度學習模型

name: "VGG_FACE_16_layers" layer { top: "data_1" top: "label_1" name: "data_1" type: "Data" data_param { source: "/media/gk/9ec75485-26b1-471

深度學習與人臉識別系列（5）__vgg人臉識別模型測試

# -*- coding: utf-8 -*- #想要加中文註釋就必須將字元編碼格式設定為utf8 #作者:郭開 import numpy as np import os import cv2 import cv2.cv as cv from skimage import transform as tf f

深度學習與人臉識別系列（4）__利用caffe訓練深度學習模型

name: "VGG_FACE_16_layers" layer { top: "data_1" top: "label_1" name: "data_1" type: "Data" data_param { source: "/media/gk/9ec75485-26b1-471

【安全牛學習筆記】Web掃描器（1）

安全 web 漏洞 1.偵察httrack可將目標網站的網頁全部爬取下來,減少偵察過程中與目標服務器發生的交互。 2.Nikto(1).檢測對象掃描軟件版本搜索存在安全隱患的文件配置漏洞

深度學習 - 模型調優經歷（1）

模型調優經歷（1）

背景

遇到問題

思路

解決辦法

相關推薦