1. 程式人生 > >這些神經網路調參細節,你都瞭解了嗎

這些神經網路調參細節,你都瞭解了嗎

【磐創AI導讀】:本文主要介紹了神經網路調參並附有python程式碼介紹。

今天在寫畢設的時候又回顧了一下神經網路調參的一些細節問題,特來總結下。主要從weight_decay,clip_norm,lr_decay說起。

以前剛入門的時候調參只是從hidden_size,hidden_num,batch_size,lr,embed_size開始調,但是後來才逐漸明白embed_size一般是設定完後不用再調的,比如設定為128後,就不要調了,因為embed_size只是表示將詞嵌入到幾維的空間而已。lr也一般都有固定值,比如選取優化器Adam的時候,lr=0.001,選取優化器SGD的時候,lr=0.01,hidden_num一般設定為1的時候就行,2層以上在簡單的網路上只會到的適得其反的效果。

所以剩下該調的也只有hidden_size,batch_size,weight_decay,clip_norm,lr_decay了。但是hidden_size,batch_size大家應該知道怎麼調,這裡就不講了。還有其他的調參細節部分,等以後詳細用到了再總結給大家。

weight_decay
weight_decay即權重衰退。為了防止過擬合,在原本損失函式的基礎上,加上L2正則化,而weight_decay就是這個正則化的lambda引數,一般設定為1e-8,所以調參的時候調整是否使用權重衰退即可。這個防止過擬合的正則化我之前和dropout一起講過的,想要鞏固下,點這裡。

pytorch實現程式碼:

image


self.HyperParams裡封裝的就是我的所有引數,而decay是這裡說的weight_decay,值為1e-8.

對weight_decay我做了實驗,資料對比:

image

F1為一個評測值,想了解的更加詳細的,點這裡。
可以從實驗看出weight_decay還是有點效果的,但不是對所有的試驗有效果,所以這也是調參的一部分。


相關推薦

這些神經網路調細節瞭解

【磐創AI導讀】:本文主要介紹了神經網路調參並附有python程式碼介紹。今天在寫畢設的時候又回顧了一下神經網路調參的一些細節問題,特來總結下。主要從weight_decay,clip_norm,lr_decay說起。以前剛入門的時候調參只是從hidden_size,hidd

這些Java基礎面試知識點掌握

本文主要是我最近複習Java基礎原理過程中寫的Java基礎學習總結。Java的知識點其實非常多,並且有些知識點比較難以理解,有時候我們自以為理解了某些內容,其實可能只是停留在表面上,沒有理解其底層實現原理。 紙上得來終覺淺,絕知此事要躬行。筆者之前對每部分的內容 對做了比較深入的學習以及程式碼實

對映的這些問題清楚

那些年,你們問過的EOS對映問題,全在這裡了!1、什麼叫做對映?當下EOS主網並沒有真正上線,實際市場上流通的也只是基於以太坊網路的代幣,並不是真正意義上的EOS。當主網上線後,這些代幣就將完成自己的使命,被真正的加密貨幣EOS取代,而完成這一過程的操作就叫做對映。 2.eos的對映什麼時候截止,可以在哪幾個

面試中常問的List去重問題答對

面試中經常被問到的list如何去重,用來考察你對list資料結構,以及相關方法的掌握,體現你的java基礎學的是否牢固。 我們大家都知道,set集合的特點就是沒有重複的元素。如果集合中的資料型別是基本資料型別,可以直接將list集合轉換成set,就會自動去除重複的元素,這個就相對比較簡單。

大資料開發學習路線圖學會

大資料路線;   在這裡還是要推薦下我自己建的大資料學習交流群:199427210,群裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料軟體開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,

CSS的23個垂直居中技巧學會

網頁CSS的垂直居中需求始終沒有停過,而其困難度也始終沒有讓人輕鬆過,經過了每位開發先烈的研究後,據說CSS的垂直居中技巧已達到近十種之多,但始終鮮為人知,部分公司甚至將CSS的垂直居中技巧當成面試題,其重要性可見一斑。 在不斷探索,發現中,CSS的垂直居中的方式竟然能達到23種,大家可以看看自己熟知的是哪

Java String 物件真的瞭解

String 物件的實現 String物件是 Java 中使用最頻繁的物件之一,所以 Java 公司也在不斷的對String物件的實現進行優化,以便提升String物件的效能,看下面這張圖,一起了解一下String物件的優化過程。 1. 在 Java6 以及之前的版本中 String物件是對 char 陣

這麼香的Chrome外掛安裝

工欲善其事必先利其器,今天長話短說,介紹13個敏捷、高效的Chrome外掛 根據使用方式,本人將其劃分為三大類: 開發者工具 日常效率工具類 瀏覽器管理類 開發者工具 1. Web Developer Web Developer 這款擴充套件集成了各種各樣的 Web 開發工具,幾乎是網頁開發人員必備的

【Java8新特性】介面中的預設方法和靜態方法掌握

## 寫在前面 > 在Java8之前的版本中,介面中只能宣告常量和抽象方法,介面的實現類中必須實現介面中所有的抽象方法。而在Java8中,介面中可以宣告預設方法和靜態方法,本文,我們就一起探討下介面中的預設方法和靜態方法。 ## 介面中的預設方法 Java 8中允許介面中包含具有具體實現的方法,該

Java多執行緒併發05——那麼多的鎖瞭解

> 在多執行緒或高併發情境中,經常會為了保證資料一致性,而引入鎖機制,本文將為各位帶來有關鎖的基本概念講解。關注我的公眾號「Java面典」瞭解更多 Java 相關知識點。 根據鎖的各種特性,可將鎖分為以下幾類: * 樂觀鎖/悲觀鎖 * 獨享鎖(互斥鎖)/共享鎖(讀寫鎖) * 可重入鎖 * 公平鎖/非公平鎖

卷積神經網路調技巧(2)--過擬合(Dropout)

Dropout(丟棄) 首先需要講一下過擬合,訓練一個大型網路時,因為訓練資料有限,很容易出現過擬合。過擬合是指模型的泛化能力差,網路對訓練資料集的擬合能力很好,但是換了其他的資料集,擬合能力就變差了

網路工程師高手養成記(集)湊齊

多數網工都聽過很多教程,看過很多書,尤其是剛畢業的網工,剛剛考完CCIE或HCIE,鬥志昂揚,但在聽到需求後卻無從下手。 老師講過OSPF骨幹區域和Normal區域,講過各種LSA,但沒講一個城市5個Site該怎麼連線最好,拉光纖,MSTP專線,MPLS專線還是IPSEC V P N ?VLAN怎麼設

#乾貨文:java多執行緒高階教程這些

一、countdownLatch和cyclicbarrier(這兩個做多執行緒控制很好用,工作中會經常用到) countdownLatch:主執行緒阻塞,當多個執行緒countdown到0,主執行緒執行; cyclicbarrier:多個執行緒等待,當都處於等待

這些Spring中的設計模式知道

設計模式作為工作學習中的枕邊書,卻時常處於勤說不用的尷尬境地,也不是我們時常忘記,只是一直沒有記憶。 Spring作為業界的經典框架,無論是在架構設計方面,還是在程式碼編寫方面,都堪稱行內典範。好了,話不多說,開始今天的內容。 spring中常用的設計模式達到九種,我

【本人禿頂程式設計師】這些Spring中的設計模式知道

←←←←←←←←←←←← 快!點關注!!! 設計模式作為工作學習中的枕邊書,卻時常處於勤說不用的尷尬境地,也不是我們時常忘記,只是一直沒有記憶。 Spring作為業界的經典框架,無論是在架構設計方面,還是在程式碼編寫方面,都堪稱行內典範。好了,話不多說,開始今天的內容。 spri

無線網網速不給力這些操作

現在手機的不斷髮展,對於網際網路時代來說,網路是我們必不可少的,我們生活中幾乎都離不開網路,家裡的需要無線網,公司也需要無線網,但是如果無線網的網速過慢,訊號差我,哦們豈不是要抓狂?對於無線網變慢,小編和你們分享幾個技巧! 一.我們的無線網路由器大部分都是有天線的,如果是兩條的話,記得一條

測試大牛是這樣學習的get到?(做到這些也可以)

      有不少的軟體測試工程師站在“十字路口”迷茫、無助,找不到自己的方向。一切的迷茫都是因為想得太多而做的太少!每位軟體測試行業從業者都能意識到目前自己面臨的窘境,但能及時作出改變,順應時代變化的人還是太少。多數人明明“泰山崩於前而面色如土”卻只能眼睜睜看著自己被行業淘

APP早期運營盲點這些解決

app上線之後,接下來的重任一定是推廣,早期的推廣事情比較繁瑣,需要建設的內容也很多,當然這期間會有很多的問題出現,不管是運營還是CEO都會有很多的疑問,所以,我們一定要了解這裡面的問題,下面我們就一起來看下app運營推廣中的有哪些盲點吧。 問題1:安卓應用市場做評分評級有

這些 Spring 中的設計模式知道

開發十年,就只剩下這套架構體系了! >>>   

2019年一半已過這些大前端技術GET?- 上篇

一晃眼2019年已過大半,年初信誓旦旦要學習新技能的小夥伴們立的flag都完成的怎樣了?2019年對於大前端技術領域而言變化不算太大,目前三大技術框架日趨成熟,短期內不大可能出現顛覆性的前端框架(內心OS:出了也學不動了)。 本文結合個人和團隊經歷對2019上半年做個技術總結,將各類技術框架/語言/工具分作