淺談深度學習中超引數調整策略

阿新 • • 發佈：2019-01-19

歡迎訪問Oldpan部落格，分享人工智慧有趣訊息，持續醞釀深度學習質量文。

前言

深度學習中，設計模型以及保證模型的正確性是首要需要考慮的。當模型設定完成時，理論上模型不存在問題，實現效果也通過計算可以復現出來。一切準備就緒後，那麼接下來需要操作的就是——調參了。

正文

為什麼很多人都稱深度學習為煉丹？為什麼丹藥那麼難煉？為什麼為什麼，因為煉丹的調料放多少不知道啊？得一個一個去嘗試啊。

很多時候，模型搭建好了，但是隨之而來的就是引數選擇問題。引數選擇我們一般大概分為兩種方式，手動選擇和自動選擇。

手動選擇就是我們利用對模型的理解和對結果的分析進行調參，手動選擇引數，這樣準確率稍高一些，但是時間長了我們會受不了，有時候真的會懷疑人生。

自動選擇就是設計一個自動調參工具，讓程式自己跑就行了，當然這個對機子的要求高一些，相同情況下用GPU調參速度是用CPU的幾十倍。

接下來主要說一下自動選擇的幾個方式，程式利用pytorch程式碼說明。

手動選擇

手動選擇就是自個兒看，自己根據對模型的理解和對結果的分析進行，最好是視覺化卷積層進行分析，這樣可以觀察並慢慢尋找到一些迭代時隱藏的規律。

關於如何視覺化可以看一下，知乎上相關問題的回答。

自動選擇

自動選擇說白了就是讓程式碼一直跑，然後用你提供的不同超引數一遍一遍嘗試然後得到比較滿意的結果。

Photo by SigOpt

如上圖，假設我們有2個超引數(n_estimators

和max_depth)，每個超引數的取值的不同組合所得到的score結果也不同。取值越合適score越高，當然上面的圖只是展示了二維的超引數，如果是3個或3個以上的超引數，我們可以想象一個超平面，最合適的引數組合得到的分數在最高點。

網格搜尋

網格搜尋是我們最常用的超引數調參策略。我們把每個可能的超引數組合都寫下來，進行嘗試：

style_weights = [0.1, 0.5, 1, 1.5, 2.5, 5, 10, 15, 20, 50, 100, 150, 200, 500, 1000,
                 5000, 10000, 50000, 100000, 500000, 1000000]
content_weights = [1, 5, 10, 100]

比如上面的程式碼，我們有兩個超引數，分別是style_weight和content_weight，我們列出這些引數可能的值，然後進行訓練：

for i in range(len(content_weights)):
    for j in range(len(style_weights)):
        output = run_painterly_transfer(cnn, cnn_normalization_mean, cnn_normalization_std, style_img=style_image,
                                        content_img=content_image, mask_img=mask_image, tmask_img=tmask_image,
                                        style_weight=int(style_weights[j]), content_weight=int(content_weights[i]))

程式碼很簡單，通過迴圈將你覺得可能的引數都嘗試了一遍，我們可以在程式執行的過程中把你覺得需要的中間結果和最終結果都儲存到一個資料夾中，當訓練完成後去檢視分析即可。

整個過程就像下面的動圖：

Photo by SigOpt

一個一個找，嘗試就行了，可能某一天你睡覺起來，就會發現驚喜。

隨機搜尋

隨機搜尋就是利用分佈函式來模擬隨機數，然後利用隨機數生成的引數來進行訓練：

# 我們利用numpy中的隨機數生成器來生成隨機數
style_weights_rd = list(np.random.randint(0, 1000, size=20))
content_weights_rd = list(np.random.randint(0, 10, size=5))

同上面的引數一樣，只不過換成了在特定範圍的隨機值，當然這個範圍是我們自己定的。

然後將下面list換成隨機list即可：

for i in range(len(content_weights_rd)):
    for j in range(len(style_weights_rd)):
        output = run_painterly_transfer(cnn, cnn_normalization_mean, cnn_normalization_std, style_img=style_image,
                                        content_img=content_image, mask_img=mask_image, tmask_img=tmask_image,
                                        style_weight=int(style_weights_rd[j]), content_weight=int(content_weights_rd[i]))

整個過程動圖分析如下：

Photo by SigOpt

在《Random Search for Hyper-Parameter Optimization》這篇論文中提高了為什麼我們經常使用隨機搜尋而不是用網格，其實上面的圖很形象了，那就是實際中適合的引數往往在一個完整分佈中的一小塊部分，我們使用網路搜尋並不能保證直接搜尋到合適的超引數中，而隨機搜尋則大大提高了找到合適引數的可能性。

Photo by Bergstra, 2012

上圖則表明重要引數和不重要的引數在不同方法下的搜尋情況，我們給了兩個超引數，網格搜尋只能在我們設定的一小組範圍內進行，而隨機搜尋中的每個超引數是獨立的。也就是說網格搜尋因為我們的設定，超引數之間是有些許聯絡的，並不是獨一無二。研究表明隨機搜尋能夠更快地減少驗證集的誤差。

下面的程式碼中，加入content_weight中的1和5對結果的影響不大，但是我們通過for迴圈組合，和style_weights中的所有值都進行了嘗試了，顯然浪費了時間。

style_weights = [0.1, 0.5, 1, 1.5, 2.5, 5, 10, 15, 20, 50, 100, 150, 200, 500, 1000,
                   5000, 10000, 50000, 100000, 500000, 1000000]
content_weights = [1, 5, 10, 100]

貝葉斯優化

這個優化方法，說白了就是讓優化演算法來對超引數進行優化，也就是說，這個優化演算法的物件是超引數，然後結果是loss損失，通過求超引數對損失的梯度來實現對超引數的更新，呃，這個計算量真的很大很大，個人幾乎不用這個方法，一般都是大企業才會用。通過學習來調節引數，這個結果真的是更加不可預知的。

Photo by SigOpt

上面這個圖大概描述了這個過程，當然這只是“好的那一面”的過程。

後記

復現、調參並不容易，其實很多論文中實現的效果看起來不錯，但是實際上如果自己去復現是很難的。而且也有很多論文其實自身並沒有復現，只是理論上的實現就可以發表，神經網路在調參中不確定性因素太多，玄學深度學習名副其實。最後再強調一遍，如果超引數足夠多，訓練一兩個月都是有可能的。

所以說，路道阻且長。

此文由騰訊雲爬蟲爬取，文章來源於Oldpan部落格

歡迎關注Oldpan部落格公眾號，持續醞釀深度學習質量文：

淺談深度學習中超引數調整策略

前言

正文

手動選擇

自動選擇

網格搜尋

隨機搜尋

貝葉斯優化

後記

淺談深度學習中超引數調整策略

淺談深度學習落地問題

淺談深度學習的瓶頸

湯澄：淺談深度學習

周志華：淺談深度學習

淺談深度學習(Deep Learning)的基本思想和方法

深度學習中訓練引數的調節

淺談深度學習的落地問題

淺談深度學習:如何計算模型以及中間變數的視訊記憶體佔用大小

CNN/RNN網路各自引數含義、如何初始化引數，BP計算以及常見超引數調整策略。。。。

Keras/Python深度學習中的網格搜尋超引數調優（附原始碼）

淺談網路爬蟲中深度優先演算法和簡單程式碼實現

自動機器學習超引數調整（貝葉斯優化）

情感計算是人機互動核心？談深度學習在情感分析中的應用

淺談機器學習與深度學習的模型設計

Spark機器學習之模型選擇和超引數調整

【遊戲開發】淺談遊戲開發中常見的設計原則

淺談網絡中的IP地址

JAVAEE企業級應用開發淺談之MVC 中的V-VIEW視圖

前端知識 | 淺談在React中使用echarts

淺談深度學習中超引數調整策略

前言

正文

手動選擇

自動選擇

網格搜尋

隨機搜尋

貝葉斯優化

後記

相關推薦