1. 程式人生 > >資深程序員帶你玩轉深度學習中的正則化技術(附Python代碼)!

資深程序員帶你玩轉深度學習中的正則化技術(附Python代碼)!

c51 進行 ros batch num 簡單的 oat 深度學習 repr

技術分享圖片

技術分享圖片

目錄

1. 什麽是正則化?

2. 正則化如何減少過擬合?

3. 深度學習中的各種正則化技術:

L2和L1正則化

Dropout

數據增強(Data augmentation)

提前停止(Early stopping)

4. 案例:在MNIST數據集上使用Keras的案例研究

1. 什麽是正則化?

在深入該主題之前,先來看看這幾幅圖:

技術分享圖片

之前見過這幅圖嗎?從左到右看,我們的模型從訓練集的噪音數據中學習了過多的細節,最終導致模型在未知數據上的性能不好。

換句話說,從左向右,模型的復雜度在增加以至於訓練誤差減少,然而測試誤差未必減少。如下圖所示:

技術分享圖片

技術分享圖片

2. 正則化如何減少過擬合?

我們來看一個在訓練數據上過擬合的神經網絡,如下圖所示:

技術分享圖片

如果你曾經學習過機器學習中的正則化,你會有一個概念,即正則化懲罰了系數。在深度學習中,它實際上懲罰了節點的權重矩陣。

假設我們的正則化系數很高,以至於某些權重矩陣近乎於0:

技術分享圖片

這會得到一個簡單的線性網絡,而且在訓練數據集上輕微的欠擬合。

如此大的正則化系數並不是那麽有用。我們需要對其進行優化從而得到一個擬合良好的模型,正如下圖所示:

技術分享圖片

技術分享圖片

技術分享圖片

這裏,lambda是正則參數。它是一個超參數用來優化得到更好的結果。L2正則化也叫權重衰減(weight decay ) ,因 為 它 強 制 權 重朝著 0 衰減(但不會 為 0)

在L1中,我 們 有:

技術分享圖片

技術分享圖片

技術分享圖片

dropout做什麽呢?每次叠代,隨機選擇一些節點,將它們連同相應的輸入和輸出一起刪掉,如下圖:

技術分享圖片

所以,每一輪叠代都有不同的節點集合,這也導致了不同的輸出。它也可以被認為是一種機器學習中的集成技術(ensemble technique)。

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

Patience表示在該數量的epochs內沒有進一步的性能改進後,就停止訓練。為了更好地理解,我們再看看上面的圖。在虛線之後,每個epoch都會導致一個更高的驗證集錯誤。因此,在虛線之後的5個epoch(因為我們設置patience等於5),由於沒有進一步的改善,模型將停止訓練。

註意:可能在5個epoch之後(這是一般情況下為patience設定的值)模型再次開始改進,並且驗證集錯誤也開始減少。因此,在調整這個超參數的時候要格外小心。

技術分享圖片

技術分享圖片

現在,加載數據。

技術分享圖片

現在拿一些圖片來看看。

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

# import keras modulesfrom keras.models import Sequentialfrom keras.layers import Dense# define varsinput_num_units = 784hidden1_num_units = 500hidden2_num_units = 500hidden3_num_units = 500hidden4_num_units = 500hidden5_num_units = 500output_num_units = 10epochs = 10batch_size = 128model = Sequential([Dense(output_dim=hidden1_num_units, input_dim=input_num_units, activation=‘relu‘),Dense(output_dim=hidden2_num_units, input_dim=hidden1_num_units, activation=‘relu‘),Dense(output_dim=hidden3_num_units, input_dim=hidden2_num_units, activation=‘relu‘),Dense(output_dim=hidden4_num_units, input_dim=hidden3_num_units, activation=‘relu‘),Dense(output_dim=hidden5_num_units, input_dim=hidden4_num_units, activation=‘relu‘),Dense(output_dim=output_num_units, input_dim=hidden5_num_units, activation=‘softmax‘),])

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

註意這裏lambda的值等於0.0001. 太棒了!我們獲得了一個比之前NN模型更好的準確率。

現在嘗試一下L1正則化。

## l1model = Sequential([Dense(output_dim=hidden1_num_units, input_dim=input_num_units, activation=‘relu‘,kernel_regularizer=regularizers.l1(0.0001)),Dense(output_dim=hidden2_num_units, input_dim=hidden1_num_units, activation=‘relu‘,kernel_regularizer=regularizers.l1(0.0001)),Dense(output_dim=hidden3_num_units, input_dim=hidden2_num_units, activation=‘relu‘,kernel_regularizer=regularizers.l1(0.0001)),Dense(output_dim=hidden4_num_units, input_dim=hidden3_num_units, activation=‘relu‘,kernel_regularizer=regularizers.l1(0.0001)),Dense(output_dim=hidden5_num_units, input_dim=hidden4_num_units, activation=‘relu‘,kernel_regularizer=regularizers.l1(0.0001)),Dense(output_dim=output_num_units, input_dim=hidden5_num_units, activation=‘softmax‘),])model.compile(loss=‘categorical_crossentropy‘, optimizer=‘adam‘, metrics=[‘accuracy‘])trained_model_5d = model.fit(x_train, y_train, nb_epoch=epochs, batch_size=batch_size, validation_dat

這次並沒有顯示出任何的改善。我們再來試試dropout技術。

## dropoutfrom keras.layers.core import Dropoutmodel = Sequential([Dense(output_dim=hidden1_num_units, input_dim=input_num_units, activation=‘relu‘),Dropout(0.25),Dense(output_dim=hidden2_num_units, input_dim=hidden1_num_units, activation=‘relu‘),Dropout(0.25),Dense(output_dim=hidden3_num_units, input_dim=hidden2_num_units, activation=‘relu‘),Dropout(0.25),Dense(output_dim=hidden4_num_units, input_dim=hidden3_num_units, activation=‘relu‘),Dropout(0.25),Dense(output_dim=hidden5_num_units, input_dim=hidden4_num_units, activation=‘relu‘),Dropout(0.25),Dense(output_dim=output_num_units, input_dim=hidden5_num_units, activation=‘softmax‘),])model.compile(loss=‘categorical_crossentropy‘, optimizer=‘adam‘, metrics=[‘accuracy‘])trained_model_5d = model.fit(x_train, y_train, nb_epoch=epochs, batch_size=batch_size, validation_data=(x_test, y_test))

技術分享圖片

效果不錯!dropout也在簡單NN模型上給出了一些改善。

現在,我們試試數據增強。

from keras.preprocessing.image import ImageDataGeneratordatagen = ImageDataGenerator(zca_whitening=True)# loading datatrain = pd.read_csv(os.path.join(data_dir, ‘Train‘, ‘train.csv‘))temp = []for img_name in train.filename:image_path = os.path.join(data_dir, ‘Train‘, ‘Images‘, ‘train‘, img_name)img = imread(image_path, flatten=True)img = img.astype(‘float32‘)temp.append(img)x_train = np.stack(temp)X_train = x_train.reshape(x_train.shape[0], 1, 28, 28)X_train = X_train.astype(‘float32‘)

技術分享圖片

## splittingy_train = keras.utils.np_utils.to_categorical(train.label.values)split_size = int(x_train.shape[0]*0.7)x_train, x_test = X_train[:split_size], X_train[split_size:]y_train, y_test = y_train[:split_size], y_train[split_size:]## reshapingx_train=np.reshape(x_train,(x_train.shape[0],-1))/255x_test=np.reshape(x_test,(x_test.shape[0],-1))/255## structure using dropoutfrom keras.layers.core import Dropoutmodel = Sequential([Dense(output_dim=hidden1_num_units, input_dim=input_num_units, activation=‘relu‘),Dropout(0.25),Dense(output_dim=hidden2_num_units, input_dim=hidden1_num_units, activation=‘relu‘),Dropout(0.25),Dense(output_dim=hidden3_num_units, input_dim=hidden2_num_units, activation=‘relu‘),Dropout(0.25),Dense(output_dim=hidden4_num_units, input_dim=hidden3_num_units, activation=‘relu‘),Dropout(0.25),Dense(output_dim=hidden5_num_units, input_dim=hidden4_num_units, activation=‘relu‘),Dropout(0.25),Dense(output_dim=output_num_units, input_dim=hidden5_num_units, activation=‘softmax‘),])model.compile(loss=‘categorical_crossentropy‘, optimizer=‘adam‘, metrics=[‘accuracy‘])trained_model_5d = model.fit(x_train, y_train, nb_epoch=epochs, batch_size=batch_size, validation_data=(x_test, y_test))

技術分享圖片

哇!我們在準確率得分上有了一個飛躍。並且好消息是它每次都奏效。我們只需要根據數據集中的圖像來選擇一個合適的實參。

現在,試一下最後一種技術——提前停止。

from keras.callbacks import EarlyStoppingmodel.compile(loss=‘categorical_crossentropy‘, optimizer=‘adam‘, metrics=[‘accuracy‘])trained_model_5d = model.fit(x_train, y_train, nb_epoch=epochs, batch_size=batch_size, validation_data=(x_test, y_test), callbacks = [EarlyStopping(monitor=‘val_acc‘, patience=2)])

技術分享圖片

可以看到我們的模型在僅僅5輪叠代後就停止了,因為驗證集準確率不再提高了。當我們使用更大值的epochs來運行它時,它會給出好的結果。你可以說它是一種優化epoch值的技術。

結語

我希望現在你已經理解了正則化以及在深度學習模型中實現正則化的不同技術。 無論你處理任何深度學習任務,我都強烈建議你使用正則化。它將幫助你開闊視野並更好的理解這個主題。

技術分享圖片

技術分享圖片

歡迎關註我的博客或者公眾號,咱麽一起學習:https://home.cnblogs.com/u/Python1234/ Python學習交流

歡迎加入我的千人交流學習答疑群:125240963

資深程序員帶你玩轉深度學習中的正則化技術(附Python代碼)!