改變keras模型引數來提高kaggle手寫體數字識別

阿新 • • 發佈：2019-01-21

一開始使用的是alexnet模型，最好達到了99.271的成績。在成績榜上大概應在20%左右。所以還想繼續改進一下模型，一開始想的是使用修改超引數，以及加入隨機失活，bn層，應用了資料增強。先說一下超引數的改變：更改過濾器的數量，更改batch_size，應用了學習率退火。

更改過濾器的數量

改動：應用了自己上一個筆記中講的模型，更改了第一個第二個的卷積層的過濾器數量。
結果：一個epoch的執行時間並沒有太大的變化，最初的驗證集的準確率有所升高，損失值有下降，但是最後提交的準確率也沒有太大的變化。

更改batch_size

改動：將batch_size從200降到了100。
結果：一個epoch的執行時間快了一點。驗證集的準確率最後提升了一點，但提交後的成績反而下降了，可能是減少的batch_size不能更好的模擬完整的訓練集。

使用學習率退火

一開始的學習率可能在起始時表現的很好，但在訓練一段時間過後，可能一直達不到最優值，這時候就可以減少學習率來慢慢達到最優值。
改動：

learning_rate_reduction = ReduceLROnPlateau(monitor='val_loss', 
                                            patience=3, 
                                            verbose=1, 
                                            factor 
=0.5, 
                                            min_lr=0.00001)

監督的值，過幾個回合，乘以0.5，最小的學習率(keras中文文件)

model.fit(train_images, train_labels, validation_data=(validation_images,      validation_labels), epochs=60, batch_size=100, verbose=2,callbacks=[learning_rate_reduction])

這裡應用了回撥函式來使用學習率退火。
結果：同上述引數改動一樣，結果並沒有什麼太大的改變，但是在最後幾次epoch中，確實都更要接近最優值，更穩定。

小結

我們通過幾次引數的改變還有資料增強都沒有使得最終的成績有所提高，有些改變還使得成績下降。所以猜測可能是模型不夠複雜，不能夠表達更復雜的式子，模型本身的效能，容量限制了它的提升。所以後來採用了更深的類VGG模型。

更改網路結構

改動：

    model.add(Convolution2D(filters = 32, kernel_size = (5,5),padding = 'Same', 
                 activation ='relu', input_shape = (28,28,1)))
    model.add(Convolution2D(filters = 32, kernel_size = (5,5),padding = 'Same', 
                 activation ='relu'))
    model.add(MaxPooling2D(pool_size=(2,2)))
    model.add(Dropout(0.25))


    model.add(Convolution2D(filters = 64, kernel_size = (3,3),padding = 'Same', 
                 activation ='relu'))
    model.add(Convolution2D(filters = 64, kernel_size = (3,3),padding = 'Same', 
                 activation ='relu'))
    model.add(MaxPooling2D(pool_size=(2,2), strides=(2,2)))
    model.add(Dropout(0.25))


    model.add(Flatten())
    model.add(Dense(256, activation = "relu"))
    model.add(Dropout(0.5))
    model.add(Dense(10, activation = "softmax"))

結果：執行一次epoch時間增加很多，成績提升到了99.5左右。

使用BN層

改動：在每個卷積層使用BN。
結果：發現模型收斂的更快，使用更少的步驟就能達到一樣的準確率。但是可能對準確率很高的模型並沒有太大的提升。

使用dropout

改動：在每個fc層加入dropout
結果：最後的準確率有所提升。看來dropout還是能控制過擬合。

使用資料增強

在keras文件中，有對圖片預處理的函式。利用一個圖片迭代器。各引數都有介紹。
資料增強：通過改變灰度，旋轉等方法來使圖片稍有不同，保持標籤不同，這能有效的控制過擬合，提升模型的泛化能力。

datagen = ImageDataGenerator(
        featurewise_center=False,  # set input mean to 0 over the dataset
        samplewise_center=False,  # set each sample mean to 0
        featurewise_std_normalization=False,  # divide inputs by std of the dataset
        samplewise_std_normalization=False,  # divide each input by its std
        zca_whitening=False,  # apply ZCA whitening
        rotation_range=10,  # randomly rotate images in the range (degrees, 0 to 180)
        zoom_range = 0.1, # Randomly zoom image 
        width_shift_range=0.1,  # randomly shift images horizontally (fraction of total width)
        height_shift_range=0.1,  # randomly shift images vertically (fraction of total height)
        horizontal_flip=False,  # randomly flip images
        vertical_flip=False)  # randomly flip images

使用了圖片生成器在fit中要使用fit_generator。.flow()接收numpy陣列和標籤為引數,生成經過資料提升或標準化後的batch資料,並在一個無限迴圈中不斷的返回batch資料.

history = model.fit_generator(datagen.flow(train_images, train_labels, batch_size=86),
                              epochs = 30, validation_data = (validation_images,validation_labels),
                              verbose = 2, steps_per_epoch=train_images.shape[0] // 86
                              , callbacks=[learning_rate_reduction])

這裡要注意的是，fit與fit_generator的區別。fit_generator裡的一個epoch裡包含的是steps_per_epoch * batch_size。steps_per_epoch應該等於你資料集的數量除以batch_size。
結果：發現成績大有提升!提升到了99.678。

小結

我們在想要改變引數時，首先要考慮的是整個網路結構。整個網路是不是效能足夠，容量足夠來通過改變引數得到更好的結果。所以現在的網路都是想要做的更深，因為更深的網路能過表達更復雜的式子，模型的容量更大。
BN層能夠加速模型的訓練，收斂速度。並且不需要很仔細引數的初始化，還能使用更高的學習率。
dropout能夠很好地控制過擬合。
資料增強很強大，增大訓練集數量，提升模型的泛化能力。
batch_size應該有一個比較合理的範圍，不能盲目地增大，縮小。
學習率退火有利於找到一個最優值。

改變keras模型引數來提高kaggle手寫體數字識別

更改過濾器的數量

更改batch_size

使用學習率退火

小結

更改網路結構

使用BN層

使用dropout

使用資料增強

小結

改變keras模型引數來提高kaggle手寫體數字識別

keras解決kaggle-手寫體數字識別

優化Linux的核心引數來提高伺服器併發處理能力

keras實現手寫體數字識別功能的CNN

使用L2正則化和平均滑動模型的LeNet-5MNIST手寫數字識別模型

支援向量機（SVM）實現MNIST手寫體數字識別

GradientBoosting和AdaBoost實現MNIST手寫體數字識別

python資料建模與KNN演算法實現手寫體數字識別

DeepLearning4j實戰(7)：手寫體數字識別GPU實現與效能比較

Deeplearning4j 實戰（2）：Deeplearning4j 手寫體數字識別Spark實現

載入卷積神經網路實現手寫體數字識別

執行手寫體數字識別例程

matlab+BP神經網路實現手寫體數字識別

深度學習筆記——TensorFlow學習筆記（三）使用TensorFlow實現的神經網路進行MNIST手寫體數字識別

C++使用matlab卷積神經網路庫MatConvNet來進行手寫數字識別

Tensorflow解決MNIST手寫體數字識別

Deeplearning4j 實戰（2）：Deeplearning4j 手寫體數字識別Spark實現【轉】

TensorFlow的layer層搭建卷積神經網路（CNN），實現手寫體數字識別

keras實現mnist資料集手寫數字識別

Keras中將LSTM用於mnist手寫數字識別

改變keras模型引數來提高kaggle手寫體數字識別

更改過濾器的數量

更改batch_size

使用學習率退火

小結

更改網路結構

使用BN層

使用dropout

使用資料增強

小結

相關推薦