優化演算法(一)SGD演算法實現
阿新 • • 發佈:2019-01-02
SGD隨機梯度下降演算法,和最常用的GD相比,GD每一次迭代都是所有樣本都一起進行計算,而SGD是每一次迭代中每個樣本分別進行計算,梯度演算法的最終目標是減少cost值,訓練出最優的引數值,GD每一次迭代都讓所有樣本去優化引數,一次迭代進行一次優化,而SGD一次只讓一個樣本去優化引數。
貼一下程式碼:
#SGD(w初始化使用 2/sqrt(l-1)) def SGD_model(X,Y,layer_dims,iter_times,alphs): costs = [] m = X.shape[1] n = X.shape[0] np.random.seed(3) parameters = initialize_parameters(layer_dims) for i in range(0,iter_times): for j in range(0,m): A,caches=forward_propagation(X[:,j].reshape(n,1),parameters) cost=cpmpute_cost(A,Y[:,j].reshape(1,1)) grads=back_propagation(Y[:,j].reshape(1,1),caches,parameters) parameters=update_parameters(parameters,grads,alphs) costs.append(cost) if i%100 == 0: print(cost) return costs,parameters
測試一下:
n=train_data_finalX.shape[0] layer_dims=[n,20,7,5,1] costs,parameters=SGD_model(train_data_finalX,train_data_finalY,layer_dims,500,0.0003) y_pred_train=predict(train_data_finalX,parameters) print('train acc is ',np.mean(y_pred_train == train_data_finalY)*100,'%') y_pred_test=predict(test_data_finalX,parameters) print('test acc is ',np.mean(y_pred_test == test_data_finalY)*100,'%')
#可以看到cost減低的是很快的,這裡打印出來的cost並不是每一次的cost值,只是挑著列印了幾個
#這個cost也不是所有樣本cost值加起來得到的,其實還是單個樣本的cost值
#過擬合現象還是很嚴重的
0.6967667264512503
0.3580429544797275
0.1366511629971142
0.013014664339787691
0.005059855441099931
train acc is 100.0 %
test acc is 84.0 %
特別要注意的是,可能會遇到cost值不降低,或者降低到一定值以後就不變了,這種情況預測值得到的可能都是0,可以試試這幾個解決辦法:
- w引數初始化,不要選擇在random以後乘以0.01,如果啟用函式使用的是tanh函式,使用(1/sqrt(上一層單元數)),如果使用的是relu則試試(2/sqrt(上一層單元數)),引數初始化對結果有很大的影響力度。
- 學習因子設定的小一點
- 如果出現嚴重的過擬合現象,可以試試增加隱藏層,或者隱藏層單元數