1. 程式人生 > >梯度下降法的簡單理解(含示例)

梯度下降法的簡單理解(含示例)

梯度下降法的原理和公式這裡不講,就是一個直觀的、易於理解的簡單例子。

1.最簡單的情況,樣本只有一個變數,即簡單的(x,y)。多變數的則可為使用體重或身高判斷男女(這是假設,並不嚴謹),則變數有兩個,一個是體重,一個是身高,則可表示為(x1,x2,y),即一個目標值有兩個屬性。

2.單個變數的情況最簡單的就是,函式hk(x)=k*x這條直線(注意:這裡k也是變化的,我們的目的就是求一個最優的   k)。而深度學習中,我們是不知道函式的,也就是不知道上述的k。   這裡討論單變數的情況:

  在不知道k的情況下,我們是通過樣本(x1,y1),(x2,y2),(xn,yn)來獲取k。獲取的k的好壞則有損失函式來衡量。

  損失函式:就是你預測的值和真實值的差異大小(比如一個樣本(1,1)他的真實值是1,而你預測的是0.5,則差異   比較大,如果你預測值為0.9999,則差異就比較小了)。

  損失函式為定義如下(此處為單變數的情況)

   

  目的是求使損失函式最小的變數k(注意和變數x區分),則將損失函式對k求導(多變數時為求偏導得梯度,這裡單變數求導,其實不算梯度),求偏導如下:

   

  然後迭代,迭代時有個步長alpha,(深度學習中貌似叫學習率)

  

3.例子     

    假如我們得到樣本(1,1),(2,2),(3,3).其實,由這三個樣本可以得到函式為y = 1*x。此時損失函式為0.而機器是不知道的,所以我們需要訓練。

    下面是一段python程式碼。

import numpy as np
import matplotlib.pyplot as plt
x=np.arange(-5, 5, 0.001)
y=(((x-1)*(x-1)+(x*2-2)*(x*2-2)+(x*3-3)*(x*3-3))*1/6.0)
plt.plot(x,y)  
#plt.show()    #顯示圖形  



def sum(x):
    return ((x*1-1)*1+(x*2-2)*2+(x*3-3)*3)
def fun(x):
    return ((1/3.0)*sum(x))
old = 0
new = 5
step = 0.01
pre = 0.00000001

def src_fun(x):
    print(((x-1)*(x-1)+(x*2-2)*(x*2-2)+(x*3-3)*(x*3-3))*1/6.0)
    
while abs(new-old)>pre:
    old = new
    #src_fun(old)     #輸出每次迭代的損失值
    new = new - step*fun(old)
    

print(new)
print(src_fun(new))
    


下圖是損失函式的影象,損失函式中變數是k。下圖橫座標為k的不同取值,縱軸為對應的損失大小。由下圖可以大致看出,當k為1時,損失函式值為0。注意:這裡取的最優值k=1是在我們已有樣本的情況下得出的,樣本不同,k值自然不同。


下面是print(new)和print(src_fun(new))的輸出結果