1. 程式人生 > >pytorch學習筆記(二):gradient

pytorch學習筆記(二):gradient

gradient

BP的時候,pytorch是將Variable的梯度放在Variable物件中的,我們隨時都可以使用Variable.grad得到對應Variablegrad。剛建立Variable的時候,它的grad屬性是初始化為0.0的。

import torch
from torch.autograd import Variable
w1 = Variable(torch.Tensor([1.0,2.0,3.0]),requires_grad=True)#需要求導的話,requires_grad=True屬性是必須的。
w2 = Variable(torch.Tensor([1.0,2.0,3.0
]),requires_grad=True) print(w1.grad) print(w2.grad)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
Variable containing:
 0
 0
 0
[torch.FloatTensor of size 3]

Variable containing:
 0
 0
 0
[torch.FloatTensor of size 3]

從下面這兩段程式碼可以看出,Variablegrad是累加的即: Variable.grad=Variable.grad+new_grad

d = torch.mean(w1)
d.backward()
w1.grad
  • 1
  • 2
  • 3
  • 1
  • 2
  • 3
Variable containing:
 0.3333
 0.3333
 0.3333
[torch.FloatTensor of size 3]
d.backward()
w1.grad
  • 1
  • 2
  • 1
  • 2
Variable containing:
 0.6667
 0.6667
 0.6667
[torch.FloatTensor of size 3]

既然累加的話,那我們如何置零呢?

w1.grad.data.zero_()
w1.grad
  • 1
  • 2
  • 1
  • 2
Variable containing:
 0
 0
 0
[torch.FloatTensor of size 3]

通過上面的方法,就可以將grad置零。通過打印出來的資訊可以看出,w1.grad其實是Tensor。現在可以更清楚的理解一下VariableTensor之間的關係,上篇部落格已經說過,Variable

Tensor的一個wrapper,那麼到底是什麼樣的wrapper呢?從目前的掌握的知識來看,一個是儲存weightsTensor,一個是儲存gradVariableVariable的一些運算,實際上就是裡面的Tensor的運算。 
pytorch中的所有運算都是基於Tensor的,Variable只是一個WrapperVariable的計算的實質就是裡面的Tensor在計算。Variable預設代表的是裡面儲存的Tensorweights)。理解到這,我們就可以對grad進行隨意操作了。

# 獲得梯度後,如何更新
learning_rate = 0.1
#w1.data -= learning_rate * w1.grad.data 與下面式子等價
w1.data.sub_(learning_rate*w1.grad.data)# w1.data是獲取儲存weights的Tensor
  • 1
  • 2
  • 3
  • 4
  • 1
  • 2
  • 3
  • 4

這裡更新的時候為什麼要用Tensor更新,為什麼不直接用Variable? 
Variable更多是用在feedforward中的,因為feedforward是需要記住各個Tensor之間聯絡的,這樣,才能正確的bpTensor不會記錄路徑。而且,如果使用Variable操作的話,就會造成迴圈圖了(猜測)。