1. 程式人生 > >MIT6.S094深度學習與無人駕駛整理筆記(3)——————深度強化學習與運動規劃

MIT6.S094深度學習與無人駕駛整理筆記(3)——————深度強化學習與運動規劃

1.一個神經元類似一個與非門,神經元電路與與非閘電路相比,可以執行與非門的操作,且還能學習由與非閘電路表示的任意的邏輯功能,並不需要人類工程師對其干涉,並還能進一步對其優化。

缺點:輸出不是很平滑不能用階躍函式,機器學習的過程一般是逐漸調整這些權值的過程,看他如何影響神經網路的其他部分,觀察與基準資料之間的差距。啟用函式必須是平整的,GPU運算處理。

2.影象是畫素的集合,28×28則是由784是個輸入神經元,一旦每個資料概率被計算出來,用懲罰或者是回報去處理那些權值的梯度,用反向傳播。反向傳播:一種與最優化的方法(eg:梯度下降法)結合使用,是用來訓練人工神經網路的常見方法。

3.損失函式:用來估量模型的預測值與基準資料之間的不一致的程度,它是一個非負的實值函式。

損失函式越小模型的魯棒性越好,基本的損失函式是方差。損失函式是目標函式用來調整整個網路的反向傳播權重的,加多少或者減多少。    優化損失函式的基本操作是最小化該損失函式,用梯度下降的各種變形完成。這裡如果函式足夠平整、高緯度、高度非線性,則用梯度下降很好解決。且可以用一些隨機的元素防止陷入非常複雜的函式的區域性最小值。

Q-Learning:一個當我們行動的時候決策會被預測的方法這個決策被稱為Q函式,通過經驗去近似的最優的函式(利用貝爾曼(Bellman)函式),一開始會選擇非貪心的演算法探索,而後又會選擇貪心的演算法去探索。

4.監督學習:有輸入有輸出有基準資料,但是監督學習不能有很好的泛化能力,因為用神經網路建造現實智慧系統時,資料的資料集甚至於與基準資料相差很大,因為推理超出了訓練資料的風格。

5.強化學習可以描述為將獲得的知識以監督的方式擴充套件到一個特別的方向,那是一個超出訓練的模型世界的巨大的領域。

小遊戲:Atari Breakout

在遊戲世界中,擋板的左右移動,以及能擊中的不同事物的具體位置。模型世界越複雜則Bellman方程迭代越糟糕,為每一對單獨的狀態和動作構建一個Q函式。

從自動駕駛的角度,人類的眼光看這個世界是一個畫素的集合。

6.國際象棋可以當做是一個避障的問題,避障問題被解決後才能實現在有限的空間內導航。而AlphGo獲勝的方式與自動駕駛非常相關,首先通過監督的方式建立決策網路,用專業玩家的對決資料建立一個網路,因此一開始不是和自己對決。從專業玩家的對決資料中獲取基準資料,和自動駕駛是十分類似的。