人工智慧-強化學習|無地圖探索

阿新 • • 發佈：2018-11-22

這一期我們來分享一份乾貨，這是一篇講解移動機器人面對陌生環境如何去探索的論文。移動機器人在面對路無地圖陌生環境時的探索行為，一直以來都是一個比較難解決的問題，這個議題要求機器人在陌生環境中自行尋路尋找目標物件。強化學習（RL）近年來成為解決這一難題的突破口，而這個實驗則使用了深度強化學習（DRL）技術，這種技術比普通強化學習要更加智慧。通過實驗，研究人員發現DRL中的內在動機因素是解決難題的關鍵。關於RL與DRL，YESLAB公會將有專門的課程來進行講解。

移動機器人

在移動機器人開發中，現在比較流行的做法就是將導航策略的配置空間與具體運動空間（包含座標、位移、方向等資料）對映起來，讓機器人AI學習並理解“什麼樣的地方應該怎樣到達”。而目前仍被大量使用的傳統技術稱為SLAM，該技術適用於給定地圖的前提下完成物體定位與路徑規劃。所以使用強化學習（RL）進行機器人導航，可以理解為一種動態學習任務，理論上能夠根據即時資料與少量的歷史資料，評估下一個決策點的行為。這種學習方法跟人類的探索性嘗試行為是類似的，它可能會讓機器人走很多錯誤的路，但最終會產生更好的效果，就如同我們人類一樣，不經歷風雨，怎能見彩虹。

通常DRL資料來源：目標導航策略，單獨RL從導航策略中學習到的可用特徵，一些輔助任務等。

人工智慧移動機器人

實驗環境

本文中的實驗首先要求機器人對需要探索的環境是完全陌生的，但對所尋找的物體是熟悉的，為了減少讓機器人認識指定物體所花費的時間和避免誤認物體導致實驗失敗，尋找物體這個子任務需要基於簡單可實現的原則，例如使用可見光來識別物體，或乾脆使用WIFI訊號，場景設計上也需要注意避免設計過長的走廊或者視線死角增加額外的難度。

yeslab人工智慧移動機器人實驗

總結來講本文中的實驗環境中包含以下前提條件：

※ 鐳射識別

※ 恰當的機器人前進速度

※ 合適的目標位置

※ 使用非同步DRL

※ 策略網路輸出

AI會對自己所做行為帶來影響進行評估，評估結果用來衡量在全新狀態下的決策，這樣的學習模型稱為“內在動機模型（ICM）”。ICM應用在每個單獨的RL過程，其評估結果會計算在獎勵機制中，也可以理解為，產生的誤差會參與到獎勵中來。例如AI選擇了一個會在下一步撞牆的策略，這時候獎勵值應該為負（懲罰）。基本的RL演算法會記錄在這個狀態（state）下的獎勵值（reward），這樣就可以判斷這樣的決策是否正確、適用於怎樣的場景。每個DRL需要完成的任務稱為一個子任務，DRL通過管理不同的RL智慧體程序來完成不同的子任務，例如論文中就談及了研究團隊使用一個RL智慧體程序來學習已經生成的導航路線中是否存在過長的走廊和視線死角。

基本概念與演算法詳解

目標：讓機器人能到達目標g，但不會碰到任何障礙。

馬爾可夫決策過程（MDP）：其實就是RL演算法的主要部分，本文使用 t 表示時間戳，每個 t 時都會有一個表示當前狀態，這個包含鐳射射頻讀取以及機器人與目標的相對姿勢，啟用資訊主要為了測量距離，而姿勢資訊主要為了測量方向（如果是3D的，姿勢一般會分為仰角、傾斜、方向三個指標）在這個狀態下機器人會採取行動，並收到獎勵，然後進入下個 t 的狀態，最後說明目標物體的位置座標為g。

動量（採取的動作）：任何動作都會消耗動量。

獎勵函式：獎勵函式在RL與DRL中都是非常重要的，直接關係到是否會得到想要的訓練結果，本文將獎勵分為外在獎勵和內在獎勵來分別計算。

外在獎勵：（由外部因素引起的獎勵，主要包含一些外部事件如“已經到達目標”、“發生碰撞”等獲得的正負獎勵），

其中下標 t 均代表時間，上標 e 表示 External 即標明這個獎勵是由外部因素引起的，上標 p 表示此引數與位置（position）相關，上標 ω 表示此引數與朝向（orientation）相關。 λ 是可調超參用於平衡位置和朝向的權重，是需要設立範圍的主獎勵函式：

人工智慧移動機器人尋找目標的公式演算法

這裡的是指時間 t 時候的姿勢與位置，為什麼總會提到姿勢與位置呢？這裡需要插入一張圖說明一下，因為對於實驗環境，我們有世界座標，也有以機器人為中心的機器人座標系，那麼對於實驗過程我們會希望所有的位置資訊都參照世界座標，而機器人座標可以明確說明機器人的朝向，最終我們會獲得一個有關機器人在世界座標中位置和機器人朝向的矩陣，我們暫時稱為“機器人矩陣”。而這個其實就是說，我們可以設定 t 時已經到達的獎勵值為100，而被障礙攔截的獎勵值為-100；其他情況下，比較 t-1 和 t 時的機器人矩陣離目標的二階範數，因為讓機器人轉身也需要動量，移動位置也需要動量，所以其實這裡就是在計算機器人到目標還差多少動量。

人工智慧移動機器人的實驗

接下來說明其他兩個獎勵：

人工智慧移動機器人實驗的公式演算法

第一個就是計算機器人在 t-1 與 t 時間變化前後動了沒，如果沒動則給予的獎勵，其實這裡應該是懲罰，即這個獎勵會用變為負值，機器人沒有動說明是發生了一些事情，即到達目標了，或者被攔截了；第二個獎勵值使用到了 atan2 三角函式，有興趣可以自己看看這個函式，在機器人開發的幾何學中會經常用到，目的就是為了計算直線距離，所以第二個獎勵是跟直線距離相關的，即激勵機器人不斷縮小直線距離，接近目標。

內在獎勵： 這是論文的主要閃光點，內在獎勵是由好奇心驅動的，讓我們看看如何用數學去定義好奇心。

首先講解一下ICM模型，我們通過上面的部分了解到隨著時間推移，會有和，這表示機器人在不同時間的狀態，這種狀態包含了機器人對環境探索與目標搜尋的各種結果資料，設定一個特徵提取層（編碼層）命名為 ϕ 層，通常使用神經網路建立的編碼器就很好用，將和送進去提取特徵，經過編碼後得到和兩種特徵值。

接下來的過程會比較魔幻一些，設定一個解碼器，從和中預測可能會在 t 時做出的行動，此時系統會自動將預測行動變為實際行動。然後使用和用一個解碼器的前傳過程預測出

人工智慧移動機器人實驗的公式演算法

我們擁有了根據動作推測出的特徵，也擁有根據實際狀態解碼出的特徵就可以算個減法來得到內在獎勵值。

當然這裡我們略過一些演算法細節，包含編碼器和解碼器的細節，他們實際上是由一種actor-critic（A3C）模型來描述的，這個暫且不進行展開，會出現在RL的講解文章中。靜下心來看看上面的這種機制，就是讓AI自己學習兩個狀態的特徵區別，用特徵提取與特徵表述這兩個過程來描述內在動機的概念，即“機器人通過自己的思考，感覺兩個時間點的狀態有什麼區別”，最後“使用這種區別來激發自己的興趣，更好的為下一步做決策，獎勵正確的認知，懲罰錯誤的認知”。這也是遷移學習的概念，用學習到的知識來適應新的環境，並不斷學習。

非同步DRL：兩種獎勵機制就是兩個RL過程，我們需要管理者兩個過程來達到DRL的效果：

具體優化過程就不描述了，屬於DRL本身的知識。主要就是通過兩個網路θ^π 和 θ^υ ，策略網路與估值網路，梯度優化這兩個網路的輸出，目標就是最大化獎勵 R。

人工智慧移動機器人實驗的公式演算法

這裡結合了一些其他因素，將獎勵更加合理的包裝為G。

人工智慧移動機器人實驗的公式演算法

訓練要點

1. 實驗是在模擬2D環境下完成，機器人裝備一個鐳射感知器，通過收發鐳射訊號來感知周圍環境併產生資料；

2. 機器人初始姿勢p0與目標尋覓物位置g均隨機產生，但需確保機器人與目標之間至少存在一條無障礙可達路徑；

3. 無論機器人已經成功尋覓到目標，或者機器人完全被障礙阻攔，還是已經在達到了7000次最大訓練迭代與400次最大測試迭代仍沒有成功，實驗都會終止；

4. 超參詳見原文第3頁；

5. DRL使用兩個卷積網路，結構引數詳見原文第3頁；

6. 下面兩個圖反映了本文實驗的機器人獲得獎勵的情況（實際上是懲罰了，作者將獎勵控制在低於10的樣子）和每一次訓練的思考量：

人工智慧移動機器人實驗獎勵的情況

人工智慧移動機器人實驗獎懲機制

結果說明

本文一共使用了4張地圖，用第1張做訓練，其他3張用來做測試。

人工智慧移動機器人實驗的測試

看看在第1張地圖的訓練結果，這裡可以看到有兩行結果，是作者採用了不同的策略，第1行是without LSTM，第2行是with LSTM，LSTM是一種長短期記憶機制，即為每個神經元節點設定一些遺忘效能，將不重要的、沒有反覆出現的遺忘掉，保留近期頻發最顯著的特徵，LSTM會在HCNA-AI課程與公會後期講解。

人工智慧移動機器人實驗測試一的結果

接下來看看在機器人在另外3個地圖的測試效果，Entropy是被設計為一個可選功能，即對誤差值計算平均熵，可以有效減少噪音干擾。

人工智慧移動機器人實驗其餘三個測試結果

總結一下，本文意圖使用DRL去淘汰SLAM技術，相信這兩種技術會並存一段時間，不過基於強化學習的應用在近幾年確實突飛猛漲，很多電商都在使用強化學習做一些更好的業務模式，在機器人開發中，只要是跟人工智慧相關的，例如尋路導航、精準抓取、視覺辨認等均可以用深度強化學習進行實驗，由於機器人本身的工作場景會經常獲取新資料，所以強化學習就成為了目前最具風尚的解決方案，期待更多強化學習的實踐。更多關於人工智慧的知識和應用都可以在yeslab官網www.yeslab.net上看到。

yeslab人工智慧強化學習實驗

原文連結（https://arxiv.org/abs/1804.00456）

人工智慧-強化學習|無地圖探索

人工智慧-強化學習|無地圖探索

人工智慧-強化學習02|HCNA-AI不得不瞭解的知識

強化學習-無模型控制（上）

人工智慧：什麼是強化學習？

強化學習(五) - 無模型學習(Sarsa、Q-Learning)

基本概念:人工智慧,機器學習,深度學習,強化學習的區別和簡介

強化學習：邁向通用型人工智慧的重要途徑

強化學習系列7：無模型的蒙特卡洛法

一文讀懂監督學習、無監督學習、半監督學習、強化學習這四種深度學習方式

監督學習、無監督學習、半監督學習和強化學習

【習題集四】無監督學習和強化學習

【強化學習筆記】4.4 無模型的強化學習方法-蒙特卡羅演算法與重要性取樣程式碼實現

特斯拉無人駕駛最核心的人工智慧演算法，竟是強化學習

【強化學習筆記】4.2 無模型的強化學習方法-蒙特卡羅演算法程式設計實現

【深度學習】盤點深度學習一年來在文字、語音和視覺等方向的進展，看強化學習如何無往而不利

Hinton Neural Networks課程筆記1e: 監督學習、強化學習、無監督學習，及其應用

【強化學習筆記】4.3 無模型的強化學習方法-蒙特卡羅演算法與重要性取樣

監督學習、無監督學習與強化學習

人工智慧領域常用的開源框架和庫（含機器學習/深度學習/強化學習/知識圖譜/圖神經網路）

強化學習 3—— 使用蒙特卡洛取樣法（MC）解決無模型預測與控制問題

人工智慧-強化學習|無地圖探索

相關推薦