最前沿:CoRL2018 機械臂相關paper賞析
1 引言
CoRL (Conference on Robot Learning) 是去年才成立的機器人學習頂級會議,今年是第二屆,會議主頁是:
ofollow,noindex"> http://www. robot-learning.org/這屆會議收錄了70多篇paper,其中包含了多篇機械臂相關的paper。在這篇Blog中,我們就來一起賞析一下這些paper,看看Robotic Manipulation/Grasping的最前沿到哪了。
2 Paper List
[1] Grasp2Vec: Learning Object Representations from Self-Supervised Grasping
[2] Deep Object Pose Estimation for Semantic Robotic Grasping of Household Objects
[3] Dense Object Nets: Learning Dense Visual Object Descriptors By and For Robotic Manipulation
[4] Reinforcement Learning of Active Vision for Manipulating Objects under Occlusions
[5] Qt-opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation
[6] Sim-to-Real Reinforcement Learning for Deformable Object Manipulation
[7] Task-Embedded Control Networks for Few-Shot Imitation Learning
[8] SURREAL: Open-Source Reinforcement Learning Framework and Robot Manipulation Benchmark
[9] ROBOTURK: A Crowdsourcing Platform for Robotic Skill Learning through Imitation
3 Grasp2Vec: Learning Object Representations from Self-Supervised Grasping
這篇paper來自Google Brain和UC Berkerley的Sergey Levine團隊。
https:// sites.google.com/site/g rasp2vec/這篇paper的任務是goal-conditioned grasping,也就是給機械臂一個物體的圖作為goal,機械臂就要能抓取對應的物體。先拋開這篇paper的方法論不談,單單從這個問題入手,其實我們有很直接的處理方法:
1)先對物體進行檢測,把每個物體給框出來
2)根據goal的圖片進行匹配,找到對應物體
3)根據輸入的物體特徵資訊,訓練機械臂抓取該物體
但是這種做法存在的麻煩之處就是需要大量的人工標註,非常的費時費力,採用現成的物體檢測演算法雖然也能做,但畢竟不是針對場景,肯定也有偏差。所以,這篇paper主要考慮的事情是有沒有辦法通過自監督的方式來學習這個物體的表徵資訊,從而有利於抓取。
那麼想法可以說是很簡單了:框裡面也就是那麼多物體,我們拿走一個,就少一個,我們就可以利用這種變化來實現自監督的表徵學習representation learning:
為了構造這個自監督的loss,作者做了一個很有意思的假設:
也就是抓取前的觀察影象特徵減去抓取後的影象特徵正好等於機械臂夾取的物體特徵。這是一個看起來不完全有道理的假設,但是實驗證明這樣做是ok的。
我們可以看到,這樣做自監督學習就沒有太多的標註成本了,只要反覆做實驗來獲取資料就可以了。
訓練完之後,作者通過heatmap給我們展示了自監督的效果,直接實現了物體檢測加匹配所達到的定位效果:
基於這樣的特徵提取能力,後續就是採用一般的Q learning來訓練了。
一點評價:
1)idea 創新度::star:️:star:️:star:️:star:
2)實用價值::star:️:star:️:star:️ 能夠很大程度上減少人工打標籤的工作,但是考慮到貌似人工標註資料也不是很貴,或許我們就人工打標籤可以取得更好的效果
3)復現難度::star:️ 非常難
我們知道,Google brain有一個機器人農場,所以它家出品的paper要復現是極其困難的,根本沒有同等條件,至多在模擬上可以做一做。
4 Dense Object Nets: Learning Dense Visual Object Descriptors By and For Robotic Manipulation
這篇paper來自MIT,和上一篇paper的研究側重點是一樣的,都是關注物體的表徵學習,但是這篇paper比上一篇更強,並且拿到了本屆CoRL的best paper award,在之前就有相關媒體報道,還放出了程式碼。那我們這就來看看這篇paper有什麼過人之處吧。
RobotLocomotion/pytorch-dense-correspondence下面我們來具體的看看方法論。
這篇paper的核心idea是去構建一個畫素級別的影象描述,也就是Dense Visual Object Descriptor。有了這個影象描述,不管攝像頭看到的影象角度如何變化,甚至物體本身如何變形,都能保持描述的不變性。有了這個基礎,就可以利用其來做物體的抓取。
那怎麼做呢?
作者用ResNet構造一個Dense Object Net,輸入影象維度是WxHx3,輸出維度是WxHxD,D就是每一個畫素點對應的特徵表達維度。為了說明這個D的意義,我們先來看這麼用這個WxHxD,然後再來看怎麼訓練。
我們構造一個距離來計算兩個圖片不同畫素點之前的特徵差距,也就是正常的L2 distance:
這裡的f()即Dense Object Net,而f(I)(u)就是畫素u對應的特徵1x1xD。
由此,比如我們要實現特定位置抓取,也就是使用者指定一個位置比如鞋後跟,然後機械臂就要從鞋後跟進行抓取。這個時候,我們可以把使用者指定的圖片位置的畫素的特徵與當前機械臂實時看到的影象的特徵進行比較,找到距離D最小的畫素位置,即認為是對應的鞋後跟位置。這就是Dense Object Descriptor的直接價值體現,可以實現超精準的定位,上一篇paper是做不到的。
那麼怎麼來訓練這個Dense Object Net?
採用的思想比較簡單,稱為self-supervised pixelwise contrastive loss.也就是我們對同一個物體的兩張不同圖片尋找出對應的匹配點和不匹配點,讓匹配點matches距離最小,不匹配點non-matches距離最大。
但是為了得到這些匹配點和不匹配點,我們就需要派上RGBD攝像頭,先對物體進行一個三維重建,然後基於三維重建的物體來尋找這些點。這裡的計算成本會比較大一些,所以要構造一個物體描述,需要先讓機械臂繞著物體看一圈。這本身又是另外一個技術了,當然也比較成熟,所以在huawei mate 20 pro上也應用了。
然後這個方法很重要一點就是task-agnostic或者說generalization能力比較強,所以即使是新的物體甚至相同類的不同物體也可以區分。
一點評價:
1)idea 創新度::star:️:star:️:star:️:star::star: 這個方法並不是直接構造點雲point cloud資料,而還是針對2d影象構造對應的特徵表達,很不一樣,在畫素級別上能夠取得這樣好的效果是有點難以置信的。
2)實用價值::star:️:star:️:star:️:star::star: 一般基於深度學習的方法往往缺少精準度,我們只要求能把物體抓取來,至於怎麼抓抓哪裡都不要求的,但是這篇paper可以說給大家指出了一個很promising的方法,能夠非常精準的定位。然後由於每一個物體都可以單獨存一個特徵描述,使得基於這個方法能夠具備非常廣泛的應用,所以價值是很高的。
3)復現難度::star:️:star:️ 要完整復現整個流程還是比較困難的,從三維重建到獲取匹配點到訓練神經網路,需要較大的工程量。但是作者開源了後面的神經網路部分,也提供了匹配點的資料集,可以說已經給大家很大的幫助了。
5 Deep Object Pose Estimation for Semantic Robotic Grasping of Household Objects
這篇paper依然延續了前兩篇paper的主題,核心都是在視覺上。所以,我們由此可以明白,目前計算機視覺在機器人上的應用還有很多發展空間。
機械臂抓取的問題簡單的可以直接分成兩部分:視覺端和機械端。Google 比較偏向於End-to-End,但是往往我們把問題單獨區分出來做會有更好的效果。而且這其中可能視覺端的問題會更重要一些,畢竟只要我們能夠把物體區分定位出來,機械端的部分用傳統控制方法也可以實現。也因此,我們才會看到這麼多純視覺的研究。
回到這篇paper上,思路又不一樣了:使用合成的模擬資料來學習物體的姿態估計。
這麼paper的核心貢獻主要是在於photorealistic模擬影象的使用,說白了就是模擬程度更高,所以效果更好。至於神經網路的訓練細節,我們這裡就詳細分析了。
1)idea 創新度::star:️:star:️ 可能談不上太多的創新,但是有效果就好。
2)實用價值::star:️:star:️:star:️:star::star: 這篇的實用價值也是很高的,畢竟只要我們有無窮無盡的高度模擬資料,我們就不需要費盡心思來考慮怎麼做自監督了
3)復現難度::star:️:star:️:star:️:star: 這篇文章演算法上沒有太大問題,主要是資料集。有資料,一切都好辦。
6 Reinforcement Learning of Active Vision for Manipulating Objects under Occlusions
這篇paper和前面的研究方向不一樣了。做research一種就是前面的積極研究大家都在考慮的問題,另一種就是構造新問題。在機器人學習領域,新問題非常容易創建出來。這篇paper就是一個例子。一般我們只研究機械臂動的情況,那麼是不是攝像頭也可以動呢?我們會想說這攝像頭動有什麼意義?有,比如在物體被遮擋的情況下。既然有意義,那就可以研究了。這種研究大抵是標準水文的套路,方法上實際上沒太多創新,但是把問題稍微改改也就是創新了。另一種標準水文的套路則反過來,問題不變,方法論稍微改改。這篇paper在方法上使用標準的actor-critic,只是在輸入輸出上因為要控制攝像頭和機械臂,做了點改動,這裡就不詳細分析了。
1)idea 創新度::star:️:star:️
2)實用價值::star:️:star:️:star:️
3)復現難度::star:️:star:️:star:️:star:
7 Qt-opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation
這篇paper獲得了CoRL的Best Systems Paper Award,我們在之前的blog中已經有分析,這裡就不再重新分析。
Flood Sung:閒談機器人抓取的前沿到哪了?這篇paper之所以能引起關注不在於方法上有多創新,而是通過大規模的End-to-End訓練使得抓取效果達到了非常高的水平。我們會考慮說為什麼機械臂需要神經網路加持?採用傳統控制有什麼劣勢?通過這篇paper我們可以看到使用神經網路可以學習到傳統控制學習不到的控制策略,這就足夠了。從長遠看,End-to-End必然比非End-to-End的好。
1)idea 創新度::star:️:star:️:star:️:star:️
2)實用價值::star:️:star:️:star:️:star:️:star:️
3)復現難度::star:️
8 Sim-to-Real Reinforcement Learning for Deformable Object Manipulation
這篇paper和Reinforcement Learning of Active Vision for Manipulating Objects under Occlusions類似,都是研究一個不一樣的問題。這篇paper研究的是可變形物體的抓取,比如毛巾。
https:// sites.google.com/view/s im-to-real-deformable實現的效果還不錯,採用ddpg的改進版本,包括了:
1)Prioritised Replay
2)N-Step returns
3) DDPGfD
4) Behavioural Cloning
4) Reset to demonstration
5) TD3
6) Asymmetric actor-critic
可以說基本上用上了Deepmind開發的最好的off-policy continuous control 的rl演算法。
1)idea 創新度::star:️:star:️
2)實用價值::star:️:star:️:star:️
3)復現難度::star:️:star:️:star:️:star:️
9 Task-Embedded Control Networks for Few-Shot Imitation Learning
這篇paper比較值得講一講,因為它研究了一個很重要的問題Few-Shot Imitation Learning。這個問題之前被Chelsea Finn的MAML刷了一波。但是MAML無法支撐大規模網路及不方便訓練的問題非常bug,所以這篇paper算是把MAML的方法打了下去,關鍵是方法非常簡單,採用基於deep metric learning的方法,對於每一個task構造一個embedding:
讓不同task的embedding儘量分離,讓相同task的embedding儘量靠近。同樣的,demo只需要影象state資料,不需要對應的action資料。在我剛看到這篇paper的方法時,我是有疑問的,我的疑問在於如何輸入一長串的demo資料到網路裡面呢?
結果,這篇paper竟然僅使用demo開頭和結束兩幀的影象,想想這個Few-Shot Imitation Learning構造的task實在是太簡單了,也就是把一個物體放到一個碗裡面,改改物體的型別和碗的樣式,至於中間怎麼抓取根本無所謂。所以與其說這是一個task,不如說是一個goal。實際上只是一個goal embedding,那就不涉及太多的imitation learning的問題了。
所以,很有意思的事情出現了:Few-Shot Imitation Learning目前的實驗設計並不好。有必要設計更復雜的實驗,至少需要讓機器人觀察demo的中間過程才能完成。要不然談不上imitation了。
1)idea 創新度::star:️:star:️:star:️
2)實用價值::star:️:star:️:star:️
3)復現難度::star:️:star:️:star:️:star:️
總的來說,這篇paper最大的意義不在於說其效果打敗了MAML,畢竟MAML在Few-Shot Learning是已經被虐成渣渣了,而在於說1)Few-Shot Learning的方法是有辦法遷移到機器人的應用上的 2)這個問題還非常前沿,以至於實驗設計過於簡單,有很大的發展空間。
10 SURREAL: Open-Source Reinforcement Learning Framework and Robot Manipulation Benchmark
11 ROBOTURK: A Crowdsourcing Platform for Robotic Skill Learning through Imitation
最後兩篇paper都出自Fei-Fei Li的研究,非常有她的特色,就是造平臺。
實際上機器人學習問題確實很缺這樣的benchmark。特別是這個ROBOTURK,大規模的收集imitation learning的資料,還採用了非常酷的方法,確實是很有意思。目前,Fei-Fei Li 也已經專門成立了機器人實驗室,值得關注:
12 一點小結
以上基本上分析了目前Robotic Manipulation領域最前沿的paper,從中我們可以看到
1)目前研究的水準至少都是針對任意物體,而不是固定型別的物體。那麼這一塊有計算機視覺深度學習的加持,相信可以進一步提升。
2)研究平臺正在改善,越來越多的大佬會進入到機器人學習的領域,畢竟這會是下一個爆點。目前比如Google Brain的研究甚至連復現所需的硬體條件都很難達到,就很難讓大家一起搞了。
3)演算法層面上面並沒有大的改進,但是這並不影響效果的提升。目前平臺的因素還很大層面上制約了演算法的發揮。
總的來說這個領域的發展還是很讓人興奮的,也期待下一步的發展!