MIT的機器人會玩疊疊樂了!手殘的你怕不怕?
在麻省理工學院 3 號樓的地下室裡,一個機器人正在仔細地考慮下一步行動。它輕輕地戳著疊疊樂的木塊,想要在不弄塌積木塔的情況下找到最容易抽出的一個。這是一個孤獨、緩慢但又異常敏捷的遊戲。
這個機器人是由 MIT 的工程師開發的,配備了一個軟齒狀夾持器、一個力感應腕帶和一個外部攝像頭,所有這些都是用來觀察並感應積木塔以及單個積木塊的。
在機器人小心翼翼地戳木塊時,一臺計算機利用攝像頭和腕帶接收視覺和觸覺反饋,並將這些測量值與機器人之前的動作進行比較。它還考慮了那些動作的結果,具體來說,即一塊積木在特定配置下及受到一個特定的力推動時能否被成功抽出。該機器人能實時「學習」是繼續推動木塊還是轉向新的目標,以防積木塔倒塌。
該機器人的相關細節近日發表在《Science Robotics》雜誌上。MIT 機械工程系助理教授 Alberto Rodriguez 表示,這個機器人展示了一些之前的機器人系統無法做到的事:快速學習開展任務的最佳方式,它利用的不只是當今研究充分使用的視覺線索,還有觸覺和物理互動。
「與國際象棋、圍棋等純感知任務不同,玩疊疊樂還需要掌握物理技巧,如戳、推、拉、放及對齊木塊等。這項遊戲需要互動式感知和操作,你必須去觸碰積木塔才能學會何時以及如何移動積木塊。」Rodriguez 表示。「這項任務難以模擬,因此機器人必須在現實世界中通過與真實的疊疊樂積木塔進行互動才能學習。主要的困難在於利用物體、物理等相關常識從相對較少的實驗中進行學習。」
他表示,除了玩疊疊樂之外,研究人員開發的觸覺學習系統還可用於其他應用,尤其是那些需要謹慎的物理互動的任務,包括從垃圾填埋場中分離可回收物品和組裝消費品。
「在手機裝配線上,幾乎每一步,咬合或擰螺絲的感覺都來自於力和接觸,而不是視覺。」Rodriguez 說道,「學習執行這些動作的模型是這種技術的用武之地。」
論文一作 Nima Fazeli 是 MIT 的一名研究生。團隊成員還包括 Miquel Oller、Jiajun Wu、Zheng Wu 和 MIT 腦與認知科學系教授 Joshua Tenenbaum。
推拉
在疊疊樂遊戲中,54 個矩形積木堆疊18 層,每層三塊積木,每一層的積木與下面一層垂直。該遊戲需要玩家抽出一塊積木,然後將它放在塔頂,從而使塔達到新高度,而且新塔不會倒塌。
要想使機器人可以玩疊疊樂遊戲,傳統的機器學習方法可能需要捕捉積木、機器人和塔之間可能會發生的一切事情,這項任務耗費大量算力,它需要數千次(甚至可能數萬次)抽積木嘗試的資料。
Rodriguez 及其同事找到了一種能夠更加高效利用資料的方式,讓機器人學會玩疊疊樂,該方法受到人類認知和玩疊疊樂方式的啟發。
該團隊定製了一個工業標準 ABB IRB 120 的機械臂,然後把疊疊樂塔放在機器人能夠夠到的範圍之內。然後開始訓練,讓機器人先選擇一個隨機積木塊和推積木塊的位置,然後用一點力量將該積木取出。
對於每次抽積木的嘗試,計算機記錄相關的視覺和力量資料,並把成功的嘗試標註出來。
該機器人沒有進行成千上萬次抽積木嘗試,而是隻進行了大約 300 次嘗試,資料和結果類似的嘗試分為一組,表示特定的積木行為。例如,一組資料可能表示難以移動的積木,另一組可能表示較容易移動的積木,或者移動後塔會倒塌的積木。對於每組資料,機器人開發一個簡單模型,基於當前的視覺和觸覺資料來預測積木的行為。
Fazeli 稱,這一聚類技術受到人類類似聚類技術的啟發,大幅提升了機器人學習疊疊樂遊戲的效率,「該機器人構建簇,然後為每一簇學習一個模型,而不是學習一個能夠捕捉所有可能性的模型。」
堆疊
研究者利用模擬器 MuJoCo,在該遊戲的計算機模擬中對比測試了他們的方法和其他當前最優機器學習演算法,從而瞭解到該機器人在真實世界中的學習方式。
Oller 表示:「我們向這些演算法提供我們系統獲取的相同資訊,看它們如何達到類似的玩 Jenga 水平。與我們的方法相比,這些演算法需要探索更大數量級的塔才能學會這個遊戲。」
該團隊讓其機器學習方法與幾位人類志願者進行了幾次非正式 PK。
「我們看到塔倒塌之前人類能抽出幾塊積木,我們的方法與人類之間的差距不大。」Oller 稱。
但是,如果研究者想要使這款機器人對抗人類選手,還有很長的路要走。除了物理互動以外,疊疊樂遊戲還需要策略,如抽出某一塊積木恰好能使對手很難抽出下一塊積木,而且有可能造成木塔倒塌。
目前,該團隊對開發機器人疊疊樂冠軍沒太多興趣,而是更關注將這一新技能應用到其他應用領域。
「我們用手完成的很多工都是憑感覺,而這種「感覺」來自於力量和觸覺資訊。」Rodriguez 說道,「我們提出的這種方法可以完成這類任務。」
該研究受到美國國家科學基金會國家機器人計劃(National Robotics Initiative)的支援。
論文:See, feel, act: Hierarchical learning for complex manipulation skills with multisensory fusion
論文連結:http://robotics.sciencemag.org/content/robotics/4/26/eaav3123.full.pdf
摘要:人類能夠無縫結合觸覺刺激、視覺刺激和直觀經驗,去探索和執行復雜的控制技能。他們不僅能夠看到自己的動作,還能感覺到。目前的大部分機器人學習方法利用計算機視覺和深度學習的近期發展成果,獲取所需資料量龐大的畫素-動作策略。這些方法未利用物理學中的直觀潛在結構或觸覺特徵。觸覺推理在動物世界中無處不在,但在機器人控制中仍然未得到充分研究。觸覺刺激只能通過侵入式互動來獲取,對具備視覺刺激的資料流進行解釋也很有難度。本研究提出一種方法,在機器人中模擬層次推理(hierarchical reasoning)和多感官融合,使其學會玩疊疊樂,一種需要物理互動才能玩好的複雜遊戲。該遊戲機制被制定為使用時間分層貝葉斯模型的生成過程,其具備行為原型和帶噪積木狀態的表徵。該模型捕捉描述性潛在結構,機器人通過簡短的探索階段在力量和視覺領域中學習這些關係的概率模型。學會之後,機器人使用該表徵推斷玩遊戲時的積木行為模式和狀態。然後機器人基於推斷,調整自己的當前動作和遊戲策略,這種玩遊戲的方式與人類類似。我們對比評估了該方法和三種標準基線方法,證明該方法在現實世界的疊疊樂遊戲實現中具備有效性。
原文連結:http://news.mit.edu/2019/robot-jenga-0130