1. 程式人生 > >亞馬遜採摘挑戰中6D姿態估計的多檢視自監督深度學習(一)

亞馬遜採摘挑戰中6D姿態估計的多檢視自監督深度學習(一)

倉庫自動化近年來引起了人們的極大興趣,也許最引人注目的是亞馬遜採摘挑戰賽(APC)。實現完全自主的取放系統需要強大的視覺系統,可以可靠地識別物體及其6D姿勢。然而,由於雜亂的環境,自我遮擋,感測器噪聲和各種各樣的物體,解決方案避開了倉庫設定。在本文中,我們提出了一個視覺系統,分別在APC 2016中的裝載和揀選任務中佔據第3和第4位。我們的方法利用多檢視RGB-D資料和資料驅動,自我監督學習來克服上述困難。更具體地說,我們首先使用完全卷積神經網路對場景的多個檢視進行分段和標記,然後將預先掃描的3D物件模型擬合到生成的分割以獲得6D物件姿勢。訓練深度神經網路進行分割通常需要大量帶有手動標籤的訓練資料。我們提出了一種自我監督的方法來生成大型標記資料集,而無需繁瑣的手動分割,可以輕鬆擴充套件到更多的物件類別。我們證明了我們的系統可以在各種情況下可靠地估計物體的6D姿態。 

 特別是那些涉及物理互動的任務,仍然難以實現自動化。亞馬遜與學術界合作,最近一直致力於定義兩項此類任務:1)從人口稠密的貨架中挑選出一個特定產品ID的例項並將其放入手提包中;2)將裝滿產品的手提袋裝入人口稠密的架子。

出現的問題:

·雜亂的環境:貨架和貨箱可能具有多個物體,並且可以被佈置成欺騙視覺演算法(例如,彼此重疊的物體)。

自遮擋:由於攝像機位置有限,系統只能看到物體的區域性檢視。

·缺少資料:商業深度感測器在捕獲反射,透明或網狀表面時不可靠,這在產品包裝中很常見。

·小的或可變形的物體:小物體提供的資料點較少,而可變形物體難以與先前的模型對齊。

·速度:專用於捕獲和處理視覺資訊的總時間不到20秒。

我們的方法小心使用任務中的已知約束 - 可能的物件列表和預期的背景。該演算法首先通過將多檢視影象饋送到深度神經網路來從場景中分割物件,然後將3D模型擬合到分段點雲以恢復物件的6D姿勢。深度神經網路提供速度,並結合多檢視方法提高了挑戰性場景中的效能。

訓練深度神經網路進行分割需要大量標記的訓練資料。我們開發了一種自我監督的訓練程式,該程式自動生成130,000個影象,其中包含APC中39個物件的畫素類別標籤。為了評估,我們構建了一個超過7,000個手動標記影象的測試資料集。

總之,本文有助於:·一個強大的多檢視視覺系統來估計物體的6D姿態;·一種自我監督的方法,通過自動標記訓練資料來訓練深度網路;·用於估計物件姿勢的基準資料集。

用於機器人操縱的視覺演算法通常輸出2D邊界框,畫素級分割[4,5]或6D構成物件的[6,7]。選擇主要取決於操縱需求。例如,基於抽吸的拾取器可能具有2D邊界框或物件的畫素級分割的足夠資訊,而抓取器可能需要其6D姿勢。

物件分割。雖然2015年APC獲獎團隊使用直方圖反投影方法[8]和手動定義的特徵[5,4],但最近的計算機視覺工作表明深度學習大大改善了物件分割[2]。在這項工作中,我們擴充套件了用於影象分割的最新深度學習架構,以結合深度和多檢視資訊。

姿態估計。估計物件的6D姿勢有兩種主要方法。第一種方法是使用迭代最近點等演算法將3D CAD模型與3D點雲對齊[9]。第二個使用更精細的區域性描述符,例如用於顏色資料的SIFT關鍵點[10]或用於3D資料的3DMatch [11]。前一種方法主要用於僅深度感測器,在光照變化很大的情況下,或在無紋理物件上。另一方面,高度紋理化和剛性的物體受益於區域性描述符。LINEMOD [12]或MOPED [13]等現有框架在某些假設條件下執行良好,例如坐在桌面上具有良好照明的物體,但在面對APC情景所施加的有限能見度,陰影和雜亂時表現不佳[14]]。

6D姿勢估計的基準。為了正確評估我們的視覺系統獨立於更大的機器人系統,我們已經制作了一個大型基準資料集,其中包含APC 2016的場景,以及用於物件分割和6D姿勢的手動標籤。之前構建基準資料集的努力包括Berkeley的資料集[15],其中包含來自APC 2015和Rutgers資料集[16]的許多物件以及半自動標記資料。

使用多個檢視的物件分割。來自單個攝像機檢視和來自給定物件的資訊通常由於雜亂,自遮擋和不良反射而受到限制。我們通過組合來自多個檢視的資訊來解決模型擬合階段中缺失的資訊,從而使物件表面更加可區分。特別是,我們將從每個視點捕獲的RGB影象(18個用於從手提箱裝載,15個用於從架子中拾取)提供給訓練有素的FCN,後者返回40級概率每個RGB-D影象中每個畫素的分佈。在通過場景中的預期物件列表進行過濾之後,我們對概率圖進行閾值處理(所有檢視上的平均概率以上三個標準偏差)並忽略所有類別的概率低於這些閾值的任何畫素。然後,我們將每個物件類的分段蒙版投影到3D空間中,並將它們直接組合成單個分段點雲,並使用來自機器人手臂的前向運動反饋(請注意,不同物件類的分段可以相互重疊)。

減少點雲中的噪音。由於來自感測器的噪聲和來自分段的噪聲,將預掃描模型直接擬合到分段點雲通常會產生差的結果。我們分三個步驟來解決這個問題:首先,為了減少感測器噪聲,我們通過從k個最近鄰點移除比閾值更遠的所有點來消除分段點雲中的空間異常值。其次,為了減少分割噪聲,特別是在物體邊界上,我們刪除位於貨架箱或貨物箱外的點,以及接近預掃描背景模型的點。最後,我們通過找到沿每個主軸的最大連續點集(通過PCA計算)並從該集合中移除任何不相交的點,進一步過濾每個分段點組的異常點。

處理物件重複。倉庫貨架通常包含同一物件的多個例項。天真地分割RGB-D資料將處理具有與同一物件相同標籤的兩個不同物件。由於我們知道倉庫設定中的庫存清單,因此我們知道在場景中我們期望的相同物件的數量。我們利用k-means聚類將分段和聚合的點雲分成適當數量的物件。然後在演算法的模型擬合階段期間獨立地處理每個聚類。

點雲具有不均勻的密度。在典型的RGBD點雲中,垂直於感測器光軸的表面通常具有更密集的點雲。表面顏色改變其在紅外光譜上的反射率,這也影響有效點雲密度。這些不均勻性對ICP演算法是有害的,因為它會使收斂偏向更密集的區域。通過將3D均勻平均網格濾波器應用於點雲,我們能夠在3D空間中為它們提供一致的分佈。

姿勢初始化。ICP是一個迭代的本地優化器,因此它對初始化很敏感。由PCA估計的分段點雲的主要方向給出了對具有不均勻縱橫比的物體的方向的合理的第一近似。我們已經通過實驗觀察到,對於具有均勻縱橫比的物體,初始取向的選擇對ICP的最終結果幾乎沒有影響。類似地,人們會使用點雲的質心作為物件幾何中心的初始猜測,但是我們已經觀察到,由於捕獲的點雲僅是部分的,因此這兩個中心通常彼此偏置。為了解決這個問題,我們將預掃描物體的初始姿勢沿著RGB-D相機的光軸向後推回物體邊界框尺寸的一半,這是在我們只看到“一半”的天真假設下目的。事實證明,這種初始化在避免區域性優化方面更為成功。

從粗到精ICP。即使在分割步驟中降低噪聲之後,所得到的點雲仍可能具有噪聲(例如,來自相鄰物件的錯誤標記的點)。我們通過ICP的兩次傳遞來解決這個問題,它們作用於點雲的不同子集:我們將ICP迭代的內部閾值定義為我們忽略的百分位L2距離。具有90%內部比率的ICP使兩點雲之間的最近點對保持在第90百分位數。主要假設是正確標記的點雲區域比標籤不正確的區域更密集。具有高入射閾值(90%)的第一遍使預掃描的完整模型比嘈雜部分更靠近區域性檢視的正確部分。從粗略但強大的初始化開始,第二遍使用較低的入口閾值(45%)來忽略點雲的嘈雜部分並收斂到更準確的姿勢。

C.處理缺失深度的物體。APC中的許多物體,如在零售倉庫中典型的那樣,具有挑戰基於紅外的深度感測器的表面,例如,塑料包裹返回噪聲或多次反射,或者根本不能註冊的透明或網狀材料。對於這些物件,捕獲的點雲是有噪聲和稀疏的,並且我們的姿態估計演算法表現不佳。我們的解決方案利用多檢視分割來通過用分割的RGB影象雕刻體素的3D網格空間來估計物件的凸包。此過程會生成封裝真實物件的3D蒙版。我們使用該掩模的凸包估計物件的幾何中心並近似其方向(假設物件是軸對齊的)。

半自動資料採集。為了半自主地收集大量的訓練資料,我們將單個已知物件放置在貨架箱內或以任意姿勢搬運,並配置機器人以移動相機並從各種不同的視點捕獲物件的RGB-D影象。貨架/手提包的位置對於機器人來說是已知的,相機視點也是如此,我們使用它來在貨架/或手提箱框架中轉換收集的RGB-D影象。在捕獲數百個RGB-D影象之後,手動地將物件重新佈置成不同的姿勢,並且該過程重複若干次。人為參與總結了重新排列物件並標記哪些物件對應於哪個bin / tote。選擇和更改視點,捕獲感測器資料以及按物件標記每個影象是自動化的。我們從相同的精確相機視點收集空架子和手提袋的RGB-D影象以模擬背景,為自動資料標籤做準備。

自動資料標籤。為了獲得逐畫素的物件分割標籤,我們建立了一個將前景與背景分開的物件蒙版。該過程由2D和3D管道組成。2D管道對於薄物體(物體的體積不足以在靠近牆壁或地面時可靠地分割成3D)和沒有深度資訊的物體具有魯棒性,而3D管道對於前體之間的大型錯位對準是穩健的- 掃描貨架和手提包。兩個管道的結果被組合以自動標記每個訓練RGB-D影象的物件掩模。2D管道開始於通過使用基於多模2D強度的配準來對齊兩個RGB-D影象來固定可能的較小影象未對準[21]。然後,我們將對齊的彩色影象從RGB轉換為HSV,並對HSV和深度通道進行畫素比較,以將前景與背景分開並標記。3D管道使用空貨架箱和搬運箱的多個檢視來建立其預掃描的3D模型。然後,我們使用ICP將所有訓練影象與背景模型對齊,並移除太靠近背景的點以識別前景蒙版。最後,我們將前景點投影回2D以檢索物件蒙版。

訓練神經網路。為了利用從更大的影象域訓練的功能,我們使用[18]中相當大的FCN-VGG網路架構,並使用在ImageNet上預訓練的模型初始化網路權重,以進行1000路物件分類。我們使用具有動量的隨機梯度下降,在40級輸出分類器(每個APC物件39個類和背景1個類)上微調網路。由於光照和物體視點偏差,我們通過訓練兩個這樣的分割網路來最大化效能:一個用於貨架箱,一個用於貨物箱。為訓練資料自動生成的分段標籤可能很嘈雜。但是,我們發現由於可用培訓資料的龐大規模,網路仍然能夠在測試時間內正常執行。每個元件的執行時速度如下:ROS通訊開銷為10ms,VGG-FCN每個前向通過400ms,每個場景去噪為1200ms,每個物件的模型擬合為800ms。平均而言,姿勢估計時間為每個貨架箱3-5秒,手提箱8-15秒。結合多檢視機器人運動,每個貨架箱的總視覺感知時間為10-15秒,手提箱的總視覺感知時間為15-20秒。

八。評估我們在基準資料集中的不同場景中評估我們方法的變體,以瞭解(1)在不同輸入模態和訓練資料集大小下如何執行分割以及(2)完整視覺系統如何執行。A.基準資料集我們的基準資料集'Shelf&Tote'包含超過7,000個RGB-D影象,跨越477(圖6)場景,解析度為640×480。我們在APC的練習賽和比賽決賽期間收集了資料,並使用我們的線上註釋器手動標記了6D物件姿勢和分段(圖7)。這些資料反映了倉庫環境中的各種挑戰:反射材料,光照條件的變化,區域性檢視以及雜亂環境中的感測器限制(噪聲和缺失深度)。