論文2016年《6D位姿估計的多視點自監督深度學習》 在亞馬遜挑選的挑戰——學習筆記二
第一部分:論文的學習的全部理解
關鍵字:多視覺的物體6D姿態估計、自監督訓練網路、自動標記採集、標記資料 、ICP演算法
摘要:機器人倉庫自動化近年來引起了人們的極大興趣,也許最引人注目的是亞馬遜採摘挑戰賽(APC)。完全自主的倉庫取放系統需要強大的視野,可以在雜亂的環境,自我遮擋,感測器噪聲和各種物體中可靠地識別和定位物體。在本文中,我們提出了一種利用多檢視RGB-D資料和自我監督的資料驅動學習來克服這些困難的方法。該方法中,我們使用完全卷積神經網路對場景的多個檢視進行分段和標記,然後將預先掃描的3D物件模型擬合到生成的分割以獲得6D物件姿勢。訓練深度神經網路進行分割通常需要大量的訓練資料。我們提出了一種自我監督的方法來生成大的標記資料集,而無需繁瑣的手動分割。
6D物體的姿態估計包括:
1 物體分割的全卷積網路:多視角物體分割和減少點雲噪聲以及通過RGB-D資料來判斷相同物體
2 3D模型的匹配:採用ICP演算法。更好的進行進行3D模型的配準
3 對於資料丟失的物體的處理資料:針對於那些凸和軟殼的物體資料可能有丟失 通過估計物體的重心和估計物體的姿態。
自監督訓練網路包括:
1獲取資料收集方法:通過將單個物體防治框中,然後再多此移動相機的進而獲取資料
2自動的資料標籤的製作:不太懂怎麼就自動的在進行標記資料了
3訓練的神經網路:由於這個光照和物體視角的偏差所以訓練了兩個網路。一個是基於貨架箱,一個是基於籃筐的
實驗過程:
實驗的全部程式碼:http://apc.cs.princeton.edu/
評價體系
(1)方面是通過在不同輸入模態和訓練資料集下如何進行分割(2)完整視覺系統如何執行
1採集的資料方面:這些資料反映了倉庫環境中的各種挑戰:反射材料,光照條件的變化,區域性檢視以及雜亂環境中的感測器限制(噪聲和缺失深度)。
2 評價物體分割方面:1使用一個 F-scores(F=2*(precision*recall)/precision+cecall) 評價標準。2使用此編碼訓練的AlexNet,RGB資料上的VGG以及表I中連線的兩個網路。發現新增深度不會在分割效能方面產生任何顯著的改進,這可能部分是由於深度資訊的噪聲 3資料集的大小:通過隨機抽樣1%和10%的原始資料來建立兩個新的資料集,並使用它們來訓練兩個VGG FCN(表I)。我們確認所有基準類別的F分數顯著改善,從1%到10%到100%的訓練資料。
3物體姿態估計方面 :1 我們報告物件姿勢預測的百分比,其方向誤差小於15°,偏移距離百分比小於5cm 2多檢視資訊(不理解) 3 去噪聲 4 ICP演算法的改進 5 效果的極限
4 常見的錯誤匹配模式:1 對於在嚴重遮擋或雜亂下的物件的FCN分割可能是不完整的,導致不良的姿勢估計 2物件顏色紋理彼此混淆3長方體物體的模型擬合經常混淆角對齊
存在提升和改進的地方:
儘管計算機視覺取得了巨大進步,但許多最先進的眾所周知的方法通常不足以應對相對常見的情況。我們在這裡描述了兩個可以改善實際系統的觀察結果:1充分利用每一個約束條件。外部約束限制了系統可以做什麼。間接地,它們還限制了系統可以處於的狀態集,這可以導致感知系統中的簡化和魯棒性的機會。在揀貨任務中,每個團隊都收到了物品清單,貨箱分配和貨架模型。所有團隊都使用倉分配來排除考慮物件和貨架模型以校準他們的機器人。這些優化非常簡單且有用。但是,進一步調查會產生更多機會。通過使用這些相同的約束,我們構建了一個自我監督機制來訓練具有更多資料的深度神經網路。正如我們的評估所示,培訓資料量與績效密切相關。2手拉手設計機器人和視覺系統。視覺演算法經常被孤立地設計。然而,視覺是具有需求和機遇的更大機器人系統的一個組成部分。典型的計算機視覺演算法在單個影象上操作以進行分割和識別機器人手臂使我們擺脫了這種限制,使我們能夠精確地融合多個檢視並提高雜亂環境中的效能。計算機視覺系統也傾向於具有固定輸出(例如,邊界框或2D分割圖),但是具有多種操縱策略的機器人系統可受益於輸出的多樣性。例如,吸盤和夾具可能具有不同的感知要求。雖然前者可能更加穩健地使用分段點雲,但後者通常需要物件姿勢和幾何的知識。
第二部分概念的理解:
2D bounding boxes:用來標記影象中的敏感區域的部分
python演算法實現程式碼:
def function():
image = cv2.imread('E:/PythonCode/學校.jpg')
cv2.rectangle(image, (300, 300), (300 + 720, 300 + 420), (0, 0, 10))
cv2.imshow('original', image)
cv2.waitKey(10000)
RGB images /RGB相機原理:
深度影象 = 普通的RGB三通道彩色影象 + Depth Map
在3D計算機圖形中,Depth Map(深度圖)是包含與視點的場景物件的表面的距離有關的資訊的影象或影象通道。其中,Depth Map 類似於灰度影象,只是它的每個畫素值是感測器距離物體的實際距離。通常RGB影象和Depth影象是配準(這裡涉及到時相機的標定)的,因而畫素點之間具有一對一的對應關係
影象深度:是指儲存每個畫素所用的位數,也用於量度影象的色彩解析度。
影象深度 確定彩色影象的每個畫素可能有的顏色數,或者確定灰度影象的每個畫素可能有的灰度級數。它決定了彩色影象中可出現的最多顏色數,或灰度影象中的最大灰度等級。比如一幅單色影象,若每個畫素有8位,則最大灰度數目為2的8次方,即256。一幅彩色影象RGB三通道的畫素位數分別為4,4,2,則最大顏色數目為2的4+4+2次方,即1024,就是說畫素的深度為10位,每個畫素可以是1024種顏色中的一種。
例如:
一幅畫的尺寸是1024*768,深度為16,則它的資料量為1.5M。
計算如下:
1024×768×16 bit = (1024×768×16)/8 Byte = [(1024×768×16)/8]/1024 KB = 1536 KB = 1.5 MB
參考文章:https://blog.csdn.net/jningwei/article/details/73609127
ICP演算法
影象配準是影象處理研究領域中的一個典型問題和技術難點,其目的在於比較或融合針對同一物件在不同條件下獲取的影象,例如影象會來自不同的採集裝置,取自不同的時間,不同的拍攝視角等等,有時也需要用到針對不同物件的影象配準問題。具體地說,對於一組影象資料集中的兩幅影象,通過尋找一種空間變換把一幅影象對映到另一幅影象,使得兩圖中對應於空間同一位置的點一一對應起來,從而達到資訊融合的目的。 一個經典的應用是場景的重建,比如說一張茶几上擺了很多杯具,用深度攝像機進行場景的掃描,通常不可能通過一次採集就將場景中的物體全部掃描完成,只能是獲取場景不同角度的點雲,然後將這些點雲融合在一起,獲得一個完整的場景。
ICP演算法是一種點集對點集配準方法。如下圖所示,PR(紅色點雲)和RB(藍色點雲)是兩個點集,該演算法就是計算怎麼把PB平移旋轉,使PB和PR儘量重疊。
用數學語言描述如下,即ICP演算法的實質是基於最小二乘法的最優匹配,它重複進行“確定對應關係的點集→計算最優剛體變換”的過程,直到某個表示正確匹配的收斂準則得到滿足。
參考文章:https://www.cnblogs.com/21207-iHome/p/6038853.html
思路:
參考文章:https://blog.csdn.net/eric_e/article/details/80908162
自監督訓練網路:
首先理解什麼是監督學習?判斷是否是監督學習,就看輸入資料是否有標籤。輸入資料有標籤,則為有監督學習,沒標籤則為無監督學習。
分類演算法就是一種監督學習。對於分類,輸入的訓練資料有特徵,有標籤。所謂的學習,其本質就是找到特徵和標籤間的關係。也就是找規律。這樣當有特徵而無標籤的未知資料輸入時,我們就可以通過已有的關係得到未知資料標籤,即根據新資料進行預測。在上述的分類過程中,如果所有訓練資料都有標籤,則為有監督學習(supervised learning)。如果資料沒有標籤,顯然就是無監督學習(unsupervised learning),即聚類(clustering)。
參考文章:https://blog.csdn.net/jiangjunshow/article/details/77373847
大規模帶標註的資料集的出現是深度學習在計算機視覺領域取得巨大成功的關鍵因素之一。然而,監督式學習存在一個主要問題:過於依賴大規模資料集,而資料集的收集和手動資料標註需要耗費大量的人力成本。作為替代方案,自監督學習旨在通過設計輔助任務來學習可區別性的視覺特徵,如此,目標標籤就能夠自由獲取。這些標籤能夠直接從訓練資料或影象中獲得,併為計算機視覺模型的訓練提供監督資訊,這與監督式學習的原理是相同的。但是不同於監督式學習的是,自監督學習方法通過挖掘資料的性質,從中學習並生成視覺特徵的語義標籤資訊。還有一類方法是弱監督學習,這種學習方式能夠利用低水平的註釋資訊來解決更復雜的計算機視覺任務,如利用自然場景下每張影象的類別標籤進行目標檢測任務。
參考文章:http://www.elecfans.com/d/719628.html
第一部分單詞的意思理解:
robust 健的;健康的;粗野的;粗魯的
practical 實際的;實用性的
bin 容器箱子
clutter /'klʌtə/n. 雜亂,混亂
affordancen. 功能可見性;自解釋性;給養
primitive n. 原始人adj. 原始的,遠古的;簡單的,粗糙的
coverage n. 覆蓋,覆蓋範圍
visibly adv. 明顯地;顯然;看得見地
self-supervised 自監督、指導 adj. 有監督的
segmentn. 段;部分vt. 分割vi. 分割
tedious adj. 沉悶的;冗長乏味的
manual n. 手冊,指南adj. 手工的;體力的
collaboration n. 合作;勾結;通敵
shelf n. 架子;擱板;擱板狀物;暗礁
stowing n. 積載;填充;堆裝v. 堆裝;貯藏(stow的ing形式)
validate vt. 證實,驗證;確認;使生效
scenarios n. 情節;指令碼;情景介紹(scenario的複數)
validate vt. 證實,驗證;確認;使生效
constraints n. [數] 約束;限制;約束條件(constraint的複數形式)
scenarios n. 情節;指令碼;情景介紹(scenario的複數)
pixel n. (顯示器或電視機圖象的)畫素(等於picture element)
segmentation 分割,分裂
histogram n. [統計] 直方圖;柱狀圖
backprojection幕後投影,背景放映
iterativeadj. [數] 迭代的;重複的,反覆的
compactly adv. 簡潔地;緊密地;細密地
controllabilityn. [自] 可控性;可控制性
kinematic adj. [力] 運動學上的,[力] 運動學的
aligns、使結盟、排列(aligh的第三人稱單數形式)
aligns、使結盟
multiple n. 倍數;[電] 並聯、adj. 多重的;多樣的;許多的
filtering v. [化工] 過濾,濾除(filter的ing形式)
threshold n. 入口;門檻;開始;極限;臨界值
deviations、n. 差異,偏差(deviation複數)
spatial、adj. 空間的;存在於空間的;受空間條件限制的
boundaries、n. 邊界,界線(boundary的複數形式);界限
duplicates、n. 副本,[印刷] 複製品(duplicate的複數形式);多重記錄;倍增、 複製(duplicate的三單形式)
inventory n. 存貨,存貨清單;詳細目錄;財產清冊
clustering n. 聚集,收集;分類歸併v. 使成群(cluster的現在分詞)
perpendicular n. 垂線;垂直的位置 adj. 垂直的,正交的;直立的;陡峭的
spectrum n. 光譜;頻譜;範圍;餘象
distributionsn. 分派;分派;分銷(distribution的複數形式)
sensitive adj. 敏感的;感覺的;[儀] 靈敏的;感光的;易受傷害的;易受影響的 n. 敏感的人;有靈異能力的人
coarse adj. 粗糙的;粗俗的;
subset 子集和
parameters n. "引數, 參量; 界限; 因素, 特徵; 決定功能形式的變數
misalignment n. 不重合;未對準
convert vt. 使轉變;轉換…;使…改變信仰 vi. 轉變,變換;皈依;改變信仰
reusable adj. 可以再度使用的,可重複使用的
stowng 充填