pointNet:用於三維分類和分割的點集深度學習

阿新 • • 發佈：2018-12-13

原文：PointNet：Deep Learning on Point Sets for 3D Classification and Segmentation

摘要

點雲是一種重要的幾何資料結構。由於其格式不規則，大多數研究人員將這些資料轉換成規則的三維體素網格或影象集合。然而，這使得資料不必要的龐大，並導致問題。本文設計了一種直接消耗點雲的新型神經網路，該神經網路很好地考慮了輸入點的置換不變性。我們的網路名為PointNet，為從物件分類、部分分割到場景語義解析的應用程式提供了統一的體系結構。雖然簡單，PointNet是高效和有效的。從經驗上看，它表現出強勁的表現，甚至比現有技術更好。理論上，我們提供分析，以瞭解網路已經學到了什麼，以及為什麼網路對於輸入擾動和損壞是魯棒的。

1.介紹

在本文中，我們探索深度學習架構能夠推理三維幾何資料，如點雲或網格。典型的卷積架構需要非常規則的輸入資料格式，例如影象網格或3D體素的格式，以便執行權重共享和其他核心優化。由於點雲或網格不是常規格式，大多數研究人員通常在將這些資料饋送到深層網路體系結構之前將這些資料轉換為常規3D體素網格或影象（例如，檢視）集合。然而，這種資料表示轉換使得所得到的資料不必要地龐大，同時還引入了可以模糊資料的自然不變性的量化偽影。

出於這個原因，我們專注於一個不同的輸入表示3D幾何使用點雲-並命名我們產生的深網PoxtNETs。點雲資料是簡單而統一的結構，避免了組合的不規則性和複雜性，網格，從而更容易學習。然而，pointnet，仍然要尊重事實，一點雲只是一個點集，因此常為其成員的排列，需要一定的symmetrizations在網路計算。剛性運動的進一步不變性也需要考慮。

我們的pointnet是一個統一的架構，直接以點雲的輸入和輸出的一類標籤的整個輸入或每點段/部分標籤輸入的每個點。我們的網路基礎架構很簡單，在初始階段的每一個點進行獨立同。在基本設定中，每個點僅由它的三個座標（x，y，z）表示。額外的維度，可以通過計演算法線和其他區域性或全域性的功能補充。

我們的方法的關鍵是一個單一的對稱函式的使用，最大池。有效的網路學習的一組優化的功能/標準，選擇點雲有趣或資訊點編碼為他們選擇的原因。最後的全連線層網路聚合這些學到的最優值為全域性描述符的整個形狀如上面所提到的（分類）或是用來預測每點標籤（形狀分割）。

我們的輸入格式很容易應用剛性或仿射變換，因為每個點獨立變換。因此我們可以新增一個數據依賴的空間變換網路，試圖規範資料前pointnet過程，從而進一步提高的結果。

我們提供了理論分析和實驗評價我們的方法。我們表明，我們的網路可以近似任何連續的函式集。更有趣的是，我們的網路學習用一組稀疏的關鍵點來概括輸入點雲，根據視覺化，這些關鍵點大致對應於物件的骨架。理論分析解釋了為什麼我們的PointNet對輸入點的小擾動以及通過點插入（離群值）或刪除（丟失資料）造成的損壞具有很強的魯棒性。

在許多基準資料集上，從形狀分類、部分分割到場景分割，我們實驗比較了我們的PointNet和基於多檢視和體表示的最新方法。在統一的體系結構下，我們的PointNet不僅在速度上快得多，而且在標準效能上甚至比現有技術表現得更好。

我們的工作的主要貢獻如下：

●我們設計了一種適用於3D中無序點集的新型深網體系結構；

●我們展示瞭如何訓練這樣的網路來執行3D形狀分類、形狀部分分割和場景語義解析任務；

我們對我們的方法的穩定性和效率進行了徹底的經驗和理論分析；

●我們說明由網路中選定的神經元計算的3D特徵，併為其效能開發直觀的解釋。

用神經網路處理無序集的問題是一個非常普遍和基本的問題——我們希望我們的思想也可以轉移到其他領域。

2。相關工作

點雲特徵點雲的大多數現有特徵都是針對特定任務手工製作的。點特徵通常編碼點的某些統計特性，並且被設計成對某些變換是不變的，這些變換通常被分類為內在的[2，24，3]或外在的[20，19，14，10，5]。它們也可以被歸類為區域性特徵和全域性特徵。對於特定的任務，找到最佳的特徵組合不是微不足道的。

對3D資料3D資料的深入學習有多種流行的表示方式，導致學習的各種方法。體積CNN:（28, 17, 18）是將三維卷積神經網路應用於體素化形狀的先驅。然而，由於資料稀疏性和3D卷積的計算代價，體積表示受到解析度的限制。FPNN（13）和Vote3D（26）提出了處理稀疏問題的特殊方法；

他們的操作仍然是稀疏的卷，對他們來說處理非常大的點雲是很有挑戰性的。多檢視CNN:（23, 18）嘗試將3D點雲或形狀渲染成2D影象，然後應用2D CONV網對它們進行分類。在設計良好的影象CNNs的情況下，這一系列方法已經在形狀分類和檢索任務上取得了支配性的效能[ 21 ]。然而，將它們擴充套件到場景理解或其他3D任務（如點分類和形狀完成）並不容易。光譜CNN:一些最新的作品（4, 16）在網格上使用光譜CNNs。然而，這些方法目前侷限於諸如有機物體之類的流形網格，如何將它們擴充套件到諸如傢俱之類的非等距形狀並不明顯。基於特徵的DNN：[6，8]首先將三維資料轉換為向量，提取傳統的形狀特徵，然後利用全連通網路對形狀進行分類。我們認為它們受到所提取特徵的表示能力的限制。

從資料結構的角度看無序集的深層學習，點雲是一組無序的向量。雖然在深層學習中的大多數工作都集中在常規輸入表示上，如序列（在語音和語言處理中）、影象和卷（視訊或3D資料），但是在點集的深度學習中沒有做太多的工作。一個最近的工作從Oroi-Viyales等人（25）著眼於這個問題。他們使用讀寫過程注意機制的網路消費無序的輸入集和顯示他們的網路是數字的能力。然而，由於他們的工作集中於泛型集合和NLP應用，因此在集合中缺乏幾何的作用。

三。問題陳述

我們設計了一個深度學習框架，它直接消耗無序的點集作為輸入。一點雲被表示為一個3D點集{ PI | i = 1，…，n}，其中每個點的皮是一個向量（x，y，z的）座標加上額外的特徵通道如顏色、正常等簡單明瞭，除非另有說明，我們只使用（x，y，z）座標為我們點的通道ELS。

面向物件分類任務，輸入的點雲是由形狀或預分割從現場直接取樣點雲。我們提出的深度網路輸出K得分為所有的K個候選類。語義分割，輸入可以是部分割槽域分割一個單獨的物件，或一個子體積從3D場景物件的區域分割。我們的模型將輸出N×M分數為每個N點和M語義子類別中的每一個。

4。點集的深層學習

我們的網路（SEC 4.2）的體系結構是由R n（SEC 4.1）中的點集的性質所啟發的。

4.1。Rn中點集的性質

我們的輸入是來自歐氏空間的點的子集。

它有三個主要特性：

無序的。不同於畫素陣列的影象或體素陣列的體積網格，點雲是一組點沒有特定的順序。換言之，消耗N個3D點集的網路需要對N是不變的！資料輸入順序中輸入集合的排列。

點之間的相互作用。這些點來自具有距離度量的空間。這意味著點不是孤立的，並且相鄰點形成有意義子集。因此，模型需要能夠從附近的點捕獲區域性結構，以及區域性結構之間的組合相互作用。

在變換下的不變性。作為幾何物件，點集的學習表示對於某些變換應該是不變的。例如，旋轉和平移點一起不應該修改全域性點雲類別，也不應該修改點的分割。

4.2。點網體系結構

我們的完整網路架構在圖2中視覺化，其中分類網路和分割網路共享大部分結構。請閱讀圖2的管道說明。我們的網路有三個關鍵模組：作為聚集所有點的資訊的對稱函式的最大匯聚層、區域性和全域性資訊組合結構、以及兩個聯合對準網路，它們同時對準輸入點和點特徵。

我們將在下面的單獨段落中討論這些設計選擇背後的原因。

無序輸入的對稱函式 為了使模型不變於輸入置換，存在三種策略：1）將輸入分類為規範順序；2）將輸入看作訓練RNN的序列，但用各種置換對訓練資料進行擴充；3）使用簡單的對稱函式。聚合每個點的資訊。這裡，對稱函式取n個向量作為輸入，並輸出與輸入順序不變數的新向量。例如，+和*運算元是對稱的二進位制函式。

雖然排序聽起來像一個簡單的解決方案，但在高維空間中，實際上不存在一般意義上的穩定的w.r.t點擾動的順序。這可以很容易地被矛盾顯示出來。如果存在這樣的排序策略，它定義了高維空間與一維實線之間的雙射對映。不難看出，要求排序是穩定的w.r.t點擾動等價於要求該對映隨著維度的降低而保持空間接近性，這是在一般情況下無法實現的任務。因此，排序不能完全解決排序問題，並且當排序問題持續存在時，網路很難學習從輸入到輸出的一致對映。實驗結果表明（圖5），我們發現運用一個MLP直接排序的點集的表現不佳，但略優於直接處理一個未排序的輸入。

使用RNN認為點集作為一個連續的訊號，希望通過與隨機置換序列的RNN訓練理念，RNN將成為輸入順序不變。然而，在《秩序問題》（25）中，作者已經表明秩序是重要的，不能被完全忽略。而網路具有輸入小長序列排序比較好的魯棒性（幾十個），規模為投入要素的人是很困難的，這是點集的常見尺寸。從經驗上，我們還表明，基於RNN模型不執行以及我們所提出的方法（圖5）。

我們的想法是近似的一般函式在一個點集採用對稱函式集合中的元素定義轉換

從經驗上講，我們的基本模組非常簡單：我們用多層感知器網路來近似h，用單變數函式和最大匯聚函式的組合來近似g。這被發現通過實驗很好地工作。通過H的集合，我們可以學習一些F的集合來捕獲不同的屬性。

雖然我們的關鍵模組看起來很簡單，但是它具有有趣的特性（參見Sec 5.3），並且可以在一些不同的應用程式中實現強大的效能（參見Sec 5.1）。由於我們的模組的簡單性，我們也能夠提供理論分析，如SEC 4.3。

區域性和全域性資訊聚合：上述部分的輸出形成向量[f1，.…，FK]，這是輸入集的全域性簽名。我們可以很容易地訓練SVM或多層感知器分類器的形狀全域性特徵分類。然而，點分割需要區域性和全域性知識的組合。我們可以通過簡單而高效的方式來實現這一目標。

我們的解決方案可以在圖2（分割網路）中看到。計算完全域性點雲特徵向量後，通過將全域性特徵與每個點特徵連線起來，將其反饋到每個點特徵。然後，我們基於組合的點特徵來提取新的點特徵——這次每個點特徵知道區域性和全域性資訊。

通過這種修改，我們的網路能夠預測依賴於區域性幾何和全域性語義的每點數量。例如，我們可以精確地預測每個點的法線（附圖中），驗證網路能夠從該點的本地鄰域中總結資訊。實驗證明，該模型在形狀分割和場景分割方面均能達到最新水平。

如果點雲經過某些幾何變換，如剛性變換，則點雲的語義標記必須是不變的。因此，我們期望我們的點集所學的表示對於這些變換是不變的。

一種自然的解決方案是在特徵提取之前將所有輸入集對齊到標準空間。賈德伯格等。[9]引入空間變換的思想，通過取樣和插值來對準2D影象，通過GPU實現的特定定製層來實現。

我們的點雲輸入形式使我們能夠以比（9）更簡單的方式實現這一目標。我們不需要發明任何新的層，並且沒有象影象中那樣引入別名。我們用小網路（圖2中的T-網）來預測仿射變換矩陣，並將這個變換直接應用於輸入點的座標。該網路本身類似於大網路，由點無關特徵提取、最大池和全連線層等基本模組組成。關於T-NET的更多細節在補充中。

該思想還可以進一步擴充套件到特徵空間的對齊。我們可以在點特徵上插入另一個對準網路，並預測一個特徵變換矩陣來對準來自不同輸入點雲的特徵。然而，特徵空間中的變換矩陣維數遠高於空間變換矩陣，這大大增加了優化的難度。因此，我們增加了一個正規化的術語，以我們的SOFTMax培訓損失。我們將特徵變換矩陣約束為接近正交矩陣：

其中A是由微型網路預測的特徵對齊矩陣。正交變換不會丟失輸入中的資訊，因此是需要的。我們發現，通過加入正則化項，優化變得更加穩定，並且我們的模型達到更好的效能。

4.3。理論分析

首先，我們證明了我們的神經網路對連續集函式的普遍逼近能力。通過連續設定功能，直觀地說，一個小的擾動輸入點集不應該大大改變函式的值，如分類或分割的分數。

正式，讓X = {：S⊆[ 0，1 ]和|S| = n }，F：X→R是X上的關於Hausdorff距離DH一組連續函式（·，·），即∀C> 0，∃δ> 0，任何s,s'∈X，如果DH（S，S'）<δ，然後| F（s）-F（s'）| <c。我們的定理表明，f可以任意近似由我們的網路給定足夠的神經元在最大池層，即k（1）足夠大

定理1。假設f:x～r是連續集函式W.R.T.Hausdorff距離DH（·，·）。∀c＞0，∃一個連續函式H和一個對稱函式g（x1，.）。…，xn）＝γmax，對於任何s ∈ x，

其中x1，.…xn是S序中任意元素的完整列表，γ是連續函式，MAX是以n個向量為輸入並返回元素最大值的新向量的向量極大運算元。

這個定理的證明可以在我們的補充材料中找到。關鍵思想是，在最壞的情況下，網路可以通過將空間劃分成大小相等的體素來學習將點雲轉換為體積表示。然而，在實踐中，網路學習了更智慧的策略來探索空間，正如我們將在點函式視覺化中看到的。

理論上和實驗上我們發現，網路的表達能力受最大匯聚層維數（即K in（1））的強烈影響。在這裡，我們提供了一個分析，這也揭示了我們的模型的穩定性相關的屬性。

我們定義U＝max {H（Xi）}為F的子網路，它將在[0, 1 ] m中的點對映到k維向量。下面的定理告訴我們，輸入集中的小損壞或額外的噪聲點不太可能改變網路的輸出：

我們解釋了定理的含義。(a)表示如果CS中的所有點都被保留，則f(S)直到輸入損壞是不變的；它還隨著直到NS的額外噪聲點而不變。（b）表示CS僅包含有界數，由K（1）確定。換言之，F（S）實際上完全由有限或不等於K元素的有限子集CS決定。因此，我們稱CS為S的臨界點集，稱K為f的瓶頸維數。結合h的連續性，這解釋了我們的模型w.r.t點擾動、腐蝕和額外的噪聲點的魯棒性。與機器學習模型中稀疏性原理相比較，得到了魯棒性。直觀地說，我們的網路學會通過一組稀疏的關鍵點來概括形狀。在實驗部分，我們看到關鍵點構成了一個物件的骨架。

5。實驗

實驗分為四個部分。首先，我們顯示點網可以應用於多個3D識別任務（SEC 5.1）。第二，我們提供詳細的實驗來驗證我們的網路設計（SEC 5.2）。最後，我們視覺化網路學習（SEC 5.3）並分析時間和空間複雜度（SEC 5.4）。

5.1。應用

在本節中，我們將展示如何訓練我們的網路來執行3D物件分類、物件部分分割和語義場景分割1。儘管我們正在研究一種全新的資料表示（點集），但我們能夠在多個任務的基準測試中實現可比甚至更好的效能。

3D物件分類 我們的網路學習可以用於物件分類的全域性點雲特徵。我們在模型NET40[ 28 ]形狀分類基準上評估我們的模型。從40個人造物體類別中，有12311個CAD模型，分成9843個

我們在模型NET40[ 28 ]形狀分類基準上評估我們的模型。有12311個CAD模型從40個人造目標類別，分裂成9843的培訓和2468的測試。雖然以前的方法側重於體積和多檢視影象表示，但我們是第一個直接處理原始點雲的方法。我們根據人臉面積均勻地在網格面上取樣1024個點，並將它們歸一化為單位球面。

在訓練過程中，通過沿上軸隨機旋轉物體來動態地增強點雲，並通過均值為零和標準偏差為0.02的高斯噪聲來抖動每個點的位置。

在表1中，我們將我們的模型和以前的工作以及使用MLP對從點雲中提取的傳統特徵（點密度、D2、形狀輪廓等）的基線進行比較。我們的模型在基於3D輸入（體積和點雲）的方法中達到了最先進的效能。由於只有完全連線的層和最大池，我們的網路在推理速度方面有很強的領先性，而且在CPU中也很容易並行化。我們的方法和基於多檢視的方法（MVCNN〔23〕）之間仍然存在一個小的差距，我們認為這是由於丟失的精細幾何細節可以被渲染的影象捕獲。

三維物體分割 部分分割是一個具有挑戰性的細粒度三維識別任務。給定3D掃描或網格模型，任務是將部件類別標籤（例如椅子腿、杯柄）分配給每個點或面部。

我們對[29]中的ShapeNet部件資料集進行評估，該資料集包含來自16個類別的16881個形狀，註釋了總共50個部件。大多數物件類別被標記為兩到五個部分。地面真實註釋標註在形狀上的取樣點上。

我們把部分分割作為一個點分類問題來解決。評價指標是MIOU點。對於C類中的每個形狀S，要計算形狀的mIoU：對於C類中的每個部件型別，在基礎事實和預測之間計算IoU。如果地面真理和預測點的結合是空的，那麼將部分IOU計數為1。然後，我們對C類的所有部分型別進行平均化，得到MIU。為了計算MIUE的類別，我們對該類別中的所有形狀取平均值。

在這一節中，我們將我們的分割版本PointNet（FIG 2的修改版本，分割網路）與兩個傳統的方法[27 ]和[29 ]進行比較，它們利用點幾何特徵和形狀之間的對應關係，以及我們自己的3D美國有線電視新聞網基線。詳見補充說明

3DCNN的修改和網路架構。在表2中，我們報告每個類別和平均IOU（%）分數。我們觀察到2.3%的平均IOU改進，並且我們的網擊敗了大多數類別的基線方法。我們還進行了模擬Kinect掃描實驗，以測試這些方法的魯棒性。在shapenet部分資料集的每個CAD模型，我們使用blensor Kinect模擬器[ [7]從6隨機的觀點產生不完整的點雲。我們用相同的網路架構和訓練設定在完整的形狀和部分掃描上訓練點網。結果表明，我們只損失5.3%的平均IOU。在圖3中，我們給出了完整和部分資料的定性結果。可以看出，雖然部分資料相當具有挑戰性，但我們的預測是合理的。

場景中的語義分割 我們的零件分割網路可以容易地擴充套件到語義場景分割，其中點標籤成為語義物件類，而不是物件零件標籤。

我們在斯坦福大學3D語義解析資料集上進行了實驗[1 ]。資料集包含來自6個領域的Matter埠掃描器的3D掃描，包括271個房間。掃描中的每個點都用來自13個類別（椅子、桌子、地板、牆壁等，加上雜亂）的語義標籤之一進行註釋。

為了準備訓練資料，我們首先逐個房間分割點，然後將房間樣本分成面積為1m×1m的塊。每個點由XYZ、RGB和歸一化位置的9-暗向量表示（從0到1）。在訓練時間，我們隨機抽樣4096個點在每個區塊上飛行。在測試時間，我們對所有的點進行測試。我們遵循相同的協議[1 ]使用K摺疊策略的火車和測試。我們比較我們的方法與基線使用手工點特徵。基線提取相同的9模糊區域性特徵和三個附加特徵：區域性點密度、局部曲率和正常值。我們使用標準的MLP作為分類器。結果顯示在表3中，我們的PooTnNET方法顯著優於基線方法。在圖4中，我們展示了定性的分割結果。

我們的網路能夠輸出平滑的預測，並且對缺失點和遮擋具有魯棒性。基於我們網路輸出的語義分割，我們進一步構建了一個使用連線元件進行物件建議的3D物件檢測系統（詳細資訊見補充）。我們與表4中的現有技術方法進行了比較。前一種方法是基於滑動形狀法（帶有CRF後處理），其中SVM訓練了體素網格中的區域性幾何特徵和全域性空間上下文特徵。我們的方法比它大幅度的傢俱類別報告。

5.2。架構設計分析

在這一節中，我們通過控制實驗驗證了我們的設計選擇。我們還展示了我們的網路超引數的影響。

與第4.2節中提到的替代順序不變性方法相比，使用無序集合輸入至少有三種選擇。我們使用ModelNet40形狀分類問題作為比較這些選項的測試平臺，下面的兩個控制實驗也將使用這個任務。我們比較的基線（如圖5所示）包括n×3陣列的無序和排序點上的多層感知器、將輸入點視為序列的RNN模型和基於對稱函式的模型。我們實驗的對稱操作包括最大池、平均池和基於注意力的加權和。注意力方法類似於[25]中的方法，其中，從每個點特徵預測標量分數，然後通過計算軟最大值來標準化跨點的分數。然後將加權和計算在歸一化得分和點特徵上。如圖5所示，MyPooLoin操作以較大的獲勝裕度實現了最佳效能，這驗證了我們的選擇。

有效的輸入和功能轉換，在表5中我們展示的積極影響我們的輸入和功能轉換（對齊）。有趣的是，最基本的架構已經達到了相當合理的效果。使用輸入變換提高了0.8%的效能。高維變換工作需要正則化損失。通過將變換和正則化項相結合，實現了最佳效能。

魯棒性測試表明，我們的pointnets，簡單而有效，對各種輸入損壞具有魯棒性。我們使用與圖5的最大池網路相同的體系結構。輸入點被歸一化為單位球面。結果見圖6。

由於缺少點，當有50%點失蹤，精度只下降了2.4%和3.8%的相對遙遠的和隨機的輸入取樣。我們的網路也是異常模型的穩健：一個訓練點（x，y，z）座標；另一對（X，Y，Z）加上點密度。即使有20%的點是異常值，網路也有80%以上的精度。圖6右圖顯示了網路對點擾動的魯棒性。

5.3。視覺化點陣網

圖7中，我們把關鍵點集的CS和上界的形狀（如在2 ns THM討論）一些樣品的形狀，點集的兩個形狀之間將完全相同的整體形狀特徵F（S）。

從圖7我們可以清楚的看到，關鍵點集的CS，那些貢獻最大混合特徵，總結了形狀的骨架。上界形狀NS說明最大可能的點雲，給相同的全域性形狀特徵F（S）為輸入點雲美國CS和NS反映pointnet魯棒性，意味著失去一些非關鍵點不改變全域性形狀簽名F（s）在所有。

NS是由轉發所有的點在一個edge-length-2立方體通過網路選擇點P的點的函式值（H1，H2（P）（P），···，香港（P））不超過全球的形狀描述符。

5.4。時空複雜度分析

表6總結了我們的分類PointNet的空間（網路中引數的數量）和時間（浮點操作/示例）複雜度。我們還比較PotoNETs的代表性的集合體積和多檢視的架構在以前的作品。

雖然MVCNN[23]和Sub.(3D CNN)[18]實現了高效能，但PointNet在計算成本方面效率更高（在FLOP/sample中測得，分別為141x和8x）。此外，在網路中，PoNETNE比MVCNN更節省空間（17x更少的引數）。此外，PootNETs更具可擴充套件性——它的空間和時間複雜度是O（n）-在輸入點的數量上是線性的。然而，由於卷積在計算時間上占主導地位，多視點方法的時間複雜度隨著影象解析度的增大而增大，基於體積卷積的方法隨著體積的增大而呈立方體增長。

從經驗上講，PointNet能夠在TensorFlow上使用1080XGPU每秒處理100多萬個點，用於點雲分類（大約1K個物件/秒）或語義分割（約2個房間/秒），顯示出巨大的實時應用潛力。

6。結論

在這項工作中，我們提出了一種新的直接消耗點雲的深度神經網路PootNET.我們的網路提供了一個統一的方法來實現一些3D識別任務，包括物件分類、部分分割和語義分割，而在標準基準上獲得比標準的狀態更好或更好的結果。我們還提供了理論分析和可視化了解我們的網路。

References
[1] I. Armeni, O. Sener, A. R. Zamir, H. Jiang, I. Brilakis, M. Fischer, and S. Savarese. 3d semantic parsing of
large-scale indoor spaces. In Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2016. 6, 7
[2] M. Aubry, U. Schlickewei, and D. Cremers. The wave kernel signature: A quantum mechanical approach to shape analysis. In Computer Vision Workshops (ICCV Workshops), 2011 IEEE International Conference on, pages 1626–1633. IEEE, 2011. 2
[3] M. M. Bronstein and I. Kokkinos. Scale-invariant heat kernel signatures for non-rigid shape recognition. In
Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, pages 1704–1711. IEEE, 2010. 2
[4] J. Bruna, W. Zaremba, A. Szlam, and Y. LeCun. Spectral networks and locally connected networks on graphs. arXiv preprint arXiv:1312.6203, 2013. 2
[5] D.-Y. Chen, X.-P. Tian, Y.-T. Shen, and M. Ouhyoung. On visual similarity based 3d model retrieval. In Computer graphics forum, volume 22, pages 223–232. Wiley Online Library, 2003. 2
[6] Y. Fang, J. Xie, G. Dai, M. Wang, F. Zhu, T. Xu, and E. Wong. 3d deep shape descriptor. In Proceedings
of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2319–2328, 2015. 2
[7] M. Gschwandtner, R. Kwitt, A. Uhl, and W. Pree. BlenSor: Blender Sensor Simulation Toolbox Advances in Visual Computing. volume 6939 of Lecture Notes in Computer Science, chapter 20, pages 199–208. Springer Berlin / Heidelberg, Berlin, Heidelberg, 2011. 6
[8] K. Guo, D. Zou, and X. Chen. 3d mesh labeling via deep convolutional neural networks. ACM Transactions on Graphics (TOG), 35(1):3, 2015. 2
[9] M. Jaderberg, K. Simonyan, A. Zisserman, et al. Spatial transformer networks. In NIPS 2015. 4
[10] A. E. Johnson and M. Hebert. Using spin images for efficient object recognition in cluttered 3d scenes. IEEE Transactions on pattern analysis and machine intelligence, 21(5):433– 449, 1999. 2
[11] M. Kazhdan, T. Funkhouser, and S. Rusinkiewicz. Rotation invariant spherical harmonic representation of 3 d shape descriptors. In Symposium on geometry processing, volume 6, pages 156–164, 2003. 5
[12] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradientbased learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998. 13
[13] Y. Li, S. Pirk, H. Su, C. R. Qi, and L. J. Guibas. Fpnn: Field probing neural networks for 3d data. arXiv preprint arXiv:1605.06240, 2016. 2
[14] H. Ling and D. W. Jacobs. Shape classification using the inner-distance. IEEE transactions on pattern analysis and machine intelligence, 29(2):286–299, 2007. 2
[15] L. v. d. Maaten and G. Hinton. Visualizing data using t-sne. Journal of Machine Learning Research, 9(Nov):2579–2605, 2008. 15
[16] J. Masci, D. Boscaini, M. Bronstein, and P. Vandergheynst. Geodesic convolutional neural networks on riemannian manifolds. In Proceedings of the IEEE International Conference on Computer Vision Workshops, pages 37–45, 2015. 2

[17] D. Maturana and S. Scherer. Voxnet: A 3d convolutional neural network for real-time object recognition. In IEEE/RSJ International Conference on Intelligent Robots and Systems, September 2015. 2, 5, 10, 11
[18] C. R. Qi, H. Su, M. Nießner, A. Dai, M. Yan, and L. Guibas. Volumetric and multi-view cnns for object classification on 3d data. In Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 2016. 2, 5, 8
[19] R. B. Rusu, N. Blodow, and M. Beetz. Fast point feature histograms (fpfh) for 3d registration. In Robotics and Automation, 2009. ICRA’09. IEEE International Conference on, pages 3212–3217. IEEE, 2009. 2
[20] R. B. Rusu, N. Blodow, Z. C. Marton, and M. Beetz. Aligning point cloud views using persistent feature histograms. In 2008 IEEE/RSJ International Conference on Intelligent Robots and Systems, pages 3384–3391. IEEE, 2008. 2
[21] M. Savva, F. Yu, H. Su, M. Aono, B. Chen, D. Cohen-Or, W. Deng, H. Su, S. Bai, X. Bai, et al. Shrec16 track largescale 3d shape retrieval from shapenet core55. 2 [22] P. Y. Simard, D. Steinkraus, and J. C. Platt. Best practices for convolutional neural networks applied to visual document analysis. In ICDAR, volume 3, pages 958–962, 2003. 13
[23] H. Su, S. Maji, E. Kalogerakis, and E. G. Learned-Miller. Multi-view convolutional neural networks for 3d shape recognition. In Proc. ICCV, to appear, 2015. 2, 5, 6, 8
[24] J. Sun, M. Ovsjanikov, and L. Guibas. A concise and provably informative multi-scale signature based on heat diffusion. In Computer graphics forum, volume 28, pages 1383–1392. Wiley Online Library, 2009. 2
[25] O. Vinyals, S. Bengio, and M. Kudlur. Order matters: Sequence to sequence for sets. arXiv preprint
arXiv:1511.06391, 2015. 2, 4, 7

[26] D. Z. Wang and I. Posner. Voting for voting in online point cloud object detection. Proceedings of the Robotics: Science and Systems, Rome, Italy, 1317, 2015. 2
[27] Z. Wu, R. Shou, Y. Wang, and X. Liu. Interactive shape cosegmentation via label propagation. Computers & Graphics, 38:248–254, 2014. 6, 10
[28] Z. Wu, S. Song, A. Khosla, F. Yu, L. Zhang, X. Tang, and J. Xiao. 3d shapenets: A deep representation for volumetric shapes. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1912–1920, 2015. 2, 5, 11
[29] L. Yi, V. G. Kim, D. Ceylan, I.-C. Shen, M. Yan, H. Su, C. Lu, Q. Huang, A. Sheffer, and L. Guibas. A scalable active framework for region annotation in 3d shape collections. SIGGRAPH Asia, 2016. 6, 10, 18

補充的

概述

該檔案提供了額外的定量結果，技術細節和更多的定性測試例項的主要檔案。在SEC B中，我們擴充套件了魯棒性測試，將PositNET- VoxNet與不完全輸入進行比較。在Sec C中，我們提供了關於神經網路結構、訓練引數的更多細節，在Sec D中，我們描述了場景中的檢測流水線。然後，SEC說明了PooTNET的更多應用，而SEC F顯示了更多的分析實驗。SEC為我們的PosiNETs理論提供了一個證明。最後，我們在SEC H中顯示了更多的視覺化結果。

B pointnets與VoxNet的比較

（Sec 5.2）我們擴充套件了Sec 5.2魯棒性測試中的實驗，以比較PointNet和VoxNet[17]（體積表示的代表性體系結構）對輸入點雲中缺失資料的魯棒性。兩個網路在相同的列車測試分割上被訓練，1024個點作為輸入。對於VoxNet，我們將點雲體素化為32×32×32個佔用網格，通過上軸隨機旋轉和抖動來增加訓練資料。在測試時間，輸入點被隨機丟棄。

按一定比例。當VoxNet對旋轉敏感時，其預測使用點雲的12個視點的平均得分。如圖8所示，我們看到我們的PointNet對缺失點更加健壯。當輸入點的一半丟失時，VoxNet的精度顯著下降，從86.3%到46%，差為40.3%。

雖然我們的點網只有3.7%的效能下降。這可以通過我們的PointNet的理論分析和解釋來解釋——它正在學習使用一組關鍵點來概括形狀，因此它對丟失的資料非常健壯。

C.網路架構和培訓細節

(Sec 5.1)點網分類網路作為本文的基本結構，這裡我們對聯合對準/變換網路和訓練引數提供更多的細節。第一個變換網路是以原始點雲作為輸入並回歸到3×3矩陣的微型點網。它由每個點上的共享MLP(64，128，1024)網路(具有層輸出大小64，128，1024)、跨點的最大池以及具有輸出大小512，256的兩個完全連線的層組成。輸出矩陣被初始化為單位矩陣。除了最後一層之外，所有層包括Relu和批處理歸一化。第二變換網路具有與第一個網路相同的結構，除了輸出是64×64矩陣。矩陣也被初始化為一個身份。在SOFTMax分類損失中加入正則化損失（權重0.001），使矩陣接近正交。

我們使用輟學與保持比率0.7在最後一個完全連線層，其輸出維度256，在類得分預測之前。批處理歸一化的衰減率從0.5開始，並逐漸增加到0.99。我們使用亞當優化器初始學習率0.001，動量0.9和批量大小32。每20個週期將學習率除以2。MyNET3的培訓需要3-6小時來與TensorFlow和GTX1080 GPU匯合.

點網分割網路 分割網路是對分類點網的擴充套件。區域性點特徵（第二轉換網路之後的輸出）和全域性特徵（最大池的輸出）針對每個點進行連線。分段網路不採用輟學。訓練引數與分類網路相同。

對於形狀零件分割的任務，我們對基本的分割網路體系結構（本文中圖2所示）做了一些修改，以便獲得最佳效能，如圖9所示。我們添加了一個表示輸入類的熱向量，並將其與最大池層的輸出連線起來。我們還增加了一些層中的神經元，並新增跳躍連結來收集不同層中的區域性點特徵，並將它們連線起來形成到分割網路的點特徵輸入。雖然[27]和[29]獨立地處理每個物件類別，但是由於缺少某些類別的訓練資料（資料集中所有類別的形狀總數顯示在第一行中），所以我們跨類別訓練PointNet（但是使用一個熱向量輸入來指示類別）。為了允許公平的比較，當測試這兩個模型時，我們只預測給定的特定物件類別的部分標籤。在語義分割任務中，我們使用瞭如圖2所示的體系結構。

在ShapeNet部件資料集上訓練模型大約需要6到12個小時，在斯坦福語義分析資料集上訓練大約需要半天。

在ShapeNet零件分割實驗中，我們將我們提出的分割版本PointNet與兩種傳統方法以及3D體積CNN網路基線進行了比較。在圖10中，我們展示了我們使用的基線3D體積美國有線電視新聞網網路。我們將著名的3DCNN體系結構，如VoxNet[17]和3DShapeNets[28]推廣到完全卷積的3DCNN分割網路。

對於給定的點雲，我們首先將其轉換為體積表示，作為解析度為32×32×32的佔用網格。然後，依次應用五個具有32個輸出通道和1個步幅的3D卷積運算來提取特徵。每個體素的感受野為19。最後，在計算的特徵圖中加入核大小為1×1×1的三維卷積層序列來預測每個體素的分割標記。Relu和批量歸一化被用於除最後一層之外的所有層。網路是跨類別訓練的，然而，為了與給定物件類別的其他基線方法進行比較，我們只考慮給定物件類別中的輸出分數。

D 檢測管道的細節（sec5.1）

基於語義分割結果和我們的物件分類點網，構建了一個簡單的三維物體檢測系統。

我們使用連線元件與分割得分，以獲得在場景中的物件建議。從場景中的隨機點出發，找到其預測標籤，使用BFS搜尋具有相同標籤的附近點，搜尋半徑為0.2米。如果得到的叢集有200多個點（假設在1m乘以1m的面積中有4096個點樣本），則該叢集的邊界框被標記為一個物件建議。對於每個提出的物件，它的檢測得分被計算為該類別的平均點得分。在評估之前，削減非常小的面積/體積的建議。對於桌子，椅子和沙發，包圍盒延伸到地板，以防止腿與座椅/表面分開。

我們觀察到，在像禮堂這樣的一些房間中，許多物體（如椅子）彼此靠近，其中連線的元件將無法正確地分割出單個元件。因此，我們利用我們的分類網路，並使用滑動形狀的方法，以減輕椅子類的問題。我們為每個類別訓練二元分類網路，並使用分類器進行滑動視窗檢測。所得到的框通過非最大抑制來修剪。將所提出的從連線構件和滑動形狀的盒子組合起來進行最終評估。

在圖11中，我們展示了目標檢測的精確回憶曲線。我們訓練了六個模型，其中每一個模型都在五個區域進行訓練，並在左側區域進行測試。在測試階段，每個模型在從未見過的區域上進行測試。對於PR曲線的生成，對所有六個區域的測試結果進行彙總。

E.更多應用程式（SEC 5.1）

從點雲模型中，我們的PootNETs為每個給定的輸入點雲學習全域性形狀簽名。我們期望幾何相似的形狀具有相似的全域性特徵。在這一節中，我們測試我們關於形狀檢索應用的猜想。更具體地說，對於來自ModelNet測試分割的每個給定查詢形狀，我們計算分類PointNet給出的它的全域性簽名（得分預測層之前的層的輸出），並通過最近鄰搜尋來檢索分割後的列中的相似形狀。結果如圖12所示。

形狀對應 在本節中，我們表明點特徵學習PooTnNET可以潛在地用於計算形狀對應。給定兩種形狀，我們通過匹配啟用全域性特徵中相同維度的點對來計算它們的臨界點集CS之間的對應關係。圖13和圖14顯示了兩個相似的椅子和桌子之間的形狀對應關係。

F 更多架構分析（SEC 5.2）

瓶頸尺寸和輸入點數的影響這裡我們展示我們的模型的效能改變關於第一最大層輸出的大小以及輸入點數。在圖15中，我們看到效能隨著點的增加而增長，但是它在大約1K點飽和。最大層尺寸起著重要的作用，將層尺寸從64增加到1024，得到2×4%的效能增益。這表明，我們需要足夠的點特徵函式來覆蓋3D空間，以區分不同的形狀。

值得注意的是，即使以64點作為輸入（從網格上的最遠點取樣獲得），我們的網路也能達到良好的效能。

在本節中，我們展示了通過點網學習的點特徵可以潛在地用於計算形狀對應。給定兩種形狀，我們通過匹配啟用全域性特徵中相同維度的點對來計算它們的臨界點集CS之間的對應關係。圖13和圖14顯示了兩個相似的椅子和桌子之間的形狀對應關係。

E 更多架構分析（SEC 5.2）

瓶頸尺寸和輸入點數的影響 這裡我們展示我們的模型的效能改變關於第一最大層輸出的大小以及輸入點數。在圖15中，我們看到效能隨著點的增加而增長，但是它在大約1K點飽和。最大層尺寸起著重要的作用，將層尺寸從64增加到1024，得到2×4%的效能增益。這表明，我們需要足夠的點特徵函式來覆蓋3D空間，以區分不同的形狀。

值得注意的是，即使以64點作為輸入（從網格上的最遠點取樣獲得），我們的網路也能達到良好的效能。

MNIST數字分類當我們專注於3D點雲學習時，一個健全的檢查實驗是將我們的網路應用於2D點雲-畫素集。為了將MNIST影象轉換為2D點集，我們對畫素值進行閾值設定，並將值大於128的畫素（表示為影象中具有（x，y）座標的點）新增到該集合。我們使用256的集合大小。如果該集合中有超過256個畫素，則對它進行隨機子取樣；如果較少，則用集合中的一個畫素填充該集合（由於我們的最大操作，用於填充的點不會影響結果）。

如表7所示，我們與一些基線進行比較，包括將輸入影象視為有序向量的多層感知器、將輸入視為從畫素(0,0)到畫素(27,27)的序列的RNN、以及香草版本的CN。雖然MNIST上效能最好的模型仍然是經過良好設計的CNN（達到小於0.3%的錯誤率），但令人感興趣的是，我們的PointNet模型可以通過將影象視為2D點集來獲得合理的效能。

在PointNet的分割版本中，區域性點特徵和全域性特徵被連線起來以便為區域性點提供上下文。然而，目前還不清楚上下文是否通過這種連線來學習。在本實驗中，我們通過顯示我們的分割網路可以被訓練來預測點法線，一個由點的鄰域決定的區域性幾何特性，來驗證我們的設計。

我們訓練我們的分段點網的修改版本，以有監督的方式迴歸到地面真理點法線。我們只是改變我們的分割點網路的最後一層來預測每個點的法向量。我們使用餘弦距離的絕對值作為損耗。圖16將我們的PointNet正常預測結果（左列）與從網格（右列）計算的基本真值法線進行比較。我們觀察到合理的正常重建。我們的預測比在某些區域包括翻轉法線方向的地面真理更平滑和連續。

正如Sec 5.2和Sec B中所討論的，我們的PointNet對分類任務的資料損壞和缺失點不太敏感，因為全域性形狀特徵是從給定輸入點雲的關鍵點集合中提取的。在本節中，我們證明了魯棒性也適用於分割任務。基於點特徵和學習全域性形狀特徵的組合來預測每個點標記。在圖17中，我們說明了給定輸入點雲S（最左邊的列）、臨界點集CS（中間列）和上界形狀NS的分割結果。圖18中，我們可視化了ModelNet或ShapeNet中不存在的、來自看不見的類別（面部、房子、兔子、茶壺）的新形狀的臨界點集和上行形狀。結果表明，所學習的每個點函式是可推廣的。然而，由於我們主要是在人造物體上進行大量的平面結構訓練，所以在新的類別中重建的上界形狀也包含更多的平面表面。