科技

17 毫秒每幀！實時語義分割與深度估計

深度學習 · 發表 2018-10-01 08:55:53

摘要：我愛計算機視覺標星，更快獲取CVML新技術用更小更快的模型達到state-of-the-art效果的多工學習今天跟大家分享幾天前arXiv上的一篇兼顧模型速度與效能的論文《Real-Time Joint Semantic Segmentation and Depth Esti...

我愛計算機視覺標星，更快獲取CVML新技術

用更小更快的模型達到state-of-the-art效果的多工學習

今天跟大家分享幾天前arXiv上的一篇兼顧模型速度與效能的論文《Real-Time Joint Semantic Segmentation and Depth Estimation Using Asymmetric Annotations》，來自阿德萊德大學和墨爾本大學的研究人員在該文解決了在計算受限的裝置上部署多工模型的問題，取得了又好（達到state-of-the-art效果）又快（17毫秒每幀）同時實現語義分割與深度估計的效果。

作者資訊：

在機器人上部署深度學習模型提取環境資訊是一項艱鉅的任務，即使是使用強大的通用的GPU。在這篇論文中，作者希望將語義分割與深度估計兩個感知任務部署到機器人中，其主要解決了三個問題：

1）單模型多工，在同一個深度學習網路中同時實現語義分割與深度估計；

2）實時計算；

3）非對稱的標註資料，即並不是所有標註資料既有語義標註又有深度標註。

網路架構與演算法設計思想

1）骨幹網選擇和改進：

作者使用構建於MobileNet-v2分類網路上的Light-Weight RefineNet（BMVC2018論文提出的）作為骨幹網，該網路在輸入影象大小為640 × 480時計算量14 GFLOPs，為進一步降低計算量，作者將最後的CRP block中的1*1卷積替換為分組卷積（grouped convolution），使其降低為6.5 GFLOPs。

2）語義分割與深度估計聯合學習：

在上述Light-Weight RefineNet結構之後，網路分成兩個預測任務，分別使1*1的depthwise卷積和3*3的普通的卷積。

其損失函式：

3）知識蒸餾用於非對稱標註資料的專家標註：

這一步是重點！對於多工模型，需要標註的資料含有每種任務的標籤才能訓練。對於兩種任務T1和T2,假設只有少部分資料被標註了兩種標籤，對於樣本數量更多的只有其中一類標籤的資料，引入一個更加強大的專家模型，計算其在另一任務中的預測結果作為合成ground truth資料。

訓練的時候，使用合成ground truth資料先預訓練網路，然後再使用擁有兩種真實標籤的ground truth對網路fine-tune。

實驗結果

作者使用的機器配置和軟體版本24GB RAM，Intel i5-7600 處理器，一塊GT1080Ti GPU，CUDA9.0，CuDNN7.0。

1）NYUDv2資料集實驗

作者首先在NYUDv2資料集上做了實驗，其含有1449影象同時含有語義和深度標註（795幅訓練集，654幅驗證集），同時又有超過300000幅影象有深度標註。

作者引入的專家模型是Light-Weight RefineNet-152 語義分割模型，其在驗證集上的精度是44.4% mean iou。

製作完合成語義標註後，使用大的含有合成標註的資料集預訓練，然後在795影象的小資料集上fine-tune。

結果如下：

引數量僅3.07M，打敗了多個大型網路模型，預測效能幾乎都接近最好的結果，計算時間僅需要12.8ms。

下圖是深度估計的精度進一步比較：

接近大型網路的結果，甚至在某些指標下超越了大型網路的結果。

預測結果示例：

作者同時比較了在小資料集上的單任務模型，和其他文獻中使用合成標籤訓練的預測結果，表明該文方法取得了明顯的優勢。

2）KITTI資料集實驗

KITTI資料集僅含有146幅影象有語義標註（100幅訓練46幅測試），同時含有20697幅影象有深度標註（20000幅訓練，697幅測試），他們之間沒有同時被標註了語義和深度的資料。

作者使用在CityScapes資料集上訓練的ResNet-38模型作為語義專家模型給20000僅有深度標註的影象預測語義標籤，使用本文提出的網路架構在20000幅具有深度標註的影象上訓練的深度估計模型，然後給100幅僅有語義標註的影象預測深度標籤。

按照上面的方法，現在大庫上預訓練，再在100幅影象的小庫上fine-tune，結果如下：

比較有意思的是，這兩個任務甚至比目前state-of-the-art的大型網路都達到了更好的結果。引數量僅2.99M,而且在1200*350的影象上一幀計算時間僅需要16.9毫秒。

更細節的分類比較：

預測示例：

3）更多擴充套件

作者又研究了擴充套件到單網路三種任務（Single Model – Three Tasks）、單網路兩個資料集兩種任務（Single Model – Two Datasets, Two Tasks）和整合到Dense Semantic SLAM，都取得了又快又好地結果。

很可惜，該文目前並無開原始碼。

論文地址：

https://arxiv.org/abs/1809.04766

論文下載：

在“我愛計算機視覺”公眾號對話介面回覆“17ms”，即可收到該文及Light-Weight RefineNet論文的百度雲下載地址。

長按關注我愛計算機視覺

Line"/>

【點贊與轉發】就是一種鼓勵

來源：

您可能也會喜歡…