1. 程式人生 > >[計算機視覺論文速遞] 2018-03-20

[計算機視覺論文速遞] 2018-03-20

通知:這篇推文有13篇論文速遞資訊,涉及影象分割、SLAM、顯著性、深度估計、車輛計數等方向

影象分割

[1]《Training of Convolutional Networks on Multiple Heterogeneous Datasets for Street Scene Semantic Segmentation》

Abstract:我們提出了一種具有分層分類器的卷積網路,用於每畫素語義分割,能夠在多個異構資料集上訓練並利用其語義層次結構。 我們的網路是第一個同時訓練來自智慧車輛領域的三個不同資料集,即Cityscapes,GTSDB和Mapillary Vistas,並且能夠處理不同的語義細節層次,類別不平衡和不同的註釋型別,即密集的 每畫素和稀疏邊界框標籤。 我們通過比較平面非分層分類器評估我們的分層方法,並且我們顯示Cityscapes類的平均畫素精度為13.0%,Vistas類為2.4%,GTSDB類為32.3%。 我們的實現在GPU上執行108個類的解析度為520 x 706時可實現17 fps的推導速率。

arXiv:https://arxiv.org/abs/1803.05675



[2]《An application of cascaded 3D fully convolutional networks for medical image segmentation》

Abstract:3D全卷積網路(FCN)的最新進展已經使得生成體積影象的密集體素預測成為可能。在這項工作中,我們展示了一個多級三維FCN訓練手動標記的幾個解剖結構(從大型器官到薄血管)的CT掃描可以實現競爭性分割結果,同時避免手工製作功能或培訓課程的需要,具體型號。

為此,我們提出了一個兩階段的,從粗到精的方法,它將首先使用3D FCN粗略定義候選區域,然後將其用作第二個3D FCN的輸入。這減少了第二個FCN必須分類的體素數量至〜10%,並允許它將重點放在更詳細的器官和血管分割上。

我們利用由331個臨床CT影像組成的訓練和驗證集合,並對包含150次CT掃描的不同醫院採集的完全不可見的資料集進行測試,針對三個解剖器官(肝臟,脾臟和胰腺)。在胰腺等具有挑戰性的器官中,我們的級聯方法將骰子平均得分從68.5提高到82.2%,實現了此資料集報告的最高平均得分。我們在240個CT掃描的18個類別的獨立資料集上比較2D FCN方法,並在小器官和血管中實現顯著更高的效能。此外,我們探索微調我們的模型到不同的資料集。

我們的實驗說明了當前基於三維FCN的醫學影象語義分割的前景和穩健性,實現了最先進的結果。我們的程式碼和訓練有素的模型可供下載:https://github.com/holgerroth/3Dunet_abdomen_cascade

arXiv:https://arxiv.org/abs/1803.05431

github:https://github.com/holgerroth/3Dunet_abdomen_cascade




SLAM

[3]《Vision-Aided Absolute Trajectory Estimation Using an Unsupervised Deep Network with Online Error Correction》

IROS 2018

Abstract:我們提出了一種無監督的深度神經網路方法來融合RGB-D影象與慣性測量的絕對軌跡估計。 我們的網路被稱為Visual-Inertial-Odometry Learner(VIOLearner),它學習在沒有慣性測量單元(IMU)固有引數(對應於陀螺儀和加速度計偏差或白噪聲)或者外部校準之間執行視覺慣性測距法(VIO) IMU和相機。 網路學習整合IMU測量結果並生成假設軌跡,然後根據相對於畫素座標的空間網格的縮放影象投影誤差的雅可比行為線上校正假設軌跡。 我們根據最先進的(SOA)視覺慣性測距法,視覺測距法以及KITTI Odometry資料集上的視覺同時定位和對映(VSLAM)方法評估我們的網路,並展示競爭性測距效能。

arXiv:https://arxiv.org/abs/1803.05850



顯著性

[4]《Salient Region Segmentation》

Abstract:顯著性預測在計算機視覺中是一個研究得很好的問題。早期顯著性模型是基於從神經科學和心理物理學中獲得的見解中獲得的低級別手工特徵。在深度學習突破之後,基於神經網路架構提出了一個新的模型佇列,在所有度量標準上允許比先前的淺層模型有更高的注視預測。

然而,大多數模型將顯著性預測視為\ textit {regression}問題,並且高維資料的準確迴歸已知是一個難題。此外,還不清楚顯著程度的中間水平(即既非常高也非非常低)是有意義的:某些事情要麼是顯著的,要麼是顯著的,或者不是顯著的。

從這兩個觀察得出,我們將顯著性預測問題重新描述為顯著區域\ textit {分割}問題。我們證明重構允許比經典迴歸問題更快的收斂性,而效能可以與最先進的技術相媲美。

我們還視覺化模型學到的一般特徵,這些特徵與心理物理學的見解一致。

arXiv:https://arxiv.org/abs/1803.05759



[5]《What Catches the Eye? Visualizing and Understanding Deep Saliency Models》

Abstract:深卷積神經網路近年來在固視預測中表現出了很高的效能。然而,他們如何實現這一目標卻沒有多少探索,他們仍然是黑匣子模型。在這裡,我們試圖揭示深度顯著性模型的內部結構,並研究它們提取的固定預測的特徵。具體來說,我們使用一個簡單但功能強大的架構,僅包含一個CNN和一個解析度輸入,並結合一個新的丟失函式,用於自由觀看自然場景期間的畫素式固定預測。我們表明,我們的簡單方法與最先進的複雜顯著性模型相比甚至更好。此外,我們提出了一種與顯著性模型評估指標相關的方法,以便對固定預測的深度模型進行視覺化。我們的方法揭示了用於固定預測的深層模型的內部表示,並提供證據表明,人類所經歷的顯著性除了低階感知線索之外可能涉及高階語義知識。我們的結果可以用來衡量當前顯著性模型和人類觀察者間模型之間的差距,並建立新的模型來縮小差距。

arXiv:https://arxiv.org/abs/1803.05753




[6]《VEGAC: Visual Saliency-based Age, Gender, and Facial Expression Classification Using Convolutional Neural Networks》

Submitted to CVPR 2018

Abstract:本文探討了使用視覺顯著性來分類面部影象的年齡,性別和麵部表情。 對於多工分類,我們提出了基於視覺顯著性的VEGAC方法。 使用Deep Multi-level Network [17]和現成的人臉檢測器[2],我們提出的方法首先檢測測試影象中的人臉,並提取裁剪人臉上的CNN預測。 VEGAC的CNN在來自不同基準的收集資料集上進行了微調。 我們的卷積神經網路(CNN)使用VGG-16架構[3],並在ImageNet上預先訓練用於影象分類。 我們證明了我們的方法在年齡估計,性別分類和麵部表情分類中的有用性。 我們表明,我們在選定的基準上使用我們的方法獲得了競爭結果。 我們所有的型號和程式碼都將公開發布。

注:期待原始碼!!!

arXiv:https://arxiv.org/abs/1803.05719



深度估計

[7]《Self-Supervised Monocular Image Depth Learning and Confidence Estimation》

Abstract:卷積神經網路(CNN)需要大量的具有地面真實註釋的資料,這是一個具有挑戰性的問題,它限制了許多計算機視覺任務的CNNs的開發和快速部署。 我們提出了一種新穎的基於單目影象的深度估計框架,並且具有相應的自我監督方式的信心。 基於零均值歸一化互相關(ZNCC)提出了一種全差分基於塊的成本函式,該演算法將多尺度貼片作為匹配策略。 這種方法大大提高了深度學習的準確性和魯棒性。 此外,所提出的基於補丁的成本函式可以提供0到1的置信度,然後用它來監督並行網路的訓練以進行置信度學習和估計。 對KITTI資料集的評估表明,我們的方法勝過了最先進的結果。

arXiv:https://arxiv.org/abs/1803.05530





其它

[8]《DeepN-JPEG: A Deep Neural Network Favorable JPEG-based Image Compression Framework》

DAC 2018

Abstract:作為最引人入勝的機器學習技術之一,深度神經網路(DNN)在諸如影象分類等各種智慧任務中表現出優異的效能。 DNN在很大程度上通過對大量訓練資料進行昂貴的培訓來實現這種效能。為了減少智慧資源受限物聯網(IoT)系統中的資料儲存和傳輸開銷,在傳輸實時生成的資料集以進行培訓或分類之前,有效的資料壓縮是“必備”功能。雖然有許多著名的影象壓縮方法(如JPEG),但我們首次發現基於人類視覺的影象壓縮方法(如JPEG壓縮)不是DNN系統的優化解決方案,特別是在高壓縮比。為此,我們開發了一個專為DNN應用而定製的影象壓縮框架,名為“DeepN-JPEG”,以支援DNN體系結構的深層級資訊處理機制的性質。基於具有各種最先進的DNN的“ImageNet”資料集進行的大量實驗表明,“DeepN-JPEG”的壓縮率比流行的JPEG解決方案高出約3.5倍,同時保持影象識別的相同精度水平,展示其在基於DNN的智慧物聯網系統設計中具有巨大的儲存和電源效率潛力。

注:這也太硬了吧!DeepN-JPEG真是666666

arXiv:https://arxiv.org/abs/1803.05788



[9]《Feature Distillation: DNN-Oriented JPEG Compression Against Adversarial Examples》

Abstract:深度神經網路(DNN)在眾多實際應用中取得了卓越的效能。然而,最近的研究表明,訓練有素的DNN很容易被敵對的例子(AE)誤導 - 通過引入小的不可察覺的輸入擾動來惡意製作輸入。諸如對抗訓練和防禦性蒸餾之類的現有緩解解決方案受到昂貴的再培訓成本的限制,並且針對CW家族對抗性例子等最先進的攻擊顯示出邊際魯棒性的提高。在這項工作中,我們提出了一種新的低成本“特徵昇華”策略,通過重新設計流行的影象壓縮框架“JPEG”來淨化AE的敵對輸入擾動。所提出的“特徵蒸餾”明智地最大化影象壓縮期間AE干擾的惡意特徵損失,同時抑制對於高精確DNN分類至關重要的良性特徵的失真。實驗結果表明,我們的方法可以大幅降低CIFAR-10和ImageNet基準測試平均約60%的各種尖端AE攻擊的成功率,而不會降低測試精度,優於現有的解決方案,如預設的JPEG壓縮和“功能擠壓”。

注:這篇paper和上篇paper第一作者是同一人

arXiv:https://arxiv.org/abs/1803.05787


[10]《Exploring Linear Relationship in Feature Map Subspace for ConvNets Compression》

Abstract:雖然卷積神經網路(CNN)的研究進展很快,但這些模型的實際部署往往受計算資源和記憶體限制的限制。在本文中,我們通過提出一種新穎的濾波器修剪方法來壓縮和加速CNN來解決這個問題。我們的工作基於通過視覺化特徵對映在不同特徵對映子空間中標識的線性關係。這種線性關係意味著CNN中的資訊是多餘的。我們的方法通過將子空間聚類應用於特徵對映來消除卷積濾波器中的冗餘。這樣,網路中的大多數代表性資訊都可以保留在每個群集中。因此,我們的方法提供了一個有效的解決方案來篩選修剪,大多數現有方法都是基於簡單的啟發式直接刪除過濾器。所提出的方法獨立於網路結構,因此它可以被任何現成的深度學習庫採用。在不同的網路和任務上進行的實驗表明,我們的方法在微調之前勝過現有的技術,並在微調之後達到最新的結果。

arXiv:https://arxiv.org/abs/1803.05729


[11]《LEGO: Learning Edge with Geometry all at Once by Watching Videos》

Accepted to CVPR 2018 as spotlight

Abstract:學習通過深卷積網路觀察未標記的視訊來估計單個影象中的3D幾何形狀正引起重大關注。在本文中,我們在管線內引入了一種“3D儘可能平滑(3D-ASAP)”的技術,該技術可實現對邊緣和三維場景的聯合估計,從而獲得精細細緻結構精度顯著提高的結果。具體來說,我們先定義3D-ASAP,如果沒有提供其他線索,則要求從3D影象恢復的任何兩點都應位於現有平面上。我們設計了一個無人監督框架,一次完成學習邊緣和幾何(深度,正常)(LEGO)。預測邊被嵌入到深度和表面法線平滑項中,其中沒有邊之間的畫素被約束以滿足先驗。在我們的框架中,預測的深度,法線和邊緣被迫始終保持一致。我們在KITTI上進行實驗以評估我們估計的幾何圖形和城市景觀以執行邊緣評估。我們展示了在所有任務中,即深度,正常和邊緣,我們的演算法大大優於其他最先進的(SOTA)演算法,證明了我們方法的好處。

arXiv:https://arxiv.org/abs/1803.05648




[12]《Fast End-to-End Trainable Guided Filter》

Accepted by CVPR 2018

Abstract:通過利用深度學習的功能,影象處理和畫素密集預測得到了進一步發展。深度學習的一箇中心問題是處理聯合上取樣(upsampling)的能力有限。我們為聯合上取樣提供了一個深度學習構建模組,即引導濾波層。該層旨在高效地生成高解析度輸出,並給出相應的低解析度輸出和高解析度制導圖。所提出的層由導向濾波器組成,該濾波器被重新配置為完全可微分塊。為此,我們證明了一個引導濾波器可以表示為一組空間變化的線性變換矩陣。該層可以與卷積神經網路(CNN)整合並通過端到端訓練進行聯合優化。為了進一步利用端到端培訓,我們插入了一個可訓練的轉換函式,可以生成特定於任務的指導圖。通過整合CNN和提出的層,我們形成深度導向濾波網路。擬議的網路在五個高階影象處理任務上進行評估。 MIT-Adobe FiveK資料集上的實驗表明,所提出的方法執行速度提高了10-100倍,並達到了最先進的效能。我們還表明,提出的引導過濾層有助於提高多個畫素密集預測任務的效能。該程式碼可在此https://github.com/wuhuikai/DeepGuidedFilter中找到

arXiv:https://arxiv.org/abs/1803.05619

homepage:http://wuhuikai.me/DeepGuidedFilterProject/

github:https://github.com/wuhuikai/DeepGuidedFilter



[13]《Improving Object Counting with Heatmap Regulation》

Abstract:在本文中,我們提出了一種簡單而有效的方法來改善從影象中進行物體計數的單外觀迴歸模型。我們使用類啟用地圖視覺化來說明學習計數任務的純粹一看回歸模型的缺點。基於這些見解,我們通過調整來自網路最終卷積層的啟用圖與簡單點註釋生成的粗糙地面真實啟用圖來增強單看回歸計數模型。我們將這種策略稱為熱圖調節(HR)。我們表明,這種簡單的增強有效地抑制了由相應的一眼基線模型生成的錯誤檢測,並且還改善了假陰性方面的效能。在四個不同的計數資料集上進行評估 - 兩個用於汽車計數(CARPK,PUCPR +),一個用於人群計數(WorldExpo),另一個用於生物細胞計數(VGG-Cells)。與簡單的單一基準模型相比,將HR新增到簡單的VGG前端可以提高所有這些基準測試的效能,併為汽車計數帶來最先進的效能。

arXiv:https://arxiv.org/abs/1803.05494