1. 程式人生 > >《Macro-Micro Adversarial Network for Human Parsing》論文閱讀筆記

《Macro-Micro Adversarial Network for Human Parsing》論文閱讀筆記

邊界 分享圖片 strong 避免 也有 ima 1.4 以及 potential

《Macro-Micro Adversarial Network for Human Parsing》

摘要:在人體語義分割中,像素級別的分類損失在其低級局部不一致性和高級語義不一致性方面存在缺陷。對抗性網絡的引入使用單個鑒別器來解決這兩個問題。然而,兩種類型的解析不一致是由不同的機制產生的,因此單個鑒別器很難解決它們。為解決這兩種不一致問題,本文提出了宏觀 - 微觀對抗網絡(MMAN)。它有兩個鑒別器,一個鑒別器Macro D作用於低分辨率標簽圖並且懲罰語義不一致性,例如錯位的身體部位。另一個鑒別器Micro D專註於高分辨率標簽映射的多個像素塊,以解決局部不一致性,例如圖片模糊和裂口。與傳統的對抗性網絡相比,MMAN不僅明確地強制實現了局部和語義一致性,而且避免了處理高分辨率圖像時對抗性網絡的收斂性差的問題。在我們的實驗中,我們驗證了兩個鑒別器在提高人類解析準確性方面是相互補充的。與現有技術方法相比,所提出的框架能夠產生有競爭力的解析性能,即分別在LIP和PASCAL-Person-Part上的mIoU = 46.81%和59.91%。在相對較小的數據集PPSS上,我們的預訓練模型展示了令人印象深刻的泛化能力。該代碼可在https://github.com/RoyalVane/MMAN上公開獲取。

關鍵詞:人體解析,對抗網絡,不連續性,宏觀-微觀

1 介紹

  人體解析旨在將人類圖像分割成多個語義部分。 它是像素級預測任務,需要在全局級別和本地級別理解人類圖像。 人類解析可以廣泛應用於人類行為分析[9],姿勢估計[34]和潮流綜合[40]。人類解析和語義分割的最新進展[19,34,10,23,37,36]主要探討卷積神經網絡(CNN)的潛力。

技術分享圖片

圖1:像素化分類損失的缺點。 (a)局部不一致,導致手臂上有孔。 (b)語義不一致,導致不合理的人體姿勢。 紅色箭頭表示不一致。

  基於CNN架構,通常使用像素級分類損失[19,34,10],其懲罰每個像素的分類誤差。盡管提供了有效的基線,但是針對每像素類別預測設計的像素級分類損失具有兩個缺點。首先,逐像素分類損失可能導致局部不一致,例如圖片的裂口和模糊。原因在於它僅在不明確考慮相鄰像素之間的相關性的情況下懲罰每個像素上的錯誤預測。為了說明,我們使用逐像素分類損失訓練基線(當前現狀,參照物?)模型(參見第3.2節)。如圖1(a)所示,屬於“手臂”的一些像素被基線錯誤地預測為“上衣”。這是不合需要的,但這是基線損失局部不一致的結果。其次,逐像素分類丟失可能導致整個分割圖中的語義不一致,例如不合理的人體姿勢和身體部位的不正確的空間關系。與局部不一致相比,語義不一致是從更深層生成的。僅查看局部區域時,所學習的模型不具有身體部位拓撲的整體意識。如圖1(b)所示,“手臂”與相鄰的“腿”合並,表示不正確的部分拓撲(三條腿)。因此,逐像素分類丟失沒有明確地考慮語義一致性,因此可能無法很好地捕獲長遠的依賴性。

  為了解決不一致性問題,可采用條件隨機場(CRF)[17]用作後處理方法。 然而,由於pairwise potentials(成對勢,結對能力?)的存在,CRF通常在非常有限的範圍內(局部地)處理不一致性,並且由於初始分割結果差,甚至可能產生更差的標記圖。 作為CRF的替代方案,最近的一項工作提出使用對抗性網絡[24]。 由於對抗性損失通過聯合配置許多標簽變量來評估標簽圖是真的還是假的,因此它可以強制執行更高級別的一致性,但這不能通過成對術語或每像素分類丟失來實現。

  現在,越來越多的論文采用了交叉熵損失與對抗性損失結合起來的方法,以產生更接近真實值的標簽圖[5,27,12]。

技術分享圖片

圖2:對抗性網絡訓練中的兩種收斂方式。 LossD(真)和LossD(假)分別表示真實和假圖像上的鑒別器的對抗性損失,而LossG表示發生器的損失。(a)良好的收斂,其中LossD(真)和LossD(假)收斂到0.5並且 LossG收斂到0。它表示成功的對抗性網絡訓練,其中G能夠欺騙D。(b)收斂性差,其中LossD(真實)和LossD(假)收斂到0同時LossG收斂到1。它代表一個不平衡的對抗性網絡訓練,其中D可以容易地將生成的圖像與真實圖像區分開。

  然而,之前的對抗性網絡也有其局限性。 首先,單個鑒別器反向僅向生成器傳播一個對抗性損失。但是局部不一致性是從頂層產生的,語義不一致性是從深層產生的。只有一個對抗性損失,不能對兩個目標層進行離散訓練。 其次,單個鑒別器必須查看整體高分辨率圖像(或其大部分)以監督全局一致性。 正如文獻[7,14]所提到的,生成器很難在高分辨率圖像上欺騙判別器。其結果是,單一的鑒別器總是反向傳播一個最大的對抗損失,這使得訓練不平衡。我們稱之為收斂性差的問題,如圖2所示。

  在本文中,基本目標是在人體解析中提高標簽貼圖的局部和語義一致性。我們采用對抗性訓練的思想,旨在解決其局限性,即在單一對抗性損失和不良收斂問題下提高解析一致性的能力較差的問題。具體來說,我們介紹了Macro-Micro Adversarial Nets(MMAN,宏-微觀對抗網絡)。 MMAN由雙輸出發生器(G)和兩個鑒別器(D)組成,分別命名為Macro D和Micro D。這三個模塊分別構成兩個對抗網絡(Macro AN,Micro AN),分別解決了語義一致性和局部一致性問題。給定輸入人體圖像,基於CNN的產生器輸出具有不同分辨率等級的兩個分割圖,即低分辨率和高分辨率圖。Macro D的輸入是低分辨率分割圖,輸出是語義一致性的置信度得分。Micro D的輸入是高分辨率分割結果,其輸出是局部一致性的置信度得分。框架的簡要流程如圖3所示。MMAN與之前的方法主要有兩個不同。首先,本文的方法明確地使用兩個特定於任務的對抗網絡來處理局部不一致和語義不一致問題。其次,我們的方法在高分辨率圖像上不使用大尺寸FOVs,因此可以避免不良收斂問題。第3.5節提供了對所提出網絡優點的更詳細描述。

技術分享圖片

圖3:頂部:MMAN的簡要流水線。 兩個判別器連接到基於CNN的發生器(G)。 Macro D適用於低分辨率標簽貼圖,並具有全局感知字段,側重於語義一致性。 Micro D專註於多個補丁,在高分辨率標簽圖上具有較小的感受域,從而監控局部一致性。 如果觀察到語義(局部)不一致,宏(微)判別器為“假”,否則它給出“真實”。底部:分別使用Macro D,Micro D和MMAN的定性結果。我們觀察到Macro D和Micro D分別糾正語義不一致(綠色虛線圓圈)和局部不一致(橙色虛線圓圈),MMAN同時具有兩者的優點。

  我們的貢獻總結如下:

  - 我們提出了一種名為Macro-Micro Adversarial Network(MMAN)的新框架,用於人體解析。 Macro AN和Micro AN分別關註語義和局部不一致,並以互補的方式工作以提高解析質量。
  - 我們框架中的兩個鑒別器在具有小視場(FOVs)的標簽圖上實現了局部和全局監督,這避免了由高分辨率圖像引起的不良收斂問題。

  - 本文提出的對抗網絡在LIP和PASCAL-Person-Part數據集上實現了極具競爭力的mIoU,並且可以在相對較小的數據集PPSS上得到很好的推廣。

2 相關研究

  我們的評審側重於與工作相關的三個文獻,即基於CNN的人體解析、條件隨機場(CRFs)和對抗性網絡。

  人體解析。 人體解析的最新進展歸因於兩個因素:1)大規模數據集的可用性[10,19,25,4]。與小數據集相比,大規模數據集包含人們的共同視覺差異並提供全面的評估。 2)端到端的學習模型。人體解析需要在像素級別上理解人。 最近的研究應用卷積神經網絡(CNN)以端到端的方式學習分割結果。 在[34]中,人體姿勢被提前提取並用作強結構線索來指導解析。 在[21]中,四個與人類相關的背景被整合到一個統一的網絡中。 [29]提出了一種新的與人相關的語法,它結合了人體姿勢和人體部分分割來推測。

  條件隨機場。使用像素分類損失,CNN通常忽略像素之間的微觀上下文和語義部分之間的宏觀上下文。 條件隨機字段(CRFs)[17,22,18]是在輸出標簽映射中強制實現空間連續性的常用方法之一。 作為圖像分割的後處理程序,CRFs進一步微調輸出圖。 然而,最常用的CRFs具有成對電位[2,26],其具有非常有限的參數,並且可以在小範圍內處理低水平的不一致性。 高階勢[16,18]也被認為在執行語義有效性方面是有效的,但相應的能量模式和集團形式通常很難設計。 總之,在CNN中使用上下文仍然是一個懸而未決的問題。

  對抗性網絡。 對抗網絡已經證明了圖像合成的有效性[13,28,30,39,38]。 通過最小化對抗性損失,鑒別器引導發生器產生高保真度圖像。 在[24]中,Luc等人為訓練語義分割添加對抗性損失並得到競爭性結果。 類似的想法已經應用於街景分割[12]和醫學圖像分割[5,27]。 目前,越來越多的文獻[7,14]報道了在高分辨率圖像上訓練對抗性網絡的難度。 鑒別器可以輕松識別假的高分辨率圖像,從而導致訓練失衡。 發生器和鑒別器容易陷入局部最小值。

  MMAN與上述對抗性學習方法的主要區別在於我們明確地賦予對等訓練宏觀和微觀子任務。 我們觀察到兩個子任務相互補充,以便在單個對抗性損失的情況下實現優於基線的解析精度,並且能夠降低訓練失衡的風險。

3 Macro-Micro Adversarial Network

  圖4說明了所提出的宏 - 微對抗網絡的體系結構。 該網絡由三個部分組成,即雙輸出發生器(G)和兩個任務專用鑒別器(D M a和D M i)。 給定尺寸為3×256×256的輸入圖像,G分別輸出尺寸為C×16×16和C×256×256的兩個標簽圖。 D M a監視C×16×16的整個標簽圖,並且D M i分別關註尺寸為C×256×256的標簽圖的塊,使得全局和局部不一致性受到懲罰。 在3.1節中,說明訓練目標,然後在3.2,3.3和3.4節中說明結構。 第3.5節討論了所提出的網絡的優點。

技術分享圖片

圖4:MMAN有三個部分:雙輸出發生器(藍色虛線框),宏觀鑒別器(綠色虛線框)和微觀鑒別器(橙色虛線框)。給定尺寸為3×256×256的輸入圖像,生成器G首先產生低分辨率(8192×16×16)張量,從中得到低分辨率標簽圖(C×16×16)和高分辨率生成標簽圖(C×256×256),其中C是類的數量。 最後,對於每個標簽貼圖(例如,尺寸為C×16×16),我們將其與第一軸(通道數)的RGB圖像(尺寸為3×16×16)相連,並將其輸入相應的鑒別器。

3.1 培訓目標

  給定形狀為3×H×W的人像x和形狀為C×H×W的目標標簽圖y,其中C為包括背景的類的數量,傳統的像素分類損失(多類交叉熵) 損失)可以表述為:

技術分享圖片(1)

其中?ic表示第i個像素上的類c的預測概率。 yic表示第i個像素上的類c的地面實況概率。 如果第i個像素屬於c類,yic = 1,則yic = 0。為了強制執行空間一致性,我們將逐像素分類損失與對抗性損失相結合。 它可以表述為:

技術分享圖片(2)

其中λ控制像素分類損失和對抗性損失的相對重要性。 具體來說,對抗性損失Ladver(G,D)為:

技術分享圖片(3)

如圖4所示,所提出的MMAN采用“交叉熵損失+對抗性損失”來監督來自發生器G的底部和頂部輸出:

技術分享圖片(4)

其中Lmcel(G)給出了低分辨率輸出和小尺寸目標標簽圖之間的交叉熵損失,而Lmceh(G)是指高分辨率輸出和原始真值之間的交叉熵損失label map。 類似地,L adver(G,DMa)是關註低分辨率map的對抗性損失,Ladver(G,DMi)基於高分辨率地圖。超參數λ1,λ2和λ3控制四個損失的相對重要性。 MMAN的訓練任務是:

技術分享圖片(5)

  我們通過優化G,DMa和DMi之間的交替來求解方程式5,直到LMMAN(G,DMa,DMi)收斂。

3.2 雙輸出生成器

  對於生成器(G),由於它的簡單性和有效性,我們利用DeepNet-ASPP [2]框架和ResNet-101 [11]模型在ImageNet數據集[6]上預先訓練作為我們的起點。我們使用級聯的上采樣層來擴充DeepLab-ASPP架構,並跳過與早期層的連接,這與U-net類似[31]。此外,我們添加一個旁路從底層輸出深度特征張量,並將其轉移到帶卷積層的label map。小尺寸標簽圖切換為與頂部原始尺寸標簽圖平行的第二個輸出層。將增強的雙輸出架構稱為Do-DeepLab-ASPP並將其作為baseline。對於雙輸出,使用原始大小的真值label map監控頂層的交叉熵損失,因為它可以保留視覺細節。此外,使用調整大小的label map監控底層的交叉熵損失,即原始大小的1/16倍。縮小的label map更加關註粗粒度的人體結構。同樣的策略適用於對抗性損失。在類通道上,我們將相應的label map(標簽映射,標簽圖,標簽變換?)與對應大小的RGB圖像連接起來,作為判別器的強條件。

3.3 宏觀判別器

  宏觀判別器(DMa)旨在引導發生器產生逼真的標簽圖,其具有高級人體特征,例如合理的人體姿勢和身體部位的正確空間關系。 DMa附著在G的底層,並聚焦在整體低分辨率標簽圖上。 它由4個卷積層組成,內核大小為4×4,步長為2。每個卷積層後跟一個實例範數層和一個LeakyRelu函數。 給定來自G的輸出標簽圖,DM將其下采樣到1×1以實現對其的全局監督,DMa的輸出是語義一致性的置信度得分。

3.4 微型判別器

  微觀判別器(DMi)旨在強制標簽圖中的局部一致性。 在設計DMi時遵循“PatchGAN”[13]的思想。 與在(縮小的)標簽圖上具有全局感受野的DMa不同,DMi僅在圖像塊的尺度上懲罰局部誤差。DMi的內核大小為4×4,步幅為2。Micro D具有3個卷積層的淺層結構,每個卷積層後跟一個實例範數層和一個LeakyRelu函數。DMi的目的是對高分辨率圖像中的每個22×22塊是否真實或虛假進行分類,這適合於增強局部一致性。在標簽圖上以卷積方式運行DMi後,將從每個感受野中獲得多個響應。 最終平均所有響應以提供DMi的最終輸出。

3.5 討論

  在基於CNN的人體解析中,卷積層深入提取部分級特征,解卷積層將深度特征帶回像素級位置。將宏D安排到更深層以監督高級別似乎是直觀的。 語義特征和Micro D到頂層,側重於低級視覺特征。 然而,除了直觀的動機,我們可以從這種安排中獲益更多。 MMAN的優點總結為以下四個方面。

  Macro D和Micro D的功能專業化。與單獨鑒別器試圖解決兩個不一致性水平相比,Macro D和Micro D在解決兩個一致性問題中的一個時被指定。 以Macro D為例。 首先,Macro D附加到G的深層。因為語義不一致最初是從深層生成的,所以這樣設計的Macro D允許損失更直接地反向傳播到G。其次,Macro D作用於低分辨率標簽圖,該圖保留了語義級人體結構,同時濾除了像素級細節。它使得Macro D專註於全局不一致而不會受到本地錯誤的幹擾。相同的推理適用於Micro D。在4.5節中,我們驗證MMAN始終優於具有單一對抗性損失的對抗性網絡[24,5]。

  Macro D和Micro D的功能互補。如[35]中所述,監督早期深層中的分類損失可以為後面的頂層提供良好的粗粒度初始化。相應地,減少頂層的損失可以通過細粒度的視覺細節來彌補粗略的語義特征。假設對抗性損失具有與互補模式相同的特征,在4.4節中證實了我們的假設。

  小視場避免了收斂性差的問題。越來越多的文獻[7,14]報道,現有的對抗網絡在處理復雜的高分辨率圖像方面存在缺陷。在我們的框架中,Macro D作用於低分辨率標簽圖,而Micro D在高分辨率標簽地圖上具有多個但小的FOV。因此,Macro D和微D都避免了使用大的FOV作為實際輸入,從而有效地降低了高分辨率引起的收斂風險。我們在第4.5節中展示了這個優點。

  效率。與單一的對抗網絡[24,5]相比,MMAN通過兩個參數較少的淺層判別器實現了對整個圖像的監控。它還擁有判別器的小視場。MMAN的效率在第4.5節的變體研究中顯示出來。

4 實驗

4.1 數據集

  LIP [10]是最近才引入的大規模數據集,在嚴重的姿勢復雜性,嚴重的閉塞和身體截斷方面具有挑戰性。 它共包含50,462張圖像,包括30,362張用於培訓,10,000張用於測試,10,000張用於驗證。LIP定義了19個人體(衣服)標簽,包括帽子,頭發,太陽鏡,上衣,連衣裙,外套,襪子,褲子,手套 ,圍巾,裙子,連身衣,面部,右臂,左臂,右腿,左腿,右鞋和左鞋,以及背景這些類別。

  PASCAL-Person-Part [4]註釋了人體部分的分割標簽,是PASCAL-VOC 2010的一個子集[8]。 PASCAL-Person-Part包括1,716張用於訓練的圖像和1,817張用於測試的圖像。 在該數據集中,圖像可以包含具有不受約束的姿勢和環境的多個人。 六個人體部分類別和背景類別被註釋。

  PPSS [25]包括3,673個帶註釋的樣本,它們被分成1,781個圖像的訓練集和1,892個圖像的測試集。 它定義了七個人體部分和一個背景類別。 從171個監控視頻中收集的數據集可以反映真實場景中的遮擋和光照變化。

  評價指標。根據像素交叉結合(IoU)來測量每個類的人體解析準確度。 通過對所有類別的IoU求平均來計算平均交叉聯合(mIoU)。 我們將每個類的IoU和mIoU用作每個數據集的評價指標。

4.2 實現細節

  在我們的實現中,輸入圖像被調整大小以使其較短邊固定為288。從圖像或其水平翻轉版本中隨機采樣256×256裁剪。從裁剪圖像中減去每像素平均值。在每次卷積後采用實例歸一化[32],對於方程4中的超參數,我們設置λ1= 25,λ2= 1和λ3= 100.對於發生器的下采樣網絡,我們使用ImageNet[6]預訓練網絡作為初始化。使用標準偏差為0.001的高斯分布從頭開始初始化網絡其余部分的權重。我們使用小優化器[15],迷你批次為1。我們設置β1= 0.9,β2= 0.999和weightdecay = 0.0001。學習率從0.0002開始。在LIP數據集上,學習率在15個時期之後除以10,並且模型被訓練30個時期。在Pascal-Person-Part數據集上,學習率在25個時期之後除以10,並且模型被訓練50個時期。根據[13]中的實踐,我們在反卷積層中使用了丟失。我們交替地優化D和G.在測試期間,我們對多個尺度的每像素分類平均值進行平均,即,將測試圖像的大小調整為其原始大小的{0.8,1,1.2}倍。

4.3 與最先進的方法比較

  在本節中,我們將結果與三個數據集上的最新方法進行比較。首先,在LIP數據集上,我們將MMAN與表1中的五種最先進的方法進行比較。提出的MMAN產生的mIoU為46.65%,而五種競爭方法的mIoU分別為18.17%[1],28.29 %[23],42.92%[3],44.13%[2]和44.73%[10]。為了公平比較,我們在基線上進一步實施ASN [24]和SSL [10],即Do-Deeplab-ASPP。在同一基線上,MMAN優於ASN [24]和SSL [10] + 1.40%並且mIoU分別為+ 0.62%。它清楚地表明我們的方法優於現有技術。每級IoU的比較表明,改善主要來自與人體姿勢密切相關的類別,例如手臂,腿和鞋。特別是,MMAN能夠區分“左”和“右”,這對以下人體部位有很大的推動作用:左/右臂改善+ 2.5%以上,左/右腿改善+ 10%以上左/右鞋的改進超過+ 5%。這些比較意味著MMAN能夠強制轉換語義級特征的一致性,即人體姿勢。

表1:LIP驗證集上每類IoU和mIoU的方法比較。

技術分享圖片

表2:在PASCAL-Person-Part測試集上使用五種最先進的方法進行每級IoU的性能比較。

技術分享圖片

  其次,在PASCAL-Person-Part上,如表2所示的比較結果。我們應用LIP數據集上使用的相同模型結構來訓練PASCAL-Person-Part數據集。 我們的模型在測試集上產生58.45%的mIoU。 它高於大多數比較方法,僅略低於“註意+ SSL”[10] 0.91%。 這可能是由於該數據集中的人體尺度變化,可以通過[3]中提出並在[10]中應用的註意算法來解決。  

  因此,我們為我們的模型添加即插即用模塊,即註意力網絡[3]。特別是,我們采用多尺度輸入並使用註意力網絡來合並結果。 最終模型“註意+ MMAN”將mIoU提高到59.91%,這比目前最先進的方法[10]高+ 0.55%。 當我們研究每級的IoU分數時,我們對LIP的分數有類似的觀察。 在手臂和腿部可以觀察到改善是最大的。最先進的方法[10,20,3]的改善在上臂超過+ 0.6%,在下臂超過+ 1.8%,超過+0.4 大腿%,小腿大於+ 0.9%。 比較表明我們的方法非常有競爭力。

  第三,我們將在LIP上訓練的模型部署到PPSS數據集的測試集,而不進行任何微調。 我們的目標是評估所提出模型的泛化能力。

  為了使LIP和PPSS數據集中的標簽保持一致,我們將LIP的細粒度標簽合並到PPSS中定義的粗粒度人體標簽中。

表3 PPSS數據集上人類解析準確性的比較[25]。 最佳表現以藍色突出顯示。

技術分享圖片

技術分享圖片

圖5:Pascal-Person-Part數據集上的定性解析結果。

  評估結果報告如表3所示。MMAN產生的mIoU為52.11%,其顯著優於DL [25] DDN [25]和ASN [24]分別為+ 16.9%,+ 4.9%和+ 1.4%。 因此,當在具有不同圖像樣式的另一數據集上直接測試時,我們的模型仍然產生良好的性能。

  在圖5中,我們提供了分別通過Baseline(Do-Deeplab-ASPP)、Baseline+Micro D、Baseline+Micro D和完整MMAN獲得的一些分割實例,還顯示了真實標簽圖。 我們觀察到Baseline + Micro D顯著降低了模糊和噪聲,有助於產生清晰的邊界,Baseline + Macro D可以糾正不合理的人體姿勢。 完整的MMAN方法集成了Micro AN和Micro AN的優點,並實現了更高的解析精度。 我們還在圖6中的PPSS數據集上給出了定性結果。

  

4.4 變體研究

  我們在LIP數據集上進一步評估MMAN的三種不同變體,即單AN,雙AN和多AN。 表5詳述了參數的數字,全局FOV(g.FOV)和局部FOV(1.FOV)大小,以及每個變體的架構草圖。 還提供了原始MMAN的結果以進行清楚的比較。單個AN指的是傳統的對抗網絡,只有一個鑒別器。 鑒別器連接到頂層,並在256×256標簽圖上具有全局感受野。 結果顯示,單個AN的平均IoU收益率為45.23%,略高於基線但低於MMAN。 這一結果表明采用Macro D和Micro D優於單一鑒別器,這證明了第3.5節中分析的正確性。 更重要的是,我們在訓練單個AN時觀察到收斂(pc)不良的問題。 這是由於在高分辨率標簽地圖上使用大型視野。

  雙AN與MMAN具有相同數量的鑒別符。 不同之處在於Double AN將Macro D附加到頂層。 與Double AN相比,MMAN顯著改善了0.82%的結果。 結果說明了Macro D和Micro D的互補效果:Macro D作用於深層,並為後面的頂層提供了良好的粗粒度初始化,Micro D有助於通過細粒度的視覺細節來補救粗略的語義特征。

  多個AN旨在評估使用兩個以上鑒別器時的解析準確度。 為此,我們將額外的鑒別器附加到G的第三解卷積層。特別地,鑒別器具有與Micro D相同的架構並且聚焦在64×64標簽圖上的22×22貼片上。 結果如表5所示,采用三個鑒別器使平均IoU略有改善(0.16%),但結構更復雜,參數更多。

5 結論

  在本文中,介紹了一種用於人體解析的新型Macro - Micro對抗網絡(MMAN),它顯著的減少了語義不一致性,例如錯位的人體部分,以及解析結果中的局部不一致性,例如模糊和漏洞。 我們的模型使用最先進的方法在兩個挑戰人類解析數據集上實現了比較解析準確性,並且在其他數據集上具有良好的泛化能力。 這兩種對抗性損失是互補的,並且優於以前采用單一對抗性損失的方法。 此外,MMAN通過較小的感受域實現了全局和局部監督,有效地避免了對抗性網絡在處理高分辨率圖像時收斂性差的問題。

Q:label map翻譯為標簽圖?標簽映射?標簽轉換?

《Macro-Micro Adversarial Network for Human Parsing》論文閱讀筆記