1. 程式人生 > >Dual Adversarial Networks for Zero-shot Cross-media Retrieval 閱讀筆記

Dual Adversarial Networks for Zero-shot Cross-media Retrieval 閱讀筆記

Dual Adversarial Networks for Zero-shot Cross-media Retrieval (DANZCR):由兩個GAN組成,分別用於共同表示生成與原始表示重建,它們捕獲底層資料結構,並加強輸入資料和語義空間之間的關係,以概括已見和未見類別。DANZCR通過對抗學習方法,利用詞嵌入來學習語義空間的共同表示。該方法保留了固有的跨媒體相關性,並提高了知識遷移到新類別的能力。

introduction

採用詞嵌入作為語義空間,通過對抗性學習框架將不同媒體型別的資料轉換到語義空間。具體地,該方法在雙重結構中建立GAN,其中前向GAN從輸入影象和文字中學習以在語義空間中生成共同表示;反向GAN使用生成的公共表示來重建輸入影象和文字以保留原始資料結構。DANZCR方法同時執行零樣本學習和相關學習,可以生成共同表示來進行零樣本跨媒體檢索。

主要貢獻:

  • 提出對偶GANs結構,用於零樣本跨媒體檢索。兩個GAN協作相互促進,捕獲底層資料結構,並加強輸入資料和語義空間之間的關係,以概括已知和未知的類別。
  • 針對零樣本跨媒體檢索提出了一種對抗性訓練方法,該方法通過從媒體型別和類別中區分生成的共同表達 學習共同表達,以保留固有的跨媒體相關性。利用詞嵌入來生成共同表示,通過對抗性訓練,建模語義資訊,從而增強知識向未知類別轉移的能力。

related work

  • 跨媒體檢索。。。
  • 零樣本學習。。。
  • GAN:受影象翻譯工作的啟發,將零樣本跨媒體檢索視為輸入空間和語義空間之間的域變換問題。將GAN用作每種媒體型別的雙重結構的基本模組,並在多路徑網路中為跨媒體資料生成通用語義表示。

approach

問題定義:

資料集:D=\left \{ D_{UD},D_{UQ},D_{SD},D_{SQ} \right \}

其中:D_{UD}:未知類資料集,D_{UQ}:未知類查詢集,D_{SD}:已知類資料集,D_{SQ}:已知類查詢集。

D_{UD}=\left \{{i_n,t_n,l_n} \right \}^{N_{UD}}_{n=1} ,第n個例項的影象,文字,相關類別標籤。

D_{SD}訓練,對於零樣本檢索用D_{UQ}測試,對於傳統場景用D_{SQ}測試。

Architecture of DANZCR:

對每一個媒體型別,首先生成 original representation ,然後前向GAN從original representation生成 common representation,反向GAN將common representation轉變為original representation,這是一個對偶的過程。

每個GAN都由一個生成模型和一個判別模型組成,詳細的網路結構如下

1)前向GAN:類別詞嵌入作為監督資訊,生成語義共同表達,以建模不同媒體型別和不同類別的相關性。

         G_{FI}D_{FI}:影象的前向生成模型,判別模型;

         G_{FT}D_{FT}:文字的前向生成模型,判別模型。

  • 前向生成模型:用一些全連線層,從原始表達中生成共同表達。影象例項:i_n,影象的原始表達:f^i_n,共同表達:s^i_n;文字:t_nf^t_ns^t_n;所以有:s^i_n=G_{FI}(f^i_n),s^i_t=G_{FT}(f^t_n)(影象、文字原始表達經過前向生成模型變為影象、文字的共同表達)
  • 前向判別模型:一些全連線層,判別生成的共同表達屬於哪一個媒體型別和類別。將原始表達和共同表達的連線作為輸入,輸出是單個值,用於預測生成的公共表示是否真實,以及判別公共表示和資料表示之間的語義相關性。D_{FI}D_{FT})試圖判別相關類別的詞嵌入s^l_n是真實的資料,生成的共同表達s^i_ns^t_n以及不相關類別的詞嵌入s^{l'}_n是假的。

(2)反向GAN:用來重構輸入資料的原始表達,這使得公共表示保留資料原始結構,並且增強輸入資料和語義空間之間的關係。

         G_{RI}D_{RI}G_{RT}D_{RT}

  • 反向生成模型:一些全連線層,學習common representation,以重構輸入資料的原始表示(reconstruction representations )。reconstruction representation:r^i_nr^t_n,所以r^i_n=G_{RI}(G_{FI}({f^i_n}))=G_{RI}(s^i_n).(先由正向生成模型生成common representation s^i_n,再由反向生成模型生成reconstruction representation r^i_n
  • 反向判別模型::一些全連線層。輸入資料表示,輸出單個值來預測資料表示是否真實。D_{RI}D_{RT})試圖判別影象原始表示f^i_n是真實的,reconstruction representation 是假的。

由於只有少量已知類別的資料,為了進一步加強相關學習,提出了一種基於L2範數的恢復目標函式:

DANZCR方法的全部目標函式是:

優化過程:

(1)生成共同表達:提取影象/文字原始表示,前向生成模型生成共同表達。

(2)前向判別模型的優化:對影象和文字分別採用上升隨機梯度對前向判別模型進行訓練。

(3)表示重構:反向生成模型從共同表達生成重構表示(reconstruction representation)。

(4)反向判別模型的優化:通過定義隨機梯度方程。

(5)前向生成模型的優化

(6)前向和反向生成模型的優化

Experiments