1. 程式人生 > >Image Retrieval using Scene Graphs ——基於場景圖的影象檢索 讀書筆記

Image Retrieval using Scene Graphs ——基於場景圖的影象檢索 讀書筆記

未完待續,以及今天圖片上傳一直失敗

Abstract (摘要)

這篇文章基於場景圖的概念,提出了一種新的語義影象檢索框架。場景圖表示了物件(“人”,“船”),物件的屬性(“船是白色的”),物件之間的關係(“人站在船上”)。我們使用這些場景圖來檢索與場景圖語義相關的影象。為此,我們設計了一個條件隨機場模型,為每一個場景圖挑選出可能的測試圖片。這些理由的可能性被用作檢索的排名分數(The likelihoods of these groundings are used as ranking scores for retrieval.)。我們介紹了一個新資料集,這個資料集中含有5000張圖片及這些圖片對應的場景圖,並用這個資料集來評估我們的影象檢索方法。特別地,我們使用全場景圖和小場景子圖來評估檢索,並且表明我們的方法優於只使用物件或低階影象特徵的檢索方法。此外,我們表明,我們的模型可以用來提高物件定位的準確度compare to baseline methods。

一、Scene Graphs(場景圖):

為了檢索影象包含的特定的語義資訊,我們需要一種規範化方法來描述場景中的內容,這種表達必須足夠強大,以描述豐富多彩的場景,而且不太繁瑣。為此,我們定義了兩個抽象概念:scene graph(用來描述場景)和scene graph grounding(場景圖與影象的具體關聯)。(grounding的意思應該是場景圖的每個物件與影象中的區域的對應)

場景圖是用來描述場景的資料結構,一個場景圖包含了物件的例項,物件的屬性,以及物件之間的關聯。

上圖的下面部分:

是一個場景圖,場景圖的物件可以是人(“girl”),地點(“tennis court”),物品 (“shirt”),其他(“arm”)。屬性可以是顏色(“cone is orange ”),形狀(“logo is round ”),以及姿勢(“arm is bent ”)等。關係可以是位置(“fence behind girl ”),動作(“girl swinging racket ”),物件的一部分(“racket has handle ”)等。

定義物件類別集合C,屬性類別集合A,關係類別集合R。場景圖G(O, E) ,其中O={o1,...,on} 是物件,E ⊆ O×R×O 是邊。每個物件 oi = (ci, Ai),ci ∈ C,Ai ⊆ A。

上圖的上面部分:

通過將場景圖中每一個物件例項和影象中某一個區域相關聯 可以將場景圖和真實世界的圖片關聯起來。

真實世界圖片中的部分割槽域的集合為B(bounding boxes )。

γ : O → B :將場景圖中的物件和圖片中的部分割槽域相關聯,即一個grounding。

二、Real-World Scene Graphs Dataset 

本文提出了一個新的資料集:real-world scene graphs :從YFCC100m and Microsoft COCO選取了5000張圖片重新標註。對每張圖片,標出其(物件,屬性)和(物件,關係,物件)元組,描述詞彙是非固定的單詞不是預定義好的詞彙,並且標出每個物件在圖片中對應的方形區域。

資料集一共5000張圖片,包含93,000 個物件例項,110,000 個屬性例項和112,000 個關係例項。實驗部分只考慮訓練集中物件類別和屬性種類出現50次以上,關係種類出現30次以上的資料。如下圖所示,新的資料集的物件數量遠高於原始資料集,且比原始資料集新增屬性和關係。

三、Image Retrieval by Scene Graph Grounding 

我們希望使用場景圖來檢索影象場景與場景圖描述場景相似的影象。我們需要測量要查詢的場景圖和未註釋的影象之間的相似程度。我們假設相似程度可以通過檢查場景圖和影象之間最可能的 grounding 來決定。

本文構建了一個條件隨機場,該CRF模擬了所有可能的groundings分佈,再通過最大後驗(MAP)尋找最可能的grounding。

通過對比幾種方法,影象子區域(candidate boxes )的選擇使用Geodesic Object Proposals (GOP[2])方法。  

演算法:

G=(O,E)是場景圖,B是bounding boxes的集合(影象中的一個個方形子區域),γ 是一個grounding。有:

根據貝葉斯,上式變為:

四、Experiments(實驗):

4000個訓練影象,1000個測試影象,一共比較瞭如下幾個方法:

SG-obj-attr-rel:上述模型,場景圖中含有物件,屬性,關係。

SG-obj-attr:上述模型,場景圖中含有物件,屬性。

SG-obj:上述模型,場景圖中只含有物件。

以及CNN, GIST, SIFT, Random.

實驗結果如table2

 

1、在full ground-truth場景圖中

    目的:

    結果:上圖第一個表格

2、

    目的:

    結果:

3、

    結果

總結:

本文將場景圖作為視覺場景中細節語義的一種新的表示方法,並引入一個新的資料集,這個資料集將場景圖和真實世界的圖片關聯起來。我們已經使用這種表示和資料集構建一個CRF模型,用場景圖作為查詢來進行語義影象檢索。實驗表明,該模型優於基於物件檢測和低層次視覺特徵的方法。我們認為,語義影象檢索是我們的場景圖表示和資料集的許多令人興奮的應用之一,並希望更多的後續。

參考

[1] Image Retrieval using Scene Graphs

[2] P. Kra ̈henbu ̈hl and V. Koltun. Geodesic object proposals. In Computer Vision–ECCV 2014, pages 725–739. Springer, 2014. 6