1. 程式人生 > >論文筆記:Learning Social Image Embedding with Deep Multimodal Attention Networks

論文筆記:Learning Social Image Embedding with Deep Multimodal Attention Networks

感想

這篇文章我看了一下作者是北航和微軟亞洲研究院合起來做的一篇文章,我感覺最深的是它的那個image-text network embedding的思想,用取樣的方法來降低訓練的複雜度。這也是一個深度學習注意力模型,更開心的是,論文裡面說程式碼是用keras來寫的,論文接收之後會公開原始碼,還是蠻期待的。文章說的連結關係困擾了我好久,到結尾才說原來是tags之間的關聯關係,前面吹得這麼高大上,我還真以為他們用的是社交網路中的url之間的關係呢。不過總體上這篇文章還不錯,亮點就在那個注意力機制和那個網路。

1 介紹

隨著社交網路的曾展個,項包含有內容和連結資訊的社交圖片的資料在五花八門的社交媒體中變得非常流行,例如Facebook,Twitter,Flickr等,這些資料需要高效的方法來處理和分析。通過學習一個高效的表示來捕獲連結資訊和內容之間的聯絡是一個不錯的解決方式,學習社交媒體資料表示在以內容和網路的應用中取得了巨大的成功,例如multilabel iamge classification,cross-modal image search和link prediction。因此,怎樣把資料表示成一個向量空間收到了學術界和工業界的廣泛關注,這種表示也叫作社交媒體資料嵌入(social media data embedding),這隨後假定為社交圖片嵌入的一個巨大的挑戰:多模態的內容和連結可以結合用於嵌入學習嗎?
把社交媒體資料用於embedding是一項巨大的挑戰。首先,社交圖片包含有不同形式的表示,例如圖片和文字描述。這些資料形式在特徵空間上是異構的;第二,這些資料中存在連線關係,這表明一個高效的embedding應該均衡非線性網路資訊和資料內容,用來學習一個合一的表示;第三,社交網路的社交圖片的數量已經是爆炸性的增長。因此,它需要一個高效的方法來從大量的資料中學習嵌入。圖1給出了一個社交圖片的樣例。

大多數現有的社交媒體資料嵌入方法可以被分類為兩類,例如基於網路和基於內容。基於網路嵌入方法學習幾點的一個表示,用來捕獲網路結構,這包含著基於淺層模型的方法,例如GraRep,Line和PPNE,以及基於深度模型的方法,例如SDNE。這些方法主要使用網路中近似的資訊來學習嵌入,忽略了結點包含的內容。基於內容的方法主要使用一個監督方法或者半監督方法來學習圖片和文字的聯合表示,這忽略了資料之間的聯絡,以及不同資料形式之間的細粒度的關係。即使HNE結合了網路和內容用於embedding learning,它對不同資料形式的獨立建模,學習過程很費時。

與此同時,社交媒體資料的多模態,異構和相互連線的特點可以為社交資料embedding提供線索。首先,社交圖片沒有孤立的存在,而是顯式的或隱式的連線。即使相互連線違背了在大多數統計機器學習演算法中的獨立同分布的假設,內容和連線資訊可以同時被利用來彌補彼此,一次得到更好的解決方案;第二,即使不同形式的內容是異構的,但是它們之間存在細粒度的聯絡。例如,如上面圖1,一些單詞,例如“dog”,”baby”,”flowers”和對應圖片區域相聯絡。如果關係被精確的解析,這些單詞和視覺區域可以以一種親密的方式建模,根據需要,突出的特徵是可以排在最前面。

為了解決上述的挑戰,我們提出利用連結資訊和社交圖片的多模態的內容過來做embedding。特別地,(1)怎樣在學習的表示中捕獲不同資料形式的細粒度的關係;(2)怎樣把連結關係融入到社交圖片的embedding。我們對這些疑問的解決方案叫做用於社交圖片embedding的Deep Multimodal Attention Networks。它旨在學習社交圖片embedding,可以同時對基於多模態內容和網路結構進行編碼為一個聯合的深度模型。框架如圖2所示。


視覺文字注意力模型利用不同資料形式的細粒度的關係,以此作為社交圖片嵌入,文字區域和圖片單詞的對齊以此來阻止模型被單個模態佔據主導。為了把連結資訊結合用於embedding。建立在CNN基礎上的Siamese-Triplet神經網路結構用於對網路結構進行建模。接著,用一個聯合模型來整合這兩個元件,把多模態內容和連結資訊嵌入到一個合一的向量空間。為了改進模型推斷的效率,我們在Triplet網路中應用了正負取樣的方法,這大大減少了優化方法的時間複雜度。

2 貢獻

這篇文章的主要貢獻總結如下:

1.             和傳統的資料embedding方法不一樣,我們研究了學習linkage-embedded社交圖片嵌入的問題,這種方法學習的嵌入可以很好的捕獲多模態內容和網路結構。我們的方法是非監督且任務獨立的,因此這種方法適合很多面向網路和基於多模態資料探勘的應用。

2.             我們提出了一個聯合深度模型(DMAN),解決了結合內容和連結用於embedding學習的挑戰,這兩個模型能分別捕獲多模態內容和網路結構,然後用一個深度網路來把它們整合起來。

3.             我們在真實世界資料集上比較了一些最好的baseline演算法,實驗結果證明了我們提出模型的優越性。

3 學習社交圖片嵌入

3.1問題陳述

在問題定式化之前,我們定義這篇文章使用的一些符號。這篇文章中,社交圖片的集合定義為一個多模態的網路,該網路的每個節點包含多模態內容和一個或者多個型別的連結。作為一個數學抽象,我們定義一個無向圖

其中,V={V1,…,VN},V是一個節點的集合,ε是邊的集合。一個邊,屬於集合ε,當且僅當Vi和Vj的無向連線存在。為了進一步簡化的理解,我們假定在網路中有兩種型別的物件:image(V)和text(T),每個結點包含一對兩種型別的物件。然後


其中,一張圖片表示為一個矩形張量形式,V_i∈R^L,L表示tag詞彙量的大小。

圖2闡明瞭我們方法的框架。詳細地,為了對社交圖片的聯絡進行編碼,Siamese-Triplet神經網路是對圖片的三元關係進行建模,例如,對於一個給定的圖片,正圖片是隨機抽樣的圖片連結它的,負圖片是隨機圖片沒有連結它的。Siamese-Triplet神經網路有三個相同的基網路組成,它們共享相同的引數,有一個hinge rank損失來學習正負圖片的排序。為了捕獲圖片區域和文字單詞的細粒度的關係,我們提出了一個多模態注意力網路(multimodal attention networks)模型,為給定社交圖片的輸入單詞和視覺區域給定一個合理的注意力權重(reasonable attention weights),隨後我們用一個聯合深度模型來融合這兩個元件,挺且同時優化他們。網路中的連結數量隨著結點的增加呈現爆炸性的增長,直接通過在每次迭代中更新整個網路來優化目標函式會導致複雜度爆炸。因此,我們提出一個正負圖片取樣的方法來減少訓練的複雜度,在推導過過程中對每張照片隨機取樣一個正圖片和K個負圖片,這隻有線性的複雜度。

3.2Siamese-Triplet Neural Network Model

Siamese-Triplet結構對網路結構的建模是有效的,它包含三個相同的子網路,子網路共享相同的配置。因此,只需要少量的引數和少量的資料來訓練它。為了捕獲網路的非線性結構,我們提出了一個基於Siamese-Triplet神經網路的深度模型,用於社交圖片embedding,如圖3所示。

首先,我們建立了一個深度CNN,有額外的全連線(FC)層,以此作為我們的基網路來學習每張圖片的特徵。為了對網路資訊編碼,在基網路上,我們建立了一個有Siamese-Triplet結構的網路。通常,一個節點跟它的連結節點比一個隨機的結點更相似,我們使用Siamese-Triplet結構來捕獲三個結點的資訊的排序。於是,對於一個給定的圖片,我們取樣一個正圖片,正圖片和這張圖片有連結,我們取樣一張負圖片,負圖片與這個圖片沒有連結。這三張圖片組成了這個Triplet network的輸入。
其中在Siamese-Triplet網路中共享的引數。我們可以取樣一個負圖片,其相似度計算方式如公式(1)。
我們使用f_t (.)表示特徵的變換,對於網路中的每張圖片V_i,我們取樣一個正圖片V_i^+來組成正對,並且我們從最後一層來獲取它的特徵,表示為f_t (V_i).兩張圖片V_i^+和 V_i的相似度定義如下:
其中θ_t在Siamese-Triplet網路中共享的引數。我們可以取樣一個負圖片V_i^-,其相似度Sim(V_i,V_i^-;θ_t)計算方式如公式(1)。
為了把網路結構資訊編碼到特徵表示f_t (.)中,給定圖片和正圖片的相似度是很大的,而給定圖片和負圖片的相似度很小,例如

排名的損失由hinge rang loss進行定義:

其中,M表示兩個相似度的間隙引數(gap parameter),我們在實驗中經驗的設定M=0.3.因此我們用於訓練的目標函式定義為:


其中,N表示結點的總數,L2規範化用dropout層來替代。

選擇負樣例來用語學習排序是比較重要的,我們使用mini-batch SGD的方法來訓練模型,對於每對和,我們在相應的batch B上來隨機取樣K個負樣例。對於樣例的每個三元組之一,三個樣例的梯度是分別計算的,引數通過反向傳播方法更新。為了確保片段和每次查詢不同的負匹配,所有的圖片在訓練的每次迭代中隨機打亂。對於我們的實驗,我們設定K為3.

3.3 視覺文字注意力模型

注意力是一種機制,它可以使得輸入和輸出序列進行對齊,這樣顯著的特徵格局需要動態的來到了最前面。最近,它已經被證明對許多與視覺相關的任務有用,例如圖片描述(image captioning)和圖片問答(image question answering)。和這些工作不同,我們的注意力機制定義為Siamese- Triplet結構下的多模態資料。我們使用注意力模型來捕獲不同資料形式的對齊,基於Siamese-Triplet網路的深度模型,這可以利用網路資訊來學習單詞和圖片區域的對映。

給定一個image-text對,我們的目標是自動發現單詞和文字區域的關係。令T_i={t_i^0,t_i^1,…,t_i^k,…,t_i^L },T_i∈R^L表示第i對的文字特徵,它是一個one-hot單詞向量,長度為L,其中k表示單詞的索引。令V^i表示對應T_i的原圖片。我們用CNN來獲取圖片區域對映Ri,對於Vi的R_i={r_(i,0),r_(i,1),…,r_(i,j),…r_(i,D)}∈R^(D×M)定義如下:


其中θ_c是CNN層的引數,j表示區域的索引,D表示圖片區域的維度,M是map的維度。

在注意力模型中,根據每個圖片區域r_(i,j)和單詞t_i^k的相關程度指派一個0到1之間的值。正式地,我們旨在自動產生單詞的圖片注意力的值: 其中,Zi表示未規範化的單詞注意力的值,第i對的區域對映(map)R_i.Zi是用softmax函式來空間歸一化來獲取最終的單詞注意力對映(map)Ai,

其中,z_(i,j)^k代表在圖片i中區域i對應單詞k的未歸範注意力的值,a_(i,j)^k代表圖片i中區域j對應的單詞k的規範化注意力的值。如果把單詞k指派到輸入圖片,我們應該給予相關的圖片區域一個更高的值。注意力估計值f_a (.)可以用很多方式來計算,例如CNN。在這篇文章中,它被定義為一個序列化分佈的全連線層,用如下的方式計算:


其中w∈R^(L×M)和b∈R^L組成了注意力模型的引數集合θ_a.(公式5),在反向傳播的時候來更新。Tanh激勵用於使得模型變得非線性。

令r_(i,j)∈R^(L×M)表示Ri中區域j的視覺特徵向量,規範化的注意力的值作為每個單詞的代權特徵和,來獲取輸出特徵如下:



注意力模型的結構解釋如圖4,上面的公式有點像每個單詞的代權均方池化層,和原來所有單詞共享的獨立視覺特徵相比,帶權視覺特徵對映u_i^k在把圖片區域對映到相關的的單詞k上更有效。U_i的維度是R^(L×M),而T_i∈R^L。為了比較視覺輸出特徵和文字特徵,我們堆疊了一些LFC(Locally Fully Connected)層來獲取視覺特徵的L維度輸出,LFC層區域性全連線每個單詞,對應不同單詞的引數集合是獨立的。即u_i^k僅僅和對應每個單詞k的ti有關。注意,最後的LFC層僅僅對詞彙表中每個單詞有1個神經元,LFC設定了最後的輸出的維度是L,最後的LFC層的激勵sigmoid,該激勵用來規範化估計單詞置信度的特徵表示,這是通過比較ground truth text向量來估計的。令Y_i∈R^L為LFC層的最後輸出:


我們對上述提到的三個方程做了一個做一個pipeline,從圖片輸入到Yi的整個過程為:


其中,f_w是f_c的pipeline,f_c,f_a和θ_w是θ_c, θ_a和θ_l的集合。
引數θ_w是學習到的,通過最小化Yi和Ti之間的帶權二分交叉熵損失,


其中N是這些對的數量,λ是一個平衡引數。Ti中的零引數比非零引數多,很合理的懲罰更多的錯誤負樣例。

3.4聯合的嵌入模型

Siamese-Triplet神經網路通過利用網路結構資訊來學習嵌入,視覺文字注意力模型利用資料模態之間的細粒度的關係來用於嵌入式學習。直覺上地,我們提出了一個聯合的深度嵌入模型來結合兩個元件,然後同時優化他們。特別地,我們在Siamese-Triplet模型的基網路中把FC層變為一個注意力層和若干LFC層。隨後,我們把損失函式定義為hinge rank損失的和,帶權二分交叉熵損失定義如下:

其中β是一個帶權引數,Triplet網路在聯合模型中加入了注意力,引數θ_t用θ_w代替,在整個模型中共享。
通過採用正取樣和負取樣方法,聯合深度模型的計算複雜度極大地降低了。假設image-text對的數量為N,其它的犯法通過迭代整個網路來學習網路的表示,這導致了O(k(NxN))的複雜度,K是迭代的次數。我們的方法僅僅是從每個結點上取樣一些結點來在每次迭代中做引數更新,因此,計算複雜度減少至O(k(N))。

4 實驗

4.1 實驗設定

實驗在三個流行的資料集上進行的,資料集是從flickr上收集的,資料集由人工標註的ground truth標籤。基於這些集合的研究,我們從原始的Flickr網站上爬取了原始的圖片,這些圖片集合的描述如下:
1)NUS Web Image Database(NUS-WIDE)資料集是一個web圖片資料集,包含269 648張圖片,其中226 912張可以在Flickr源中獲得。
2)MIR Flickr Retrieval Evaluation(MIR)資料集包含一百萬張圖片,只有25000張圖片被標註了,其中13 368張標註的圖片可以在Flickr源中獲得。
3)PASCAL Visual Object Classes Challenge(PASCAL)資料集包含9963張圖片,其中9474張標註的圖片可以在Flickr源中獲得。
我們預處理了這些資料集。首先,這裡面有很多噪聲圖片,這些圖片不屬於任何他們的ground truth標籤,我們移除了這些樣本。隨後,我們使用了最頻繁的1 000個標籤作為文字詞彙表,構造了一個1000-D 的0-1向量用於文字內容。我們進一步移除了不包含詞彙表任何單詞的image-text對。最後,我們隨機的取樣image-text對用作訓練和測試,比率為4:1。我們構造了一個網路,把每個image-text對當做一個節點,如果他們有至少一個共同的標籤,他們之間建立一條邊。對於每個結點,最多采樣50個連結來構造稀疏的鄰接矩陣。我們用out-of-sample策略來評估我們的框架。資料集的最終統計在下表1,注意到NUS-WIDE的90000個結點是隨機取樣的,其中53844個結點用於訓練,36352用於測試。

在實驗中,圖片的大小為224*224,RGB channel,作為視覺輸入,CNN被用於視覺特徵提取。特別地,我們的CNN層利用了在ImageNet 2012分類挑戰資料集上預訓練的vgg 16網路,用了Keras 深度學習框架,隨後,我們使用了pool5的輸出作為圖片區域對映的視覺特徵,大小為49*512。我們堆疊了LFC層來得到注意力層,維度分別為1000*128,1000*32,和1000*1。至於超引數λ和β,我們分別設定為10和1,這樣就可以獲得一個相對更好的效能。在訓練過程中,我們設定的學習率為0.01,momentum為0.9,nesterov=True。所有的實現是在2*NVIDIA GTX 1080上訓練的。我們模型的所有原始碼將會在我們發表後釋出。

4.2 Baselines

我們讓DMAN和下面的一些方法進行了對比:
1)CCA: Canonical Correlation Analysis把兩種型別的輸入資料嵌入到一個共同的隱式空間,就他們的關係來優化一個目標函式。
2)DT:一個遷移學習的方法,它使用隱式的嵌入來建立圖片和文字語義距離的橋樑。
3)LHNE:HNE(Heterogeneous Network Embedding)的線性版本。
4)KCCA: Canonical Correlation Analysis的核版本。
5)DCCA: 基於image-text匹配方法的深度canonical correlation analysis。
6)DMAN triplet:僅僅使用圖片來構造triplet 神經網路,網路直接學習表示。它用於評估嵌入的triplet網路的有效性。
7)DMAN Triplet+text:文字內容通過DMAN triplet,其中文字內容通過使用一個全連線網路來結合,而不是一個注意力網路。

4.3 多標記分類

所有的資料集是多標記的,類別分佈不均衡。我們利用macro/micro precision,macro/micro recall,macro/micro F1-measure,Mean Average Precision (mAP)來評估其效能。如果預測的任何標籤置信度高於0.5,這個標籤是正的。為了公平比較,我們使用有3FC層的神經網路來學習一個一般的分類器。完成訓練過程後,我們使用訓練的模型來獲取測試集合的嵌入。隨後,我們使用上述提到的FC分類器來訓練和測試每個資料集。

3個數據集的實驗結果如表2,DMAN超過了其他的方法。首先,從NUS-WIDE的結果來看,我們可以得出DMAN Triplwr的效能比CCA,DT和LHNE在mAP上更好,驗證了使用triplet網路模型做嵌入的有效性。結合文字內容,DMAN Triplet+Text 幾乎達到了HNE在mAP度量下的分數,並在所有的度量上超過了DMAN Triplet模型。這證明了結合多模態內容作嵌入學習的重要性,在使用注意力模型的情況下,DMAN的mAP從HNE的54.99%提升到了57.22%,和DMAN Triplet+Text相比,attention DMAN在所有的度量下都有提升,這是因為注意力模型使得多模態內容進行了對齊,這對學習多模態資料的高效表示非常有用。另一方面,HNE單獨的學習圖片和文字文件的特徵,很難補貨不同資料形式的相互關係。與此同時,其他基準線方法不能有效的利用連線資訊和不同資料模態的細粒度關係。PASCAL中tags的數量比其他的資料集少,但是質量更好。因此,DMAN Triplet+Text和DMAN在PASCAL比在其他資料集上更好。

4.4 Cross-Modal Search

為了進一步證明DMAN的優越性,我們把它和baselines的方法在跨模態搜尋的任務上進行了比較。在NUS-WIDE,MIR和PASCAL資料集中,有77/81,12/14,17/20的groundtruth label單詞出現在了文字向量中。我們手工的構造了77,12和17個查詢向量,維度為1000,分別作用於三個資料集,通過設定對應的label條目到一個,然後剩下的條目設定為0.使用學到的嵌入方程,我們把查詢向量對映到潛在的空間來檢索測試集上所有的訓練樣本,我們使用的是標準的Euclidean distance,多有查詢的rank k的平均精度([email protected])報告如表3.


在NUS-WIDE資料集上,和HNE相比,DMAN取得了高於10%的AP,大大超過了CCA,DT和LHNE。在所有三個資料集上,DMAN超過了KCCA和DCCA。這證明我們模型對跨模態搜尋的有效性。與此同時,連線資訊對查詢大多數相似圖片是有幫助的,這影響到了那些忽略了連結資訊的方法的效能,併為注意力模型在跨模態搜尋上的有效性提供了證據。

圖5給了MIR搜尋結果的一些樣例。對於每個查詢,我們展示了top-5 排序的圖片和他們通過注意力模型對應的區域。對於查詢“Sea”,對其的圖片已經錯誤的匹配到了藍天和白雲,這是因為“sea”,“cloud”,“sky”的標籤在相同圖片中頻繁的共現。對於其他的查詢,我們的模型得到了圖片的正確的注意力,因此提高了效能。

參考文獻

[1]. Feiran Huang, Xiaoming Zhang, Zhoujun Li, Tao Mei, Yueying He, Zhonghua Zhao:Learning Social Image Embedding with Deep Multimodal Attention Networks. ACM Multimedia (Thematic Workshops) 2017: 460-468

相關推薦

論文筆記Learning Social Image Embedding with Deep Multimodal Attention Networks

感想 這篇文章我看了一下作者是北航和微軟亞洲研究院合起來做的一篇文章,我感覺最深的是它的那個image-text network embedding的思想,用取樣的方法來降低訓練的複雜度。這也是一個深度學習注意力模型,更開心的是,論文裡面說程式碼是用keras來寫的,論文接

論文筆記Learning Region Features for Object Detection

中心思想 繼Relation Network實現可學習的nms之後,MSRA的大佬們覺得目標檢測器依然不夠fully learnable,這篇文章類似之前的Deformable ROI Pooling,主要在ROI特徵的組織上做文章,文章總結了現有的各種ROI Pooling變體,提出了一個統一的數學表示式

論文翻譯Learning Graphical Model Parameters with Ap-proximate Marginal Inference

Abstract       基於似然的圖形模型學習面臨著計算複雜度和模型錯誤描述魯棒性的限制。本文研究了直接擬合引數以最大限度地提高測量精度的方法預測的邊緣,考慮到訓練時間模型和推理方法。對成像問題的實驗表明,基於邊際化的學習在基於近似性的困難問題上比基於可能性的近似方

ICCV2017 : 偽3D卷積Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

這是提出了一個專門用於視訊理解的深度達199層的三維殘差神經網路,通過將3D卷積拆分為一個3*1*1的一維時間卷積核一個1*3*3的二位空間卷積,相比於同樣深度的2D-CNN只增添了一定數量的1D-CNN,但引數量減少很多。二維空間卷積可以使用影象進行預處理,

論文閱讀筆記 DeepLabv1SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS

bar pro 依賴性 後處理 主題 處理 分配 位置 平滑 論文鏈接:https://arxiv.org/abs/1412.7062 摘要 該文將DCNN與概率模型結合進行語義分割,並指出DCNN的最後一層feature map不足以進行準確的語義分割

17-11-22 Deep Reinforcement Learning-based Image Captioning with Embedding Reward論文隨筆

image captioning 之所以是一個很具有挑戰性的課題,一是因為理解文章內容很難,而是因為自然語言的描述具有多樣性。最近深度神經網路的進步基本提高了這項任務的表現,大多數方法遵循的是編解碼的框架,用一系列迴圈預測模型生成描述。然而,在這篇論文中,我們介紹的是一種新

深度學習論文筆記Deep Residual Networks with Dynamically Weighted Wavelet Coefficients for Fault Diagnosis of Planetary Gearboxes

這篇文章將深度學習演算法應用於機械故障診斷,採用了“小波包分解+深度殘差網路(ResNet)”的思路,將機械振動訊號按照故障型別進行分類。 文章的核心創新點:複雜旋轉機械系統的振動訊號包含著很多不同頻率的衝擊和振盪成分,而且不同頻帶內的振動成分在故障診斷中的重要程度經常是不同的,因此可以按照如下步驟設計深度

論文筆記Deep Attentive Tracking via Reciprocative Learning

  Deep Attentive Tracking via Reciprocative Learning NIPS18_tracking Type:Tracking-By-Detection 本篇論文地主要創新是在將注意機制引入到目標跟蹤 摘要:源自認知神經科學地視覺注意促進人類對相關的內

論文筆記An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application

1.歷史方法 1)基於字元的DCNN,比如photoOCR.單個字元的檢測與識別。要求單個字元的檢測器效能很強,crop的足夠好。 2)直接對圖片進行分類。9萬個單詞,組合成無數的單詞,無法直接應用 3)RNN,訓練和測試均不需要每個字元的位置。但是需要預處理,從圖片得到特

論文筆記MatchNet: Unifying Feature and Metric Learning for Patch-Based Matching

Abstract MatchNet:一個用來從patches中提取特徵的深度卷積網路 + 一個用來比較提取出的特徵相似度的三層全連結網路構成。 Introduction 在MatchNet中,每個patch輸入卷積網路,生成一個固定維度的類似

論文筆記Histology Image Classification using Supervised Classification and Multimodal Fusion

該部落格由EMMA原創,隨意轉載,部落格原連結 Histology Image Classification using Supervised Classification and Multimodal Fusion 原文連結:paper 出處

論文筆記Deep Image Prior

                        &nbs

影象隱寫術分析論文筆記Deep learning for steganalysis via convolutional neural networks

好久沒有寫論文筆記了,這裡開始一個新任務,即影象的steganalysis任務的深度網路模型。現在是論文閱讀階段,會陸續分享一些相關論文,以及基礎知識,以及傳統方法的思路,以資借鑑。 這一篇是Media Watermarking, Security, and Forensi

論文筆記Image Caption(Show, attend and tell)

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention Show, Attend and Tell 1、四個問題 要解決什麼問題? Image Cap

論文筆記Image Caption(Show and Tell)

Show and Tell: A Neural Image Caption Generator Show and Tell 1、四個問題 要解決什麼問題? Image Caption(自動根據影象生成一段文字描述)。 用了什麼方法

論文筆記Fisher Kernels on Visual Vocab ularies for Image Categorization

Fisher Kernels on Visual Vocabularies for Image Categorization 論文連結:CVPR 2006 在模式分類領域,Fisher Vector(FV)是一個強有力的構架,因為他結合了生成式(概率密

論文筆記DRAW: A Recurrent Neural Network For Image Generation

DRAW: A Recurrent Neural Network For Image Generation 2019-01-14 19:42:50   Paper:http://proceedings.mlr.press/v37/gregor15.pdf  本文將 V

論文筆記Deep Learning [nature review by Lecun, Bengio, & Hinton]

假設我們需要訓練一個深度神經網路來預測一段文字序列的下一個單詞。我們用一個one-of-N的0-1向量來表示上下文中出現的單詞。神經網路將首先通過一個embedding層為每一個輸入的0-1向量生成一個word vector,並通過剩下的隱藏層將這些word vector轉化為目標單詞的word vector

論文筆記Residual Attention Network for Image Classification

前言 深度學習中的Attention,源自於人腦的注意力機制,當人的大腦接受到外部資訊,如視覺資訊、聽覺資訊時,往往不會對全部資訊進行處理和理解,而只會將注意力集中在部分顯著或者感興趣的資訊上,這樣有助於濾除不重要的資訊,而提升資訊處理的效率。最早將A

論文筆記Self-critical Sequence Training for Image Captioning

引言 現在image caption主要存在的問題有: exposure bias:模型訓練的時候用的是叫“Teacher-Forcing”的方式:輸入RNN的上一時刻的單詞是來自訓練集的ground-truth單詞。而在測試的時候依賴的是自己