1. 程式人生 > >【資源】斯坦福李飛飛高徒Johnson博士論文: 組成式計算機視覺智慧(附195頁PDF)

【資源】斯坦福李飛飛高徒Johnson博士論文: 組成式計算機視覺智慧(附195頁PDF)

【導讀】Justin Johnson,斯坦福大學博士,導師是計算機視覺領域頂級學者李飛飛博士。研究興趣包括計算機視覺和機器學習方面,涉及到視覺推理、視覺和語言,以及使用深層神經網路生成影象。Johnson目前是Facebook AI Research的研究科學家。從2019年秋季開始,我將加入密歇根大學電腦科學與工程專業,擔任助理教授。Johnson在2018年夏天完成博士學位,其博士論文組成式視覺智慧《Compositional visual intelligence》,195頁詳述採用組合式學習的方法對計算機視覺中影象描述、視覺問答、文字影象生成三方面的問題進行了研究,是組合式視覺智慧的代表性研究工作。

https://cs.stanford.edu/people/jcjohns/ 


                                                    博士論文《Compositional visual intelligence》

論文題目:

Compositional visual intelligence

作者:

Johnson Justin 

貢獻者:

  • Li, Fei Fei, 1976- degree supervisor.

  • Goodman, Noah, degree committee member.

  • Ré, Christopher, degree committee member.

  • Stanford University. Computer Science Departmen

論文摘要:

  • 計算機視覺領域在過去幾年取得了巨大的進步,這主要歸功於卷積神經網路。儘管在傳統的計算機視覺任務上取得了成功,但我們的機器系統離人類的一般視覺智慧還有很長的路要走。視覺智慧的一個重要方面是組合——對整體的理解源於對部分的理解。為了實現組成視覺智慧的目標,我們必須探索新的計算機視覺任務,建立新的資料集,開發利用組成性的新模型。在這篇論文中,我將討論我的工作在三個不同的計算機視覺任務涉及語言,其中包含的合規性幫助我們建立具有更豐富的視覺智慧的系統。我將首先討論影象標題描述:傳統系統生成描述影象的簡短句子,但是通過將影象分解為區域和描述分解為短語,我們可以生成兩種更豐富的描述:密集的標題和段落。其次,我將討論視覺問答:現有的資料集主要由簡短的問題組成;為了研究更復雜的需要複合位置推理的問題,我們引入了一個新的benchark資料集。在此基礎上,提出了一種視覺化問題互動的顯式組成模型,該模型將問題轉換為功能程式,並通過組合神經模組來執行這些程式。第三,我將討論文字到影象生成:現有的系統可以根據文字描述檢索或生成單個物件的簡單影象,但難以處理更復雜的描述。用物件和關係的構成場景圖代替自由形式的自然語言,可以檢索和生成包含多個物件的複雜影象。

論文結構:

Abstract

Acknowledgments

1 Introduction   概述

2 Dense Captioning - 密集視覺描述

3  Descriptive Image Paragraphs 描述性影象段落

4 A Dataset for Compositional Visual Reasoning   一個組成式視覺推理資料集

 

5 Programs for Visual Reasoning   視覺推理程式執行

6 Image Retrieval with Scene Graphs   基於場景圖的影象檢索

7 Image Generation from Scene Graphs  從場景圖生成影象

8 Conclusions  總結

博士論文下載:關注公眾號回覆【Johnson】獲取。

 

往期回顧

● 帶你詳細瞭解機器視覺競賽—ILSVRC競賽

● 到底什麼是“機器學習”?機器學習有哪些基本概念?(簡單易懂)

● 帶你自學Python系列(一):變數和簡單資料型別(附思維導圖)

● 帶你自學Python系列(二):Python列表總結-思維導圖

● 2018年度最強的30個機器學習專案!