【資源】斯坦福李飛飛高徒Johnson博士論文: 組成式計算機視覺智慧(附195頁PDF)
【導讀】Justin Johnson,斯坦福大學博士,導師是計算機視覺領域頂級學者李飛飛博士。研究興趣包括計算機視覺和機器學習方面,涉及到視覺推理、視覺和語言,以及使用深層神經網路生成影象。Johnson目前是Facebook AI Research的研究科學家。從2019年秋季開始,我將加入密歇根大學電腦科學與工程專業,擔任助理教授。Johnson在2018年夏天完成博士學位,其博士論文組成式視覺智慧《Compositional visual intelligence》,195頁詳述採用組合式學習的方法對計算機視覺中影象描述、視覺問答、文字影象生成三方面的問題進行了研究,是組合式視覺智慧的代表性研究工作。
https://cs.stanford.edu/people/jcjohns/
博士論文《Compositional visual intelligence》
論文題目:
Compositional visual intelligence
作者:
Johnson Justin
貢獻者:
-
Li, Fei Fei, 1976- degree supervisor.
-
Goodman, Noah, degree committee member.
-
Ré, Christopher, degree committee member.
-
Stanford University. Computer Science Departmen
論文摘要:
-
計算機視覺領域在過去幾年取得了巨大的進步,這主要歸功於卷積神經網路。儘管在傳統的計算機視覺任務上取得了成功,但我們的機器系統離人類的一般視覺智慧還有很長的路要走。視覺智慧的一個重要方面是組合——對整體的理解源於對部分的理解。為了實現組成視覺智慧的目標,我們必須探索新的計算機視覺任務,建立新的資料集,開發利用組成性的新模型。在這篇論文中,我將討論我的工作在三個不同的計算機視覺任務涉及語言,其中包含的合規性幫助我們建立具有更豐富的視覺智慧的系統。我將首先討論影象標題描述:傳統系統生成描述影象的簡短句子,但是通過將影象分解為區域和描述分解為短語,我們可以生成兩種更豐富的描述:密集的標題和段落。其次,我將討論視覺問答:現有的資料集主要由簡短的問題組成;為了研究更復雜的需要複合位置推理的問題,我們引入了一個新的benchark資料集。在此基礎上,提出了一種視覺化問題互動的顯式組成模型,該模型將問題轉換為功能程式,並通過組合神經模組來執行這些程式。第三,我將討論文字到影象生成:現有的系統可以根據文字描述檢索或生成單個物件的簡單影象,但難以處理更復雜的描述。用物件和關係的構成場景圖代替自由形式的自然語言,可以檢索和生成包含多個物件的複雜影象。
論文結構:
Abstract
Acknowledgments
1 Introduction 概述
2 Dense Captioning - 密集視覺描述
3 Descriptive Image Paragraphs 描述性影象段落
4 A Dataset for Compositional Visual Reasoning 一個組成式視覺推理資料集
5 Programs for Visual Reasoning 視覺推理程式執行
6 Image Retrieval with Scene Graphs 基於場景圖的影象檢索
7 Image Generation from Scene Graphs 從場景圖生成影象
8 Conclusions 總結
博士論文下載:關注公眾號回覆【Johnson】獲取。
往期回顧
● 到底什麼是“機器學習”?機器學習有哪些基本概念?(簡單易懂)
● 帶你自學Python系列(一):變數和簡單資料型別(附思維導圖)