1. 程式人生 > >3D【5】人臉重建:Learning the Multilinear Structure of Visual Data閱讀筆記

3D【5】人臉重建:Learning the Multilinear Structure of Visual Data閱讀筆記

該論文主要內容是使用張量分解來表徵一個3D人臉,如下公式:
這裡寫圖片描述

其中B(1) 是通過大量資料學習出來的,而A(m) 則是重構出 X 的係數, 是克羅內克積。

克羅內克積:一個3×1的向量和一個4×1的向量進行克羅內克積,會得到12×1的向量。具體的可參考wiki。

每個A(m) 可以表示不同的大分類,比如光照,表情等。論文中的一個例子:
這裡寫圖片描述
L,E,C 分別表示光照,表情和身份。

通過優化下面的損失函式,可以學習出B和A(m)
這裡寫圖片描述

但由於上式中有B和A(m) 都雪要求解,會比較困難。論文使用了迭代最小二乘法,先固定

A(m) 求B,然後固定B求A(m)
這裡寫圖片描述
詳細的求解過程可參考論文。

最近要用CNN來直接預測出mesh,而用CNN預測mesh的最大問題是網路的輸出。看過的論文,一般是用兩種方法:1、預測3DMM的係數;2、將mesh立方體化變成一個200×200×200(不一定是這個維度)。但這兩個方法都有各自的不足,方法一:嚴重依賴PCA;方法二:生成的頂點格式不固定。剛好看到有一篇論文是利用該論文的思想,所以就閱讀一下該論文。

經過大致的閱讀後(沒有詳細看B和A(m)求解過程),用CNN預測A(m),與用CNN預測3DMM的係數效果估計差不多。先記錄一下,可能以後會嘗試。