Everybody dance now

技術 · 發表 2018-10-31 14:21:52

摘要：本週介紹一篇來自加利福尼亞大學伯克利分校今年8月推出的論文。該論文提出了一種在不同的人物視訊中遷移動作的方法：給定兩個視訊——一個是想要合成的目標人物的視訊，另一個是動作源視訊，通過一個端到端的管道，可以實現這兩個視訊中人物的動作遷移（見圖1）。之前類似的工作需要3維圖形資訊...

本週介紹一篇來自加利福尼亞大學伯克利分校今年8月推出的論文。該論文提出了一種在不同的人物視訊中遷移動作的方法：給定兩個視訊——一個是想要合成的目標人物的視訊，另一個是動作源視訊，通過一個端到端的管道，可以實現這兩個視訊中人物的動作遷移（見圖1）。之前類似的工作需要3維圖形資訊，而本次的工作使用生成式對抗網路。通過從源視訊中獲取的姿態特徵推斷目標人物畫面。

圖1：從源視訊中遷移動作到兩個目標上

方法總覽

動作遷移管道分為三個部分：

1. 姿態檢測。在姿態檢測階段，通過預訓練的姿態檢測模型（openpose）從源視訊中描繪給定幀的姿態圖形。

2. 全域性姿態標準化。全域性姿態標準化階段，計算給定幀內源和目標人物身體形狀和位置之間的差異，將源姿態圖形轉換到符合目標人物身體形狀和位置的姿態圖形。

3. 從標準化後的姿態圖形推斷目標人物的影象。這一階段使用一個生成式對抗模型，訓練模型學習從標準化後的姿態圖形推斷到目標人物影象。

圖2：訓練流程（上）遷移流程（下）

圖2上半部分描述生成式對抗模型訓練流程。

從目標視訊中給定一個幀y，使用預訓練的姿態檢測模型P圖獲得對應的姿態圖形x = P(y)。在訓練階段使用對應的(x, y)影象對去學習從姿態圖形x到目標人物合成影象（即：G(x)）的對映G。通過在鑑別器D使用對抗訓練和在預訓練VGGNet使用感知重建損失，我們可以優化生成器G，使其輸出接近真實影象y。判別器試圖區分“真實”的影象對（例如(x, y)）和“偽造”的影象對（例如(x, G(x)）。

圖2下半部分描述遷移流程。

和訓練過程相似，姿態檢測模型P從源視訊給定幀y'中抽取姿態圖形x'。由於x'和目標視訊中人物的身體尺寸和位置不同，我們通過全域性姿態標準化轉換，使其和目標人物更一致，記x。將x推入已訓練的模型G中生成目標人物影象G(x)，生成的影象與源視訊中的y幀相對應。

下面我們詳細的介紹方法細節。

姿態檢測和標準化

姿態檢測

本文的姿態檢測使用預訓練的模型P（如：開源專案openpose等），得到精確的肢體關節座標x，y的估計。通過連線各個關節點可以得到姿態圖形，如圖3所示。在訓練過程中，姿態圖形作為生成器G的輸入。在遷移過程中P從源動作物件中獲取估計x'並通過標準化匹配到目標人物。姿態估計相關文獻見文章末尾。

圖3：姿態圖形和對應目標幀

全域性動作標準化

首先找到源視訊和目標人物視訊中最小和最大的腳踝關鍵點位置（距離鏡頭最近為最大，反之為最小）。方法很簡單，靠近影象最底部的為最大腳踝關鍵點，另一個為最小。

偏移量b通過如下公式計算：

其中和 Line"/> 分別為目標視訊中最小和最大的腳踝關鍵點位置，和分為原視訊的。為源視訊的腳踝平均位置。為源視訊當前幀相對於第一幀的姿態位置偏移量（文中未說明，我的觀點）。

比例scale通過如下公式計算：

其中和分別為目標視訊中最小和最大腳踝關鍵點的高度，和

分為原視訊的。

用於影象間轉換的對抗訓練

Pix2pix框架

通過修改基於pix2pixHD的對抗訓練，可以生成時間連貫的視訊幀以及合成真實的面部影象。

在原始的條件化GAN中，生成器G用來對抗多尺寸的鑑別器D=(D1,D2,D3）。原始pix2pixHD的目標任務形式如下：

其中是原始pix2pixHD中的對抗損失，形式如下：

是pix2pixHD中提出的鑑別器特徵匹配損失。是感知重建損失，通過比較預訓練VGGNet不同特徵層中的差異獲得。

時序平滑

為了生成視訊序列，本文修改了原始pix2pixHD中單個影象生成的模式，使其產生時間連續的相鄰幀（圖4）。模型預測兩個連續的幀，第一個輸出G(xt-1)由相應的動作圖形xt-1和一個空影象z（值為0，由於沒有t-2的幀輸入所以用空值作為一個佔位符）作為預測條件；第二個輸出G(xt)以xt和G(xt-1)為條件。相應的，鑑別器的任務變為鑑別真實序列（xt-1, xt, yt-1, yt）和偽造序列（xt-1, xt, G(xt-1), G(xt)）的真實性以及時間連續性。通過在原始pix2pixHD優化目標上新增時序平滑損失得到新的優化目標，形式如下所示：

圖4：時序平滑訓練示意圖

面部生成式對抗網路

本文新增一個特殊的GAN結構來訓練生成更細節更真實的面部區域（圖5）。

在使用生成器G得到整幅影象後，我們擷取以面部為中心的小區域影象，將其和動作圖形的相應區域XF輸入到另一個生成器中，得到一個面部的殘差。最終的輸出是將殘差加上對應區域的原始值，即。和原始pix2pix優化目標類似，鑑別器嘗試區分“真實”面部影象對和偽造圖相對。

實驗結果

由於對於生成影象，沒有相應的真實影象來評價。為了評價單個影象的質量，本文測量影象的Structural Similarity（SSIM）和Learned Perceptual Image Patch Similarity（LPIPS）。依靠質量分析來評價輸出視訊的時間連續性。SSIM和LPIPS的相關資料見文章末尾。

表1：身體影象輸出比較

表1記錄了將生成的目標人物影象，按標準化動作圖形邊框裁剪後計算的結果。T.S表示生成器結果經過時序平滑的方案。T.S.+Face是本文的完整模型，包含時序平滑和麵部生成。

表2：面部影象輸出比較

表2記錄了將生成的目標人物影象，按面部邊框裁剪後計算的結果。

表3：姿態距離

表3計算了姿態距離d。如果身體部分影象被正確的合成，那麼合成影象的姿態圖形應該和作為條件輸入的姿態圖形非常接近。為了評價姿態的一致性，本文設計了姿態距離矩陣來計算姿態差異。對於兩個姿態p和p'，每一個有n個連線點：p1,......,pn和p'1,......p'n。我們計算對應連線點的L2距離均值來衡量姿態距離。

姿態距離越低，表示影象質量越好。

表4：平均每幅圖未檢測到的連線點數量

表4表示平均每幅圖，在源動作影象中根據姿態檢測得到連線點，而在生成圖中姿態檢測未檢測到的點的數量。

最後展示幾組源影象和對應動作圖形、生成影象的結果圖。

圖5：結果展示

相關文獻

影象相似性衡量

SSIM：

Zhou Wang, Alan C Bovik, Hamid R Sheikh,and Eero P Simoncelli.2004. Image quality assessment:from error visibility to structural similarity. IEEE transactions on image processing 13, 4(2004),600–612.

LPIPS：

Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shechtman, and Oliver Wang. 2018. The Unreasonable Effectiveness of Deep Features as a Perceptual Metric.In CVPR.

pix2pixHD:

https://arxiv.org/pdf/1711.11585v2.pdf

姿態估計：

卷積姿態機器

https://arxiv.org/pdf/1602.00134.pdf

實時多人2d動作估計

https://arxiv.org/pdf/1611.08050.pdf

手部關鍵點探測

https://arxiv.org/pdf/1704.07809.pdf

本文原文（Everybody dance now）：

https://arxiv.org/pdf/1808.07371.pdf

ofollow,noindex">極驗

極驗是全球頂尖的互動安全技術服務商，於2012年在武漢成立。全球首創 “行為式驗證技術” ，利用生物特徵與人工智慧技術解決互動安全問題，為企業抵禦惡意攻擊防止資產損失提供一站式解決方案。

理論

相關資料

對映技術

Mapping

對映指的是具有某種特殊結構的函式，或泛指類函式思想的範疇論中的態射。邏輯和圖論中也有一些不太常規的用法。其數學定義為：兩個非空集合A與B間存在著對應關係f，而且對於A中的每一個元素x，B中總有有唯一的一個元素y與它對應，就這種對應為從A到B的對映，記作f：A→B。其中，y稱為元素x在對映f下的象，記作：y=f(x)。x稱為y關於對映f的原象*。*集合A中所有元素的象的集合稱為對映f的值域，記作f(A)。同樣的，在機器學習中，對映就是輸入與輸出之間的對應關係。

來源： Wikipedia

感知技術

perception

知覺或感知是外界刺激作用於感官時，腦對外界的整體的看法和理解，為我們對外界的感官資訊進行組織和解釋。在認知科學中，也可看作一組程式，包括獲取資訊、理解資訊、篩選資訊、組織資訊。與感覺不同，知覺反映的是由物件的各樣屬性及關係構成的整體。

來源：維基百科