AAAI 2019 Oral | 讓TA說你想聽的—基於音/視訊特徵解離的講述者人臉生成

技術 · 發表 2019-01-28 18:06:43

摘要：你是否希望照片上的偶像、男神女神，甚至動畫人物對著你說出你想聽的那句話？又或是希望偽造明星說他們沒說過話的視訊？作者丨Lovely Zeng 學校丨CUHK 研究方向丨Detection 香港中文大學 MMLab 提出通過解離的聽覺和視覺資訊進行說話人臉...

你是否希望照片上的偶像、男神女神，甚至動畫人物對著你說出你想聽的那句話？ 又或是希望偽造明星說他們沒說過話的視訊？

作者丨Lovely Zeng

學校丨CUHK

研究方向丨Detection

香港中文大學 MMLab 提出 通過解離的聽覺和視覺資訊進行說話人臉視訊的生成 ，使得生成高解析度且逼真的說話視訊成為可能，而系統的輸入可以僅僅是一張照片和一段任何人說話的語音，無需先對人臉形狀建模。

論文的效果如下：

甚至對於動畫人物和動物也能取得很好的效果：

論文已經被 AAAI 2019 收錄為 Oral Presentation ，接下來就將對論文進行詳細的講解，在此將著重於本文的背景和技術，細節部分詳見論文，本文程式碼已經開源。

背景介紹

多數研究基於音訊的說話人臉視訊生成問題都是 基於圖形學 的方法，比如在論文 [1] 中，超逼真的奧巴馬說話視訊已經被成功的合成出來。但是這類方法 通常需要對特定的目標物件的大量視訊進行訓練和建模。

而最近基於深度學習的方法 [2] 和 [3] 使用了 Image-to-Image 的方式 ，通過單張影象生成整個人臉說話的視訊。這種方式已經足以得到很好的與提供的語音匹配的脣形，但是生成影象的質量卻大打折扣， 生成的結果不但解析度不高，甚至可能出現人物的面部特徵丟失或是出現色差等問題。

問題出現的原因則是因為，由於人臉的身份特徵和脣形的語義特徵沒有完全解離，所以當身份特徵被儲存完好，也就是希望輸出高質量影象的時候，其原來的脣形特徵也會被儲存下來，難以受音訊資訊影響。

本文旨在生成與音訊完美契合，同時對人臉的細節特徵儲存完好的高質量的說話視訊。 因為在方法中同時編碼了視訊和音訊資訊，從而使一個單獨的模型獲得了既可以使用音訊又可以使用視訊進行進行說話人視訊生成的特性。

文章解決的問題如圖 1 所示：

解決方案

在本文中，解決問題的思路是 將一段說話的視訊對映到兩種互補的人臉資訊表示空間上 ，一種是 人臉身份特徵的表示空間（PID） ，另一種就是 說話內容的表示空間（WID） 。

如果能有方法將這兩種表示所在的空間的資訊解離開，則保持身份特徵資訊不變，使說話內容空間的資訊根據音訊流動，再將兩個空間的資訊組合就可以達到任意 PID 說任意 WID 的目標。大體思路如下圖所示：

其核心思想在於 使用聯合視覺的語音識別（Audio-Visual Speech Recognition）（帶音訊的脣語識別）任務進行空間的編碼和解離。 包含說話人臉視訊，音訊和所說詞語標籤的脣語識別資料集天然的目標，由此文章提出了一種“協同與對抗（associate-and-adversarial）”的訓練方式。

通過使用音訊和視覺資訊同時訓練語音識別任務，有關說話內容的特徵空間就可以被找到。而在此空間中，一組對應的視訊和音訊因為表達的是同樣的資訊，所以理應對映到同一個位置。

因此文章通過協同訓練找到一個聽視覺資訊融合的表示空間（joint audio-visual representation），也就是上圖中的 Word-ID space。而這樣的協同空間中無論是視覺資訊還是音訊資訊對映的特徵，都可以拿來進行人臉和重構，由此又巧妙地達到了使用一個模型統一使用視訊或者音訊生成說話視訊。

有了詞語的標籤之後，更有趣的是可以 通過詞語標籤對編碼人臉身份特徵的網路進行對抗訓練（adversarial training） ，將語言資訊也就是脣形資訊從中解離出來。同時，找到對映人臉的空間因為有大量標有人身份標籤的資料集的存在，本身是一件很簡單的事情。

通過使用額外的帶有身份資訊的資料進行訓練既可以通過分類任務找到對映人臉的空間，又可以通過對抗訓練將人臉資訊從語言空間解離出來。

簡單總結一下文章的貢獻：

1. 首先通過音訊和視訊協同訓練脣語識別，將兩種資訊向語言空間融合對映，協同訓練的結果顯示甚至相比基線可以提升脣語識別的結果；

2. 因為通過了使用識別性的任務進行對映，充分利用可判別性，使用對抗訓練的方式進行了人臉特徵和語言資訊的解離；

3. 通過聯合訓練上述任務，任意一張照片都可以通過一段給定的音訊或者視訊，生成高質量的說話視訊。

技術細節

方法的整個流程圖如下，文章的整個方法被命名為 “解離的音-視訊系統” ，Disentangled Audio-Visual System (DAVS)：

本文使用了單詞級別的脣語識別資料集 LRW。在此資料集中每段定長的視訊擁有其所含的主要單詞的 label，所以對映的說話內容空間，被命名為 Word-ID（wid）空間（詞空間），對應於人臉的 Peron-ID (pid) 空間（身份空間）。

整個系統包含視訊對詞空間的編碼網路，音訊對詞空間的編碼網路，和視訊對身份空間的編碼網路；通過網路，人臉空間被劃分成 wid 和 pid 兩個互斥的空間，並使用對抗訓練的方式解離開。同時 wid 空間是音訊和視訊協同對映的聯合空間，通過同步兩個空間的資訊，要求對應的音訊和視訊對映到空間的同一位置。

音訊視訊聯合空間對映

聯合空間的對映通過三個監督聯合完成 ，這三個監督分別是：共享視訊和音訊對映到詞標籤的分類器；通常用於排序的 contrastive 損失函式；和一個簡單的用於混淆兩個空間的對抗訓練器。

共享分類器這一方法，本質在於讓資料向類中心靠攏，可以稱之為“中心同步”[4]。而排序 Contrastive loss 用於音訊和視訊同步最早源於 VGG 組提出的 SyncNet [5]。

利用這一體系進行聯合空間對映，所以聯合空間對映模組也適用於將音-視訊同步這一任務。而本身使用脣語識別這一任務做監督又意味著可以同時將脣語識別這一任何融入其中。

對抗訓練空間解離

為了將身份空間和詞空間解離，文章首先依託脣語識別資料集的標籤，對身份空間的編碼器進行語言資訊的解離。在保持身份編碼器權重不變的情況下，通過訓練一個額外的分類器，將編碼的視訊特徵，對映到其對用的詞標籤上。這一步驟的意義在於儘可能的將已編碼的身份特徵中的語言資訊提取出來。然後第二步保持分類器的權重不變，訓練編碼器，此時詞標籤則取成總類別數的平均值。由此我們期望對映的特徵向量中含有的詞資訊不足以讓分類器成功分類。

對於詞編碼器，文章使用額外的人臉識別資料 MS-Celeb-1M [6]，使用同樣的方式對稱的提純對映的詞空間資訊，完成身份空間和詞空間的解離。

實驗結果

文章中進行了一些數值的對比實驗證明其提出的每一個模組的有效性，但對於此任務，最重要的生成的效果。Gif 結果附在了本文開頭，而長視訊結果請見主頁：

https:// liuziwei7.github.io/pro jects/TalkingFace

參考文獻

[1] Suwajanakorn, S., Seitz, S. M., & Kemelmacher-Shlizerman, I. (2017). Synthesizing obama: learning lip sync from audio. ACM Transactions on Graphics (TOG), 36(4), 95.

[2] Chung, J. S., Jamaludin, A., & Zisserman, A. (2017). You said that?. BMVC 2017.

[3] Chen, L., Li, Z., Maddox, R. K., Duan, Z., & Xu, C. (2018). Lip Movements Generation at a Glance. ECCV 2018.

[4] Liu, Y., Song, G., Shao, J., Jin, X., & Wang, X. (2018, September). Transductive Centroid Projection for Semi-supervised Large-Scale Recognition. ECCV 2018.

[5] Chung, J. S., & Zisserman, A. (2016, November). Out of time: automated lip sync in the wild. In ACCV workshop 2016.

[6] Guo, Y., Zhang, L., Hu, Y., He, X., & Gao, J. (2016, October). Ms-celeb-1m: A dataset and benchmark for large-scale face recognition. ECCV 2016.

#投稿通道#

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？ 答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是 最新論文解讀 ，也可以是 學習心得 或 技術乾貨 。我們的目的只有一個，讓知識真正流動起來。

:memo: 來稿標準：

• 稿件確係個人 原創作品 ，來稿需註明作者個人資訊（姓名+學校/工作單位+學歷/職位+研究方向）

• 如果文章並非首發，請在投稿時提醒並附上所有已釋出連結

• PaperWeekly 預設每篇文章都是首發，均會新增“原創”標誌

:mailbox_with_mail: 投稿方式：

• 方法一：在PaperWeekly知乎專欄頁面點選“投稿”，即可遞交文章

• 方法二：傳送郵件至： [email protected] ，所有文章配圖，請單獨在附件中傳送

• 請留下即時聯絡方式（微信或手機），以便我們在編輯釋出時和作者溝通

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號後臺點選 「交流群」 ，小助手將把你帶入 PaperWeekly 的交流群裡。

加入社群： http:// paperweek.ly

微信公眾號：PaperWeekly

新浪微博：@PaperWeekly