除了製造“逼真假臉”，GANs還有哪些開啟方式？

GAN · 發表 2019-02-19 09:13:00

摘要：文｜腦極體自2014年誕生之日起，GANs（Generative Adversarial Nets，生成對抗網路）就一直是機器學習領域的“流量擔當”，過去的兩年間更是迎來了成果井噴。有人還專門為它建立了一個GAN Zoo，用來收集所有已被命名的GAN，目前已經有500多個...

文｜腦極體

自2014年誕生之日起，GANs（Generative Adversarial Nets，生成對抗網路）就一直是機器學習領域的“流量擔當”，過去的兩年間更是迎來了成果井噴。

有人還專門為它建立了一個GAN Zoo，用來收集所有已被命名的GAN，目前已經有500多個了。欣賞一下這令人咋舌的增長曲線：

儘管GANs的進步是日新月異，但仔細觀察一下就會發現，最廣為人知的吸睛案例，大都集中在娛樂領域，而且不乏吐槽之聲。

比如從去年年底英偉達推出的GAN，合成的人臉幾乎能夠以假亂真，一眾媒體直呼“可怕”。前不久它終於有了自己的名字“StyleGAN”，原始碼也免費公佈，立馬又被愛搞事情的網友送到了風口浪尖上。

來自Uber的軟體工程師Philip Wang利用styleGAN做了一個網站，每次重新整理都會生成一個“現實中不存在”的人臉，逼真得令人毛骨悚然。很快就有網友表示，看到了一張跟自己一樣的臉，然後她就真的不存在了……這個賽博朋克式的神展開，立馬讓大家帶入了被“假臉”支配的恐懼。

當然，除了探討照片是否可信、帶來識別安全問題怎麼辦這些問題之外，或許我們也應該關注一下，為什麼GANs一路進化，大多數研究卻總是聚焦在換臉技術上呢？

這場熱鬧非凡的換臉遊戲背後，恐怕隱藏著一個GANs從演算法走向產業道路上最難突破的瓶頸。

GANs新成員：換臉技術哪家強？

GANs從出道那天開始，“影象生成”就是最能打的一塊招牌。而在各種各樣GANs中，“新晉網紅”styleGAN，絕對是面部生成的技術擔當。

關於英偉達這個新模型，我們去年就第一時間解讀過，在此不再贅述。簡單來說，就是讓生成器模仿風格遷移演算法的方法，學會識別出更高階、也更有意義的特徵變化（比如年齡、臉部細節等等），從而讓影象生成效果更加逼真。

同時，styleGAN的識別效率也大幅度提升，能夠自動分離影象中的變化，開發者能夠以直觀的方式控制合成結果。加上前不久英偉達開放了影象資料集和styleGAN的原始碼，自然吸引了不少技術大佬們躍躍欲試。

有用它“造老婆”的，一位名叫roadrunner01的程式猿，用大量二次元少女的圖片訓練StyleGAN，各種風格的紙片人妹子任由選擇。

當然還有裝逼失敗的。由於準備不充分，靠StyleGAN生成假臉的網站“thispersondoesnotexist”就被群嘲了，因為網友在上面找到了幾乎和自己一樣的臉，就此掀起了一陣“重新整理一次消失一個人類”的都市靈異文學創作熱情。真的是，沒有全球70億人的人臉資料集，就不要攬瓷器活兒啊。

不僅影象能造假，視訊也沒逃過此劫。去年年初，基於GAN的視訊換臉術Deepfakes，就被用來製造了一大堆足以亂真的假視訊，奧巴馬、斯嘉麗·約翰遜、神奇女俠蓋爾加朵、楊冪、劉亦菲等中外名人紛紛成了假視訊的主角。

儘管GANs的進展很令人欣喜，但一個尷尬而無奈的現實也就此清晰地呈現在了它的進化之路上——絕大多數成果都聚焦在影象生成上，並且常常以娛樂、誇張的形式出現，“逆天”“以假亂真”“被色情”等新聞不絕於耳。

人臉生成的效果太好、門檻太低，正在挑戰著公眾的辨別能力，讓大眾對網路內容和影象證據的信任進一步坍塌，而那些大眾期待的、GANs真正改變產業和生活的效用，卻彷彿集體失聲了。怎麼回事？

除了“逼真假臉”，GANs還有哪些開啟方式？

首先要替GANs澄清一下，作為一個能自我判別和推倒出新樣本的生成演算法，它能應用的訓練場景和商業前景是非常大的。而且，正在勤勤懇懇地“為人民服務”，為不少產業的進化添磚加瓦。比如：

1.影視創作

創作是最考驗想象力和藝術張力的地方，也是越來越勞動密集型的產業之一。在工業製作體系成熟的好萊塢，一部電影從編劇到營銷團隊往往多大數千人。而GAN恰恰可以改變這樣昂貴而高風險的生產過程。

專案前期，GAN可以利用文字描述生成相匹配的逼真影象，快速打破次元壁，高效而還原地生成電影指令碼，避免因為畫風跑偏而收穫原著粉贈送的“人蔘萬兩”；

在後期剪輯上，IBM正在利用以GAN為基礎的AI演算法，去識別視訊中的臺詞和場景的意義，根據角色的心情、劇情的複雜程度以及前後片段的關聯程度，快速生成電影宣傳片，大幅壓縮了製作成本和時間週期。

2.影象修復

現實中，我們常常會面對一些歷史原因而辨識體驗較差的影象，比如被損毀的文物殘片、消失了一半的古建築、上個世紀創作的遊戲或電影，對它們進行修復或復刻，往往只能依靠某些專精技術人員日以繼夜的努力。現在在GAN的幫助下，可以更高效地還原和處理這些瑕疵部分。

比如在英偉達的一篇論文中，就闡述了它是如何用GAN訓練出的“影象翻譯網路”（Partial Convolutions）為影象上的建築和場景補上缺失部分的。

一些超經典的遊戲，比如《重返德軍總部》、《上古卷軸 III》、《馬克思·佩恩》等，都陸續被 ESRGAN（增強型超解析度生成對抗網路）進行了重置。畫面變得更加精美的同時，還忠實地保留了原來的藝術風格，以後玩家和劇迷們再也不用擔心心愛的作品被人工改得面目全非了。

《馬克思·佩恩》原版截圖VSESRGAN重製後的截圖

3.個性時尚導師

除了還原，GANs還具備超強的想象力，可以通過多元樣本進行判斷與生成，從而輸出個性化又風格統一的方案。比如亞馬遜和阿里巴巴都在打造的“時尚人工智慧”（FashionAI），就是利用GANs實現的。載入了GANs的電商推薦系統不僅能夠向用戶提供個性化的時尚搭配建議，而且還能夠將二維商品圖轉化成3D試穿效果圖，從而幫助商家進行服裝銷售。

研究人員利用亞馬遜商城使用者在六種商品（男女款式的鞋類，上裝，下裝）的購買資料來分析其商品偏好，然後訓練出相應的GAN模型。阿里巴巴的新零售線下店，也是採用了該技術來向店內顧客展示和推薦商品。

4.新成分預測

除了這些觸手可及的現實應用，GANs在產業端更值得期待的價值，還體現在新藥研發和材料學領域，比如用來生成新的藥學分子結構和合成新材料等等。

有資料統計，每種新藥研發大約需要10年時間。期間，製藥公司需要設計合成成千上萬的分子，然後一一進行生物學測試，成功率往往卻只有2萬至3萬分之一。有了GANs，就能相關資訊對分子結構進行高精度的樣本預測，加快實驗進度的同時，全新的未知成分顯然更有可能幫助人類攻克懸而未決的醫學難題。

因此，儘管這一應用目前還停留在創意階段，但其背後的商業想象空間卻格外巨大。

目前來看，GANs正在一群產業巨頭們的支援下，開啟了更廣闊的應用場景探索之路。這場技術拉力賽，並不只有奇聞異事，而是在真槍實戰中打磨出了金子般的光芒。

為什麼出風頭的總是“變臉”？

既然GANs已經斬獲了這麼多成績，為什麼一提起來，大家想到的總是“照騙”“視騙”這些販賣焦慮的新聞呢？那些幹實事的模型不配有姓名嗎？

客觀來說，一項新技術要證明自己的強大之處，用一些“逆天”“超越人類想象”之類誇張的效果來迅速被大眾所認知，這不難理解。

但GANs之所以被這些“造假”新聞淹沒，還要感謝將股價押注在AI身上的英偉達不斷造勢，而“以假亂真”“令人害怕”的新聞背後，更關係著媒體們無數爆款文的績效，在這樣的雙重推動下，“只知換臉，無論其他”的GANs自然愈發深入人心了。

而那些下沉在產業端的GANs應用，又為何都如此“謹小慎微”、罕見發聲呢？一方面GANs自身還有一些缺陷尚待解決，導致其成果並不穩定。

比如模式坍塌 (Mode collapse)問題，在複雜且多模態的自然資料集中，生成器只能從相似樣本的模式集中生成樣本，這將直接限制結果的多樣性，從而影響使用。

另外，在GANs相關訓練中，很難精準地判斷合適能生成高質量的作品，現實中顯然不可能投入無限多的時間和資源去等待一個未知的訓練結果。因此，今天說到的應用案例，都更具示範價值和探索意義，距離大規模應用還有一段路要走。對於企業來說，貿然推出不成熟的產品反而會引發群嘲，自然更願意低調行事、關門打磨產品了。

更重要的是，GANs需要大量商業資料的投喂，才能發揮出實驗室類似的效果。而無論是資料成本還是算力成本，都決定了GANs所代表的便利和可能性，目前只對一些產業巨頭有用。

這也是為什麼，除了學界和個人開發者偶爾搞點“聳人聽聞”的大新聞，GANs至今還沒能在現實領域中遍地開花。

不過，娛樂往往是速朽的，“造假”恐怖事件玩得多了，大眾也會產生審美疲勞，最終很可能將一個特殊領域的潛在危險，變成對整個技術的泛在質疑。不要讓一切值得思考的，都成為娛樂的附庸。

除了製造“逼真假臉”，GANs還有哪些開啟方式？

GANs新成員：換臉技術哪家強？

除了“逼真假臉”，GANs還有哪些開啟方式？

為什麼出風頭的總是“變臉”？

更多精彩內容，關注鈦媒體微訊號（ID：taimeiti），或者下載鈦媒體App

您可能也會喜歡…