AI:攝影的未來?
當聽到“人工智慧”,“機器學習”或“機器人”這兩個詞時,大多數人傾向於想象一個行走的,說話的機器人機器人,它看起來像科幻電影中的東西,並且在未來很快就會假設一段時間。
對不起人!人工智慧已經在我們身邊多年了,目前居住在你的智慧手機(我們愛你Siri / Google智慧助理!),你的汽車的GPS系統,甚至在你讀完這篇文章之後想一想它會為你推薦哪篇文章。然而,在過去幾年中,沒有哪個域比計算機視覺更受其影響。
隨著技術的出現,以超高解析度觀看視覺上吸引人的影象變得越來越普遍。人們不再需要使用Photoshop和CorelDRAW等工具來增強和改變他們的影象。 AI已經被用於影象增強和操縱的每個方面,以便產生最佳影象。然而,最新出現的想法實際上是使用AIgenerate 影象,綜合。
您可能已經看過的幾乎所有影象都是拍攝的照片,或者由生氣勃勃的人手動建立。可能有數百種手動生成影象的工具,但它們確實需要人才來主持這個過程。但是,想象一下從頭開始繪製的計算機程式,無論你告訴它什麼。微軟的繪圖機器人 可能是第一個也是唯一一個使這成為可能的技術之一。想象一下在不久的將來,你可以在智慧手機上下載應用程式並給它一些指示,例如“我想要一張我站在艾菲爾鐵塔旁邊的影象”。 “(確保你正確地說出來)。
製作這種合成影象的基礎在於生成對抗網路。自從他們在2014年由Ian Goodfellow和他的同伴們發現並推出他們的research paper ,GAN仍然是深度學習中最迷人和最廣泛使用的方面之一。這項技術的無窮無盡的應用,這是所謂的對抗性訓練的核心,不僅包括計算機視覺領域,還包括資料分析,機器人技術和預測建模。
那麼關於GAN的重大事項是什麼?
生成性對抗網路屬於一組生成模型。這意味著他們的工作是在完全自動化的過程中建立或“生成”新資料。
顧名思義,GAN實際上是由兩個相互競爭的個體神經網路組成的adversarial 方式)。一個神經網路,稱為generator ,生成由隨機噪聲建立的新資料例項,而另一個,即discriminator ,評估它們的真實性。換句話說,鑑別器決定它所評論的每個資料例項是否屬於實際訓練資料集。
讓我們說你的任務是製作一幅與一位非常著名的藝術家製作的畫作相同的畫作。不幸的是,你不知道這位藝術家是誰,或者曾經看過他的一幅畫。你的任務是偽造一幅畫並將其作為原件之一出現在拍賣會上。所以,你決定嘗試一下。你需要的只是一些顏料和畫布,對吧?然而,拍賣商不希望人們出售一些隨機的東西,只想要真正的文章,所以他們已經成功並聘請了一名偵探,首先驗證拍賣會上展示的所有物品。幸運的是,偵探有他自己的著名藝術家原畫的樣本,當你呈現你的隨機畫時,他立刻就知道這與原作不同。
他拒絕了,你決定再試一次。但是這一次,你有一些有用的提示,當他評估你的畫布時,偵探會滑倒,畫面應該是什麼樣子。
現在當你再次嘗試運氣時,這幅畫應該會好一點。但偵探仍然不相信並再次拒絕你。因此,你一次又一次地嘗試,每次使用某種形式的反饋來改變繪畫,它會變得越來越好。(我們將假設偵探可以隨著你無休止地回來。)最後,一千次左右的嘗試,你終於能夠想出一些接近完美複製品的東西。當偵探看著他的樣本畫時,他不確定你遞給他的是否是其中之一,甚至是與著名藝術家具有相同風格和筆觸的其他東西。
將相同的思維過程應用於神經網路的組合,GAN的訓練包括以下步驟:
這是PyTorch中實現的基本生成網路。
與所有技術一樣,GAN也有自己獨特的優點和缺點。讓我們總結其中的一些,而不是深入細節。
以下是使用GAN的一些潛在優勢
·GAN並不總是需要標記的例子來訓練。
·它們比其他生成模型(如信念網)更快地生成樣本,因為它們不需要按順序生成樣本中的不同條目。
·它們更容易訓練生成模型,這些模型依賴於蒙特卡羅近似到日誌分割槽函式的梯度。因為蒙特卡羅方法在高維空間中不能很好地工作,所以這種生成模型對於像ImageNet訓練這樣的現實任務來說效果不佳。
·他們沒有引入任何確定性偏見。像變分自動編碼器這樣的某些生成方法會引入確定性偏差,因為它們優化了對數似然的下界,而不是可能性本身。與GAN相比,這似乎導致VAE學習生成模糊樣本。
同樣,還有以下缺點:
·GAN特別難以訓練。這些網路試圖優化的功能是一個基本上沒有封閉形式的損失函式(不像標準丟失函式,如對數丟失或平方誤差)。因此,優化這種損失功能非常困難,並且需要對網路結構和訓練協議進行大量的反覆試驗。
·特別是對於影象生成,沒有適當的措施來評估準確性。由於合成影象看起來可以通過計算機本身,因此實際結果是一個非常主觀的主題,並且取決於人類觀察者。相反,我們有起始分數和Frechet初始距離等功能來衡量他們的表現。
這是有趣的部分。我們可以使用GAN做的所有驚人的東西列表。在其所有潛在用途中,GAN已經在計算機視覺領域中找到了大量應用。
這個概念有幾種實現,例如TAC-GAN - 文字條件輔助分類器生成對抗網路。它們用於從文字描述中合成影象。
GAN在風格轉移等概念中很受歡迎。觀看以下視訊:
它包括使用稱為CGAN(條件生成對抗網路)的特殊型別的GAN進行影象到影象的轉換。繪畫和概念設計從未如此簡單。然而,雖然GAN可以從它的草圖中完成像這個錢包這樣簡單的繪圖,但繪製更復雜的東西,如完美的人臉,目前還不是GAN的強項。事實上,對於某些物體來說,它的結果非常噩夢。
在修復和修復中可以看到生成網路的兩個令人興奮的應用。第一種包括影象內的填充或噪聲,這可能被視為影象修復。例如,給定具有孔或間隙的影象,GAN應該能夠以“可通過的”方式對其進行校正。另一方面,修復涉及使用網路自己的學習來想象影象在其當前邊界之外的外觀。
由於生成網路,面部合成是可能的,其涉及以不同角度生成單個面部影象。這就是為什麼面部識別不需要數百個臉部樣本,但可以使用一個樣本。不僅如此,生成人造面孔也變得可能。 NVIDIA最近使用他們的GAN 2.0使用Celeba Hq資料集生成高清解析度的人造人臉,這是高解析度合成影象生成的第一個例子。
複雜的小方法也變得可能,例如改變面部運動。 GANimation是一個research effort 使用PyTorch將自己定義為“來自單個影象的解剖學感知的面部動畫”。
使用GAN使影象更逼真的另一個例子是簡單地將(非常好的)繪畫變成照片。這是使用稱為CycleGAN的特殊型別的GAN完成的,它使用兩個發生器和兩個鑑別器。我們叫一個發電機G ,並讓它轉換影象X domain to theY 域。另一個發電機被呼叫F ,並轉換影象Y toX 。每個發生器都有一個相應的鑑別器,它試圖將其合成影象與真實影象分開。
機器學習和GAN肯定會在不久的將來對成像和攝影產生巨大影響。目前,該技術能夠從文字輸入生成簡單影象。然而,在可預見的未來,它不僅能夠建立高解析度的精確影象,還能夠建立整個視訊。想象一下,通過簡單地將指令碼輸入GAN生成整部電影。不僅如此,每個人都可以使用簡單的互動式應用程式來建立自己的電影(甚至可以自己主演!)。這項技術會成為真正攝影,指導和表演的終點嗎?
令人印象深刻的技術也意味著可能用於惡意目的。完美假影象還需要一種識別和檢測它們的方法。需要對這種影象生成進行調節。目前,GAN已經被用於製作虛假視訊或“Deepfakes”,這些視訊以負面方式使用,例如生成虛假的名人色情視訊或讓人們在他們不知情的情況下說話。將技術用於合成一般人群可用的音訊和視訊生成的後果是可怕的。
人工影象生成是一種雙刃技術,特別是在人們普遍知道它的時候。生成性對抗網路是一個非常有用和危險的工具。它將重塑技術世界的事實是肯定的,但它將如何這樣做,我們只能思考。