Facebook 家用攝像頭“Portal”:向好萊塢學習
編者按:Facebook的Portal系列從好萊塢最好的攝影師那裡學了很多拍攝技巧,雖然Portal最終可能沒那麼火,但其背後的AI技術和與藝術結合的方式,必將引領一股潮流。本文譯自Fastcompany原標題為" Facebook’s Portal learned its video skills from some of Hollywood’s best cameramen"的文章,希望對您有所啟發。
Facebook的Portal系列家用攝像頭雖然隱私問題飽受詬病,但不可否認,它有一個功能確實炫酷:它能夠實現畫面的智慧拍攝,並在視訊通話時跟蹤房間內的動作。與智慧手機視訊通話相比,這是一個巨大的進步。在智慧手機視訊通話中,攝像頭的位置完全由兩端的人來決定,所以畫面經常會不停地抖動、有時不得不看著對方的鼻孔或者大腦門兒,有時畫面裡還會突然就找不到人了。而Portal更像是一個獨立的人像攝影師,精心地構圖,流暢的切換場景,可以對鏡頭前的人們進行追蹤,使畫面看起來相當自然。
Portal運用了很多先進的計算機視覺AI技術來才創造出這種體驗,其中很多都是在最近幾年開發出來的。很多以往的經驗和專業知識都被用於訓練執行Portal攝像頭的人工智慧,其神經網路層中嵌入了大量的電影行業知識。例如,它知道什麼是“牛仔鏡頭”(從大腿中部向上的鏡頭,不僅能看到拍攝物件的臉,還能看到他在槍套裡裝的東西),它知道何時以及如何關注鏡頭前的人們,並且忽略他們周圍的環境。我與Facebook的三位工程師進行了交談,這三個人都密切參與了Portal的開發,這是Facebook作為一個社交網路公司首次涉足硬體領域。
不僅僅是面部識別
Portal的關鍵創新是一種輕量級的計算機視覺模型,它不僅能識別人臉,還能識別人體行為。
在消費者技術中,頭部和麵部檢測司空見慣。例如,消費級相機使用計算機視覺來檢測人臉或頭部以實現自動對焦,但是這些簡單的系統並不能收集到很多關於人的身體姿勢的資訊。
Portal系列的工程師埃裡克·黃(Eric Hwang)說:“如果我們只知道你在哪裡,而不知道你的身體方向,比方說,如果你躺在沙發上,我們幾乎不可能找到一個好的鏡頭或者特寫位置。”工程師們需要一種計算機視覺模型,能夠可靠地識別人的頭部、身體和四肢,能夠將在廚房做飯的人和另一群圍坐在桌前的人加以區分,以不同的方式構圖並進行跟蹤拍攝。
Facebook的人工智慧研究團隊已經在2017年4月開發出了一種名為Mask R-CNN(簡稱“區域卷積神經網路”)的計算機視覺模型,可以識別人體運動的二維影象。但該模型是為在桌面視覺處理器(GPU)上執行而設計的,而Facebook希望能在裝置內的一個較小的移動晶片上執行Portal的計算機視覺模型。有想法認為,這種方式必須不斷地呼叫執行該模型的雲伺服器,肯定會造成視訊通話中的延時狀況。
在Portal系列兩年關鍵的開發週期中,大幅度縮小R-CNN模型成為工程師們必須克服的最大挑戰。來自Facebook的人工智慧團隊也參與進來,最終找到了一個解決方案。整個過程經過了不斷地精簡、優化和權衡。最終的成果是一個叫做Mask R-CNN2Go的新模型。它只有幾兆位元組大小,小到足以在高通的驍龍神經處理引擎上執行。Facebook的工程師說,為了優化R-CNN2Go的處理器,他們將與高通進行密切的合作。
在實踐中,Portal的微型計算機視覺模型不斷地分析攝像機每秒拍攝的30幀中的鏡頭,以尋找任何可能成為視訊拍攝物件的內容。它輸出頭部、身體和四肢的點資料,然後報告視訊鏡頭的構圖。這個模型最主要的工作之一是知道什麼時候該忽略無關緊要的物件,例如掛在牆上的相框裡的一張人臉。它必須知道如何忽略一個突然離開房間的人,或者把注意力集中在前方說話的人身上,而忽略那個從後面路過的人。
所有這些細節都會讓你的照片看起來更加自然直觀。“所以當你在視訊電話中四處走動時,對方會覺得你就在他們身邊,”工程師埃裡克·黃(Eric Hwang)說。
Portal攝像頭背後的計算機視覺模型經過了數百萬個開放原始碼影象的訓練,以教會它識別各種人和姿勢。Facebook還提供了一些自己的培訓資料,因為開放原始碼材料中沒有足夠的家庭(視訊通話經常發生的地方)場景影象。
請好萊塢大師來幫忙
但即使是Facebook工程師教會Portal根據2D姿勢資料進行縮放、平移和跟蹤相關主題,它仍然不太正確。在談到早期原型時,他們表示,這款相機可以以一種合乎邏輯的方式拍攝周圍的人,但它的動作仍然感覺“又僵硬又機械”。工程師們知道他們必須在科學中加入一些藝術,於是打電話給好萊塢。
Facebook的工程師請來了攝像師、電影攝影師和紀錄片製片人,學習專業人士在拍攝和跟蹤動作時使用的可靠技術。除了這些諮詢,Facebook的工程師們還做了一系列實驗,來了解攝像頭操作者將如何應對Portal在家庭環境中實時拍攝時面臨的一些特殊挑戰。他們要求操作者從奇怪或尷尬的位置隨機拍攝一些場景,看看他們是如何處理的——他們關注的是什麼,以及他們是如何移動相機的。Facebook的工作人員隨後將他們看到的攝像方法歸結為一系列可以引入Portal演算法的技術。
“人們傾向於在傳統的一對一的頭部和軀幹拍攝的基礎上構建大量的框架。” Facebook硬體副總裁拉法·卡馬戈(Rafa Camargo)說,“我認為團隊能夠讓相機以複雜的方式執行,這需要大量的技術,以及理解人類跟蹤拍攝時的行為方式,並在同一時間進行平移和縮放……”卡馬戈是谷歌ATAP集團的工程主管,2016年8月,他被招募接管 Facebook 的Portal團隊。
這些技術可能是合理的,也是更復雜的,但它們之所以賞心悅目,部分原因可能是它們產生了一種似曾相識的效果。“這感覺很自然,因為你習慣在電視或電影中看到的框架實際上就是這樣做的,隨著時間的推移,我們已經知道,這對人類大腦的影響很大,”卡馬戈告訴我。
Facebook提供了一個基本的款的Portal(199美元),只能在橫向模式下拍攝,而更昂貴的Portal Plus(349美元)可以在橫向和縱向模式下拍攝。Portal Plus的豎屏模式旨在用於更緊密的一對一視訊對話。工程師們意識到,這是一種與景觀截然不同的體驗,需要一套不同的攝像技術。照相館的工作人員通常採用室內模式拍攝,電影攝影師通常採用景觀模式,但Facebook要求他們拍攝各種人像模式的場景,看看他們做出了什麼樣的選擇。例如,他們發現在人像模式下,操作者的構圖是基於鏡頭前的人,而不是背景。這些經驗教訓也被整合到Portal Plus的縱向模式操作演算法中。
他們告訴我,工程師們仍然需要對如何拍攝某些場景做出一些判斷。比如一家人正在和奶奶打視訊電話,一個孩子從媽媽的腿上跳起來,迅速跑到房間的一個小角落。此時攝像頭應該跟隨孩子還是加寬鏡頭以保持孩子在畫面中?
“在決定智慧相機應該做什麼時,實際上有相當多的主觀性。” 黃哲倫告訴我,“有些人會說,如果孩子動作太快,也許你不想讓他出現在鏡頭裡,但我們的研究表明,人們(尤其是奶奶們)用視訊聊天大多都只為了見見鏡頭另一邊的人,尤其是孩子。”所以Portal 團隊為使用者留下了手動控制權,他們既可以用自動模式,跟拍所有進入鏡頭的人,也可以選擇專注在特定人身上,忽略其他人。
未來大有前景
谷歌、Facebook和亞馬遜等大型科技公司都知道,攝像頭將在未來的計算領域發揮巨大的作用,每家公司都在該領域大力投資佈局。繼個人電腦(PC)和智慧手機增強現實(AR)或者是相機檢視中數字內容與現實世界內容的混合之後,這款相機將成為下一個偉大的計算機介面的核心。目前,這種相機鏡頭主要用在手機上,但當AR開始向其他裝置(如眼鏡或者像Portal這樣的家用攝像機)轉移時,它將變得有趣得多。Facebook已經將自己的Spark AR平臺使用到Portal的故事時間,為互動閱讀功能添加了AR效果。
AR最酷的應用程式可能還沒有被想到,但高效、準確的面部和身體跟蹤可能是其中的重要組成部分。Facebook目前正在手機上測試Mask R-CNN2Go模型,這可能會為一些有趣的體驗鋪平道路。使用者可以將自己身體的移動影象投射到增強現實空間中,甚至可以將其裝扮成數字配件,或者用一個數字面具遮住臉,人工智慧可以讓使用者通過身體動作來控制手機遊戲。
在短期內,Facebook的智慧相機技術將開始在其他領域出現。目前它只在Facebook Messenger(桌面視窗客戶端)上執行,但工程師們已經在開發WhatsApp上執行的版本。Portal硬體可能最終不會大受歡迎,但其內部的人工智慧可能有很大的應用前景。
推薦閱讀: 2019年科技界即將發生的七大改變
編譯組出品。譯者:Jane,編輯:郝鵬程。