1. 程式人生 > >AI手機攝影的三個流派,其中藏了個假的

AI手機攝影的三個流派,其中藏了個假的

假AI

在咱們身邊,有一個鐵打的定律,那就是一個東西或者名稱火了,馬上就會群起而模仿之。久而久之,這種“微創新”甚至“不用創新”的方式,被國人冠名為“山寨文化”。

互聯網領域則更是如此,團購火了能百團大戰,O2O火了能全面“開O”,共享經濟火了,楞是連男友女友都能“共享”。

山寨得多,就連技術都可以山寨。比如說,去年手機AI剛剛嶄露頭角,到了今年,全面屏等技術普及之後,AI似乎就成為了各手機廠商普遍希望蹭的熱點。

但問題來了,我們知道一塊AI移動芯片要承載非常復雜的深度架構,需要幾年來部署開發;下圍棋的AlphaGo要匯集幾十位頂尖科學家的心血,幾年叠代才能正式超越人類。

代表了機器智慧向人類接近的AI,難道真的有那麽容易嗎?

去年音箱大戰的時候,有的跟風山寨產品甚至隨便搭載個對話系統,連喚醒詞都不換就披掛上陣。雖然對話交互這種形式也可以叫做“AI”,但這樣的產品真的一點價值都沒有。買到的用戶只能驚呼:遇到個假的人工智能。

今年,似乎輪到了手機AI遭遇這種奇遇。各廠商紛紛投入AI懷抱成為流行時,假的AI手機似乎也悄然來到了我們身邊。

誠然,AI是一個泛概念,不同等級、不同完成度的技術孕育其中。但AI也不應該是一個永遠跌落,毫無底線的技術。如果沾邊就算的話,茶杯上加個計算合適水溫的算法豈不也成了AI設備——問題是這事人類自己就能感覺出來啊。

所以說,AI的真與假,是建立在能給使用者帶來哪些實際價值基礎上的。有無法被其他技術解決方案替代的價值,或許才是消費者需要的真AI。也只有如此,AI作為一種技術才能持久。

AI手機的真與假,或許也應該有個邊界。本尼迪克特·安德森在著名的《想象共同體》中,把極限特征作為框定族群的核心要素。AI手機帶給消費者的價值,應該有哪些底線或者說邊界呢?

今天開始,我們會用幾篇文章,跟大家聊一聊手機AI背後的真實、誇張與謊言。攝影、遊戲、視頻這些我們耳熟能詳的功能背後,一個到底什麽是真AI手機的話題正在逐步清晰起來。

技術分享圖片

而這個話題首當其沖的,當然是AI攝影。

我們知道,識別和感知物理世界, 是AI的主要能力。利用AI算法進行影像理解,構成了AI技術的核心組成部分之一——機器視覺。而移植到手機上,AI與攝像頭結合,帶來攝影體驗改變也就變成了手機AI的核心價值。

進入2018的春天,AI攝影近乎成為了每一款新上市手機的關鍵詞。但其實AI是一個非常寬泛的概念,包括林林種種數十個技術體系。

就像同樣是邀請朋友去看“水景”,去馬爾代夫和去小區健身房看遊泳池是絕不一樣的。AI也是如此,耗資巨萬的AlphaGo和成本幾十塊錢的語音交互音箱,可能都可以算到AI的體系,但價值之差等若霄壤。

在手機攝影這個領域也是如此,如何實現AI,如何讓AI被消費者感受到,目前出現了完全不同的一些思路。今天的AI手機攝影,可以分為三個流派。

流派一:用芯片提供AI攝影通用加速

去年,華為發布了搭載NPU的麒麟970芯片開始,之後蘋果也公開了A11仿生神經芯片。從後來華為、榮耀的相關搭載產品,以及蘋果iPhoneX來看,基於AI專用芯片來實現手機的AI攝影功能,是這類手機的核心AI能力。

這可以看做是手機AI攝影的第一個流派:芯片派。

華為和榮耀搭載的麒麟970芯片,是世界上首款在CPU、GPU兩個通用處理單元之外,加入了AI處理單元NPU(Neural network Processing Unit,神經網絡單元)的移動芯片。由於利用了深度學習處理技術,NPU可以比其他處理模式更快地處理卷積、遷移等深度學習任務,也就可以達成更快的AI任務處理能力。根據數據顯示,處理相同的AI任務,麒麟970的異構計算架構擁有約 50 倍能效和 25 倍性能的提升,圖像識別速度可達到約2000張/分鐘,這個記錄迄今沒有其他芯片打破。

在這之後,蘋果也在發布iPhone X時發布了A11芯片,兩家不約而同采取了相似的策略。A11集成了一個專用於處理AI任務的運算單元“神經網絡引擎(Neural Engine)”,開啟了iPhoneX的AI之路。

從底層芯片開始一層層疊加AI處理能力。有兩個層面的價值,一是在硬件裏完成終端AI計算,可以保證攝像任務的實時性和安全性。畢竟攝影任務上傳到雲端計算有卡頓可能,斷網後無法工作,圖片上傳服務器面臨的數據危險也是顯而易見的。

另一方面,芯片派容易被忽略的價值在於對AI攝影任務進行通用加速。比如有的玩法要人臉識別,有的直播要讀取動作指令,有的濾鏡要搞空間處理,把這些全擠在CPU、GPU上手機馬上會進入龜速狀態,用雲處理無法支持不說,更喪失了實時體驗。APP的攝影需求有千千萬,目前來看只有在終端有AI處理單元才能滿足這些“未知需求”。

說到底,基於芯片的AI攝影到底有哪些體驗呢?

華為Mate10、榮耀V10以及iPhone X的能力數據說明,AI攝影可以體現在識別、動作捕捉、光影分析、AR等幾個方面。

比如iPhoneX利用A11仿生芯片,可以與結構光傳感器、深度陀螺儀進行結合,處理人臉、AR等任務,並可以快速處理圖像識別。

技術分享圖片

而借助麒麟970芯片帶來的NPU專項處理能力,榮耀V10、華為mate10等產品可以實現復雜的AI任務加速,從而完成場景識別拍照模式、圖像增強與深度處理、AI肖像處理、AI動態捕捉、AI夜拍等任務。包括當下較為少見的圖像語義分割功能,通過強計算能力實現對取景器內的畫面進行分割處理,進一步實現精準的智慧分區圖像處理,相較圖像處理App更接近修圖師的專業效果。

接下來,榮耀、華為的新產品,以及新一代iPhone必然會繼續這條路。而產品和技術先發優勢,似乎也在催生AI體驗的升級。比如榮耀最早從magic時代就開始積累AI手機的產品經驗與訓練數據,兩年的時間自然形成了對新產品的供養體系。

這個流派的優點在於,用戶可以體驗到AI的多樣化和增長性,手機裏不是一成不變的AI體驗,而是可以隨著生態和技術的發展不斷進化。問題是芯片流的門檻很高,需要研發的巨大投入和長達幾年的等待周期。

流派二:基於攝像頭搞AI

第二個AI手機攝影流派,不能不提到讓人愛恨糾葛的谷歌。

眾所周知,谷歌是不大力押註硬件技術的,而是在戰略上選擇強打AI算法優勢和雲計算強項。這個被谷歌稱為AI First的戰略,已經體現在谷歌各種穿戴、家庭以及移動設備上,其中pixel系列手機也不例外。

去年推出的谷歌pixel 2,給出了一個非常特別的AI攝影模式,它沒有專屬的AI芯片,卻利用算法和AI圖像處理單元完成了動態模糊攝影等攝影能力的補償。甚至把攝像頭切割成非常復雜的成像單元,來供給算法端實現對景深、空間感的AI計算。

這種“吃力不討好”的方式,大概也只有谷歌會做。背後的核心原因,一方面是谷歌希望用戶適應所有數據都上傳到谷歌雲的生活方式,另一方面也是希望加強AI優勢的商業化通道。

技術分享圖片

谷歌手機的AI秘訣,不在底層芯片裏,而是在攝像頭區域裏藏了一顆專用圖像處理協處理器,即ImageProcessing Unit (IPU),專門用來結合雲計算與算法集群處理AI拍照與視頻任務。

但這樣做的問題是圖像任務會在專門的部件裏處理,並且極大程度依賴雲計算。但確實一定程度上繞開了開發芯片的難度,彌補了谷歌硬件上的弱勢。這種劍走偏鋒,讓手機各部件自行AI的思路,有賴於谷歌強絕天下的算法積累,以及雲計算處理能力。缺點是:除了谷歌大概沒有人可以嘗試。

流派三:搞個帶算法的APP算了

在手機AI概念火熱起來之後,國內手機廠商似乎很快就按耐不住了。雨後春筍版的“AI攝影”字樣應運而生,於是也催生了AI攝影的第三個流派:APP派。

所謂APP派很好理解,想一想我們用的各種美顏拍照相機、動態美顏錄制應用等等,這些能力,在今天基本都要用到AI算法來實現更好的效果。比如美圖秀秀旗下的美圖相機,就是在APP裏集成了機器學習算法,用來識別拍攝人像和背景、光源間的關系,從而把人像分離出來。

假如把這種基於算法的“AI應用”或者“AI濾鏡”,直接搭載到產品攝像頭裏,說這是AI攝影功能,行不行呢?

好像,大概,可能,也可以吧?

問題是缺少芯片的支持,算法方面也沒有技術優勢,用戶拿到的AI體驗可能存疑。

前不久,紅米Note5主打了所謂“千元AI雙攝”打開了這場關於AI的宣傳戰序幕。隨後vivo X21也以AI攝影能力作為宣傳。從產品說明中可見,這兩部手機的解決方案基本就是上文所說的“AI濾鏡”模式:開發具有一定識別特性的攝影功能,然後在不卡的前提下部署在手機中就可以了。

剛剛發布的小米Mix2S,本質上也是這種解決方案。小米提出的智能場景識別,即在利用圖像數據訓練處手機對不同景物的識別能力,再在手機相機中初始化搭載“美圖相機”之類APP的算法功能,針對不同拍照對象進行針對性修圖。

比如機器學習進行人臉和人體輪廓識別,自動進行背景虛化和摳圖,以及自動疊加多張照片進行防抖等等。

這類手機的問題,在於芯片和攝像頭中缺乏專項處理AI任務的單元,一旦運行高負載的AI任務就需要呼喚雲端。而雲端的相應速度不夠,又導致AI攝影的識別率和準確率下降。

舉個例子,處理夜拍效果時,手機需要運用光源捕捉、空間捕捉等AI算法,從而實現夜晚中清晰拍照和光源還原。

而這類APP派假如要加載夜拍類的AI應用就有點尷尬了。因為這類深度學習的負載很大,用傳統移動芯片+雲計算來跑這類AI拍攝任務,會出現黑夜一層層褪去,半天無法對焦。拍照之後又要上傳到雲端進行很長時間“處理”,精準度和體驗都很差。而一旦沒網就更麻煩了。所以我們能看到的是,目前大部分國產手機宣傳所謂的AI拍照時,都絕口不提夜拍、動作捕捉等復雜任務。

於是,這個流派中消費者看到的宣傳材料裏的“AI拍照”,也就變成了整個手機的全部AI能力。其實這些能力弄個不算太差的手機下載個相關APP就可以實現了,單獨作為一款產品的主要宣傳材料就有點奇怪。

最後,讓我們總結一下三個流派的手機AI攝影,到底帶給消費者怎樣的差別。

芯片派:可以通過終端AI加速,來實現比較高等級的AI攝影任務,比如快速美化、物體識別方案拍照等等。而且通用加速能力和平臺接口下放給開發者,更多的拍照應用,比如夜拍、動作抓拍、人臉替換、體態命令等等,必然會陸續加入到用戶的手機中。用戶相當於購買了持續升級的AI拍照設備。

攝像頭派:基於攝像頭的AI芯片,應該可以加入更多AI玩法,但是除了谷歌之外,其他開發者是絕對碰不到的。

APP派:抱歉,除了廣告語上的1~2個基礎AI功能外,別的就不用想了。

三個流派背後手機AI的孰真孰假,也就一目了然了。接下來一篇,我們會聊聊手機遊戲上的真假AI。


AI手機攝影的三個流派,其中藏了個假的