AI手機攝影的三個流派，其中藏了個假的

阿新 • • 發佈：2018-03-27

假AI

在咱們身邊，有一個鐵打的定律，那就是一個東西或者名稱火了，馬上就會群起而模仿之。久而久之，這種“微創新”甚至“不用創新”的方式，被國人冠名為“山寨文化”。

互聯網領域則更是如此，團購火了能百團大戰，O2O火了能全面“開O”，共享經濟火了，楞是連男友女友都能“共享”。

山寨得多，就連技術都可以山寨。比如說，去年手機AI剛剛嶄露頭角，到了今年，全面屏等技術普及之後，AI似乎就成為了各手機廠商普遍希望蹭的熱點。

但問題來了，我們知道一塊AI移動芯片要承載非常復雜的深度架構，需要幾年來部署開發；下圍棋的AlphaGo要匯集幾十位頂尖科學家的心血，幾年叠代才能正式超越人類。

代表了機器智慧向人類接近的AI，難道真的有那麽容易嗎？

去年音箱大戰的時候，有的跟風山寨產品甚至隨便搭載個對話系統，連喚醒詞都不換就披掛上陣。雖然對話交互這種形式也可以叫做“AI”，但這樣的產品真的一點價值都沒有。買到的用戶只能驚呼：遇到個假的人工智能。

今年，似乎輪到了手機AI遭遇這種奇遇。各廠商紛紛投入AI懷抱成為流行時,假的AI手機似乎也悄然來到了我們身邊。

誠然，AI是一個泛概念，不同等級、不同完成度的技術孕育其中。但AI也不應該是一個永遠跌落，毫無底線的技術。如果沾邊就算的話，茶杯上加個計算合適水溫的算法豈不也成了AI設備——問題是這事人類自己就能感覺出來啊。

所以說，AI的真與假，是建立在能給使用者帶來哪些實際價值基礎上的。有無法被其他技術解決方案替代的價值，或許才是消費者需要的真AI。也只有如此，AI作為一種技術才能持久。

AI手機的真與假，或許也應該有個邊界。本尼迪克特·安德森在著名的《想象共同體》中，把極限特征作為框定族群的核心要素。AI手機帶給消費者的價值，應該有哪些底線或者說邊界呢?

今天開始，我們會用幾篇文章，跟大家聊一聊手機AI背後的真實、誇張與謊言。攝影、遊戲、視頻這些我們耳熟能詳的功能背後，一個到底什麽是真AI手機的話題正在逐步清晰起來。

技術分享圖片

而這個話題首當其沖的，當然是AI攝影。

我們知道，識別和感知物理世界，是AI的主要能力。利用AI算法進行影像理解，構成了AI技術的核心組成部分之一——機器視覺。而移植到手機上，AI與攝像頭結合，帶來攝影體驗改變也就變成了手機AI的核心價值。

進入2018的春天，AI攝影近乎成為了每一款新上市手機的關鍵詞。但其實AI是一個非常寬泛的概念，包括林林種種數十個技術體系。

就像同樣是邀請朋友去看“水景”，去馬爾代夫和去小區健身房看遊泳池是絕不一樣的。AI也是如此，耗資巨萬的AlphaGo和成本幾十塊錢的語音交互音箱，可能都可以算到AI的體系，但價值之差等若霄壤。

在手機攝影這個領域也是如此，如何實現AI，如何讓AI被消費者感受到，目前出現了完全不同的一些思路。今天的AI手機攝影，可以分為三個流派。

流派一：用芯片提供AI攝影通用加速

去年，華為發布了搭載NPU的麒麟970芯片開始，之後蘋果也公開了A11仿生神經芯片。從後來華為、榮耀的相關搭載產品，以及蘋果iPhoneX來看，基於AI專用芯片來實現手機的AI攝影功能，是這類手機的核心AI能力。

這可以看做是手機AI攝影的第一個流派：芯片派。

華為和榮耀搭載的麒麟970芯片，是世界上首款在CPU、GPU兩個通用處理單元之外，加入了AI處理單元NPU（Neural network Processing Unit，神經網絡單元）的移動芯片。由於利用了深度學習處理技術，NPU可以比其他處理模式更快地處理卷積、遷移等深度學習任務，也就可以達成更快的AI任務處理能力。根據數據顯示，處理相同的AI任務，麒麟970的異構計算架構擁有約 50 倍能效和 25 倍性能的提升，圖像識別速度可達到約2000張/分鐘，這個記錄迄今沒有其他芯片打破。

在這之後，蘋果也在發布iPhone X時發布了A11芯片，兩家不約而同采取了相似的策略。A11集成了一個專用於處理AI任務的運算單元“神經網絡引擎(Neural Engine)”，開啟了iPhoneX的AI之路。

從底層芯片開始一層層疊加AI處理能力。有兩個層面的價值，一是在硬件裏完成終端AI計算，可以保證攝像任務的實時性和安全性。畢竟攝影任務上傳到雲端計算有卡頓可能，斷網後無法工作，圖片上傳服務器面臨的數據危險也是顯而易見的。

另一方面，芯片派容易被忽略的價值在於對AI攝影任務進行通用加速。比如有的玩法要人臉識別，有的直播要讀取動作指令，有的濾鏡要搞空間處理，把這些全擠在CPU、GPU上手機馬上會進入龜速狀態，用雲處理無法支持不說，更喪失了實時體驗。APP的攝影需求有千千萬，目前來看只有在終端有AI處理單元才能滿足這些“未知需求”。

說到底，基於芯片的AI攝影到底有哪些體驗呢？

華為Mate10、榮耀V10以及iPhone X的能力數據說明，AI攝影可以體現在識別、動作捕捉、光影分析、AR等幾個方面。

比如iPhoneX利用A11仿生芯片，可以與結構光傳感器、深度陀螺儀進行結合，處理人臉、AR等任務，並可以快速處理圖像識別。

技術分享圖片

而借助麒麟970芯片帶來的NPU專項處理能力，榮耀V10、華為mate10等產品可以實現復雜的AI任務加速，從而完成場景識別拍照模式、圖像增強與深度處理、AI肖像處理、AI動態捕捉、AI夜拍等任務。包括當下較為少見的圖像語義分割功能，通過強計算能力實現對取景器內的畫面進行分割處理，進一步實現精準的智慧分區圖像處理，相較圖像處理App更接近修圖師的專業效果。

接下來，榮耀、華為的新產品，以及新一代iPhone必然會繼續這條路。而產品和技術先發優勢，似乎也在催生AI體驗的升級。比如榮耀最早從magic時代就開始積累AI手機的產品經驗與訓練數據，兩年的時間自然形成了對新產品的供養體系。

這個流派的優點在於，用戶可以體驗到AI的多樣化和增長性，手機裏不是一成不變的AI體驗，而是可以隨著生態和技術的發展不斷進化。問題是芯片流的門檻很高，需要研發的巨大投入和長達幾年的等待周期。

流派二：基於攝像頭搞AI

第二個AI手機攝影流派，不能不提到讓人愛恨糾葛的谷歌。

眾所周知，谷歌是不大力押註硬件技術的，而是在戰略上選擇強打AI算法優勢和雲計算強項。這個被谷歌稱為AI First的戰略，已經體現在谷歌各種穿戴、家庭以及移動設備上，其中pixel系列手機也不例外。

去年推出的谷歌pixel 2，給出了一個非常特別的AI攝影模式，它沒有專屬的AI芯片，卻利用算法和AI圖像處理單元完成了動態模糊攝影等攝影能力的補償。甚至把攝像頭切割成非常復雜的成像單元，來供給算法端實現對景深、空間感的AI計算。

這種“吃力不討好”的方式，大概也只有谷歌會做。背後的核心原因，一方面是谷歌希望用戶適應所有數據都上傳到谷歌雲的生活方式，另一方面也是希望加強AI優勢的商業化通道。

技術分享圖片

谷歌手機的AI秘訣，不在底層芯片裏，而是在攝像頭區域裏藏了一顆專用圖像處理協處理器，即ImageProcessing Unit （IPU），專門用來結合雲計算與算法集群處理AI拍照與視頻任務。

但這樣做的問題是圖像任務會在專門的部件裏處理，並且極大程度依賴雲計算。但確實一定程度上繞開了開發芯片的難度，彌補了谷歌硬件上的弱勢。這種劍走偏鋒，讓手機各部件自行AI的思路，有賴於谷歌強絕天下的算法積累，以及雲計算處理能力。缺點是：除了谷歌大概沒有人可以嘗試。

流派三：搞個帶算法的APP算了

在手機AI概念火熱起來之後，國內手機廠商似乎很快就按耐不住了。雨後春筍版的“AI攝影”字樣應運而生，於是也催生了AI攝影的第三個流派：APP派。

所謂APP派很好理解，想一想我們用的各種美顏拍照相機、動態美顏錄制應用等等，這些能力，在今天基本都要用到AI算法來實現更好的效果。比如美圖秀秀旗下的美圖相機，就是在APP裏集成了機器學習算法，用來識別拍攝人像和背景、光源間的關系，從而把人像分離出來。

假如把這種基於算法的“AI應用”或者“AI濾鏡”，直接搭載到產品攝像頭裏，說這是AI攝影功能，行不行呢？

好像，大概，可能，也可以吧？

問題是缺少芯片的支持，算法方面也沒有技術優勢，用戶拿到的AI體驗可能存疑。

前不久，紅米Note5主打了所謂“千元AI雙攝”打開了這場關於AI的宣傳戰序幕。隨後vivo X21也以AI攝影能力作為宣傳。從產品說明中可見，這兩部手機的解決方案基本就是上文所說的“AI濾鏡”模式：開發具有一定識別特性的攝影功能，然後在不卡的前提下部署在手機中就可以了。

剛剛發布的小米Mix2S，本質上也是這種解決方案。小米提出的智能場景識別，即在利用圖像數據訓練處手機對不同景物的識別能力，再在手機相機中初始化搭載“美圖相機”之類APP的算法功能，針對不同拍照對象進行針對性修圖。

比如機器學習進行人臉和人體輪廓識別，自動進行背景虛化和摳圖，以及自動疊加多張照片進行防抖等等。

這類手機的問題，在於芯片和攝像頭中缺乏專項處理AI任務的單元，一旦運行高負載的AI任務就需要呼喚雲端。而雲端的相應速度不夠，又導致AI攝影的識別率和準確率下降。

舉個例子，處理夜拍效果時，手機需要運用光源捕捉、空間捕捉等AI算法，從而實現夜晚中清晰拍照和光源還原。

而這類APP派假如要加載夜拍類的AI應用就有點尷尬了。因為這類深度學習的負載很大，用傳統移動芯片+雲計算來跑這類AI拍攝任務，會出現黑夜一層層褪去，半天無法對焦。拍照之後又要上傳到雲端進行很長時間“處理”，精準度和體驗都很差。而一旦沒網就更麻煩了。所以我們能看到的是，目前大部分國產手機宣傳所謂的AI拍照時，都絕口不提夜拍、動作捕捉等復雜任務。

於是，這個流派中消費者看到的宣傳材料裏的“AI拍照”，也就變成了整個手機的全部AI能力。其實這些能力弄個不算太差的手機下載個相關APP就可以實現了，單獨作為一款產品的主要宣傳材料就有點奇怪。

最後，讓我們總結一下三個流派的手機AI攝影，到底帶給消費者怎樣的差別。

芯片派：可以通過終端AI加速，來實現比較高等級的AI攝影任務，比如快速美化、物體識別方案拍照等等。而且通用加速能力和平臺接口下放給開發者，更多的拍照應用，比如夜拍、動作抓拍、人臉替換、體態命令等等，必然會陸續加入到用戶的手機中。用戶相當於購買了持續升級的AI拍照設備。

攝像頭派：基於攝像頭的AI芯片，應該可以加入更多AI玩法，但是除了谷歌之外，其他開發者是絕對碰不到的。

APP派：抱歉，除了廣告語上的1~2個基礎AI功能外，別的就不用想了。

三個流派背後手機AI的孰真孰假，也就一目了然了。接下來一篇，我們會聊聊手機遊戲上的真假AI。

AI手機攝影的三個流派，其中藏了個假的

假AI在咱們身邊，有一個鐵打的定律，那就是一個東西或者名稱火了，馬上就會群起而模仿之。久而久之，這種“微創新”甚至“不用創新”的方式，被國人冠名為“山寨文化”。互聯網領域則更是如此，團購火了能百團大戰，O2O火了能全面“開O”，共享經濟火了，楞是連男友女友都能“共享”。山寨得多，就連技術都可以山寨。比如說，去

12個球，其中有1個壞球和其他11個重量不一樣，給你一個天平，稱3次，找出不一樣的那個

很常見的一道邏輯題，只使用已知條件，不借用其他外力。設12個球分別是：A1,A2,A3,A4，B1,B2,B3,B4，C1,C2,C3,C4 第一次稱：天平兩側分別是，左側：A1，A2，A3，A4，右側：B1，B2，B3，B4 若平衡，則壞球在C組中。第二次稱C1，

（待做例子）問題描述： el-tab 下有2個路由，其中第1個路由設置了 beforeRouteLeave，點擊 el-tab 第2個tab時，樣式直接跟過去了（預期結果是：樣式不到第二個tab上，beforeRouteLeave允許跳轉後才到第二個tab上）

last filter cond 結果 tick 允許代碼 his 過去解決：經過以上分析，強制賦值應該在前次賦值而且DOM已經刷新完畢之後進行。可以使用$nextTick，以下是代碼： handleTabClick (tab) {

AI手機攝影的三個流派，其中藏了個假的

AI手機攝影的三個流派，其中藏了個假的

12個球，其中有1個壞球和其他11個重量不一樣，給你一個天平，稱3次，找出不一樣的那個

（待做例子）問題描述： el-tab 下有2個路由，其中第1個路由設置了 beforeRouteLeave，點擊 el-tab 第2個tab時，樣式直接跟過去了（預期結果是：樣式不到第二個tab上，beforeRouteLeave允許跳轉後才到第二個tab上）

【轉載】隨機生成k個範圍為1-n的隨機數，其中有多少個不同的隨機數？

2個多邊形，其中一個包圍另一個，如何將中間的環帶區域塗成紅色

有1、2、3、4個數字，能組成多少個互不相同且無重復數字的三位數？都是多少？

java經典題丨有1、2、3、4四個數字，能組成多少個互不相同且無重複數字的三位數？都是多少？

不用第三個變數，直接交換兩個變數的值

新手初學Python最常犯的十個錯誤，其中有你麼

題目：有1、2、3、4個數字，能組成多少個互不相同且無重複數字的三位數？都是多少？

Python——有1、2、3、4個數字，能組成多少個互不相同且無重複數字的三位數？都是多少？

1、2、4、9個數字，能組成多少個互不相同且無重複數字的三位數？都是多少？

A、B、C、D四個字母，能組成多少個互不相同且無重複三位組合

有1 2 3 4個數字，能組成多少個互不相同且無重複數字的三位數都是多少

同一個project下多個包，其中一個包出現R cannot be resolved to a variable

說你有一個數組，其中第i個元素是第i天給定股票的價格。設計一個演算法來找到最大的利潤，最多可以完成兩個交易。

一個類有兩個方法，其中一個是同步的，另一個是非同步的；現在又兩個執行緒A和B，請問：當執行緒A訪問此類的同步方法時，執行緒B是否能訪問此類的非同步方法？

有1、2、3、4四個數字，可以組成多少個互不相同且無重複的三位數？都是多少？

jsp href 傳多個引數，其中有引數為字串

15_由1、2、3、4四個數字，能組成多少個互不相同且一個數字中無重複數字的三位數？

AI手機攝影的三個流派，其中藏了個假的

相關推薦