未來幾年 誰能拯救手機拍照功能?
手機拍照作為剛需功能,一直是使用者評判一款終端好壞的直接標準之一。受限於物理極限以及摩爾定律,攝像頭和感測器實現“質”的飛躍,可能性不大。未來幾年,手機攝影的突破點在於AI技術與元器件的深度融合。
近日,在商湯科技與艾瑞諮詢聯合釋出的《2018年中國人工智慧手機行業研究報告》中指出,2006年及以前,手機行業屬於功能推動階段,從一開始圍繞接打電話到承載拍照、聽音樂、上網等複合功能。2007年至2016年,市場變為效能推動階段,配置成為商家逐鹿的方向。2017年之後,市場進入智慧驅動的階段。人工智慧開始推動手機產品的迭代,硬體技術的升級需要軟體技術地優化和凸顯。
人工智慧手機=AI晶片+AI功能,即“滿足AI算力需求移動端晶片,且載入了深度學習AI功能的智慧手機。”。AI晶片指內建獨立神經網路計算單元,通過CPU、GPU、DSP及其他通用計算單元聯動賦能。AI功能囊括人臉解鎖、AI拍照、智慧相簿、AI智慧助手等等。
報告顯示,巨頭廠商扮演了引領者的角色,多方面推動AI手機落地。2018年,我國4G滲透率達70%,手機市場3G向4G升級結構性紅利漸失。部分硬體提升邊際成本和收益不成正比。這種情況下,預計到2022年,搭載AI功能的智型手機出貨量佔比,將從2017年的不到10%提升到80%,年銷量將超13億部。AI手機將是未來行業的產品方向。
儘管在過去的2018年,AI人工智慧手機噱頭滿滿,不乏各種炒作以及不著邊際地吹牛皮。但手機攝影取得的巨大進步,主要在於軟體和矽層,而不是感測器和鏡頭等硬體。AI人工智慧可以更好地理解,影象呈現的內容。預計未來幾年關於手機攝影的常識,將會從硬體思維轉變為AI思維。手機制造商們的人工智慧技術水平,將會成為手機拍照功能好壞的主要判斷標準,且這種趨勢絲毫沒有放緩的跡象。
2015年,谷歌上線的APP,清晰地展示了人工智慧技術與攝影技術融合之後的照片。在此之前,谷歌一直試圖通過機器學習技術對照片進行分類。谷歌的照片APP直接面向消費者提供人工智慧服務,這對於大多數人而言,是難以想象的。“突然之間,使用者可以從雜亂無章、數以千計的圖片庫,轉換為可搜尋的資料庫”,“突然之間,谷歌就知道你的貓看起來像什麼”。
據雷鋒網瞭解,2013年,谷歌收購了多倫多大學一家神經網路方面的初創公司DNNResearch,用以推動谷歌基於語音和圖片的搜尋功能。該公司通過訓練人類標記的資料,訓練深度學習網路,此過程被成為監管學習(Supervised Learning)。具體而言,在數百萬張圖片上訓練網路,以使得它能夠通過畫素級別的視覺線索,來幫助圖片識別分類。隨著時間的推移,演算法將會識別地越來越準確。
比如,一個大熊貓,囊括了可以正確識別熊貓動物品類,黑色皮毛與白色皮毛的比例,以及和荷蘭奶牛皮毛的區別。進一步訓練以後,理解更加抽象的詞彙成為可能。例如,“動物”、“早餐”等,對人類而言比較簡單,但對機器來講,屬於沒有視覺輸出的詞彙。
訓練完以上的模型,需要大量的時間以及整理能力。一旦資料中心完成之後,它將可以以低功耗、便捷的方式在裝置上執行。如今,前期這些繁重的工作已經完成,只要把照片上傳到雲端,谷歌就可以通過模型來分類、標記整個圖片庫。
谷歌圖片功能釋出大約一年之後,蘋果釋出了基於神經網路類似谷歌的搜尋照片功能。但基於蘋果使用者隱私條例的承諾,蘋果的分類功能實際上是在每個裝置中單獨進行的,設定後在後臺進行,並不傳送資料,用時長達一到兩天時間。
儘管和照片智慧管理是一回事,但人工智慧和機器學習,毫無疑問對於照片拍攝具有重大意義。攝像頭和感測器可以“比大更大”,可是又起到作用呢?攝像頭、感測器已經達到物理極限。如今,在某些情況下,手機拍攝的照片比傳統照相機拍得更好已經不是“稀罕事”。其背後深層次原因,在於傳統相機無法在晶片緯度與手機競爭。手機晶片系統包括CPU、影象訊號處理器、越來越多的神經處理單元NPU。
硬體的改變促成了計算攝影時代的到來,廣義上的概念,涵蓋了從人像模式的“假景深”到演算法一切計算形式,幫助手機拍攝出難以置信的手機照片。不是所有的計算攝影都包括人工智慧,但人工智慧肯定是重要的一個部分。過去,蘋果手機正是基於此,驅動雙攝像頭的人像模式。iPhone一個攝像頭的影象訊號處理器通過機器學習區分人,另一個攝像頭建立深度圖隔離主體、模糊背景。
這項技能在2016年就出現了,所以,通過機器學習識別人並不是什麼新鮮事。照片軟體組織也早已經做到這一點,智慧手機拍照的突破在於實時性地處理速度。然而,谷歌才是這一領域的領導者,三代Pixel所展示出的結果令人信服。HDR+是一種預設的攝影模型,通過複雜的演算法,融合幾張曝光不足的幀合併為一幀。就像谷歌計算攝影的負責人Marc Levoy所言,“機器學習只會隨著時間的推移變得更好,同谷歌照片軟體一樣,谷歌已經在一個巨大的、被標記的照片資料庫上訓練人工智慧。進一步幫助相機的曝光,就像Pixel 2,產生了令人印象深刻的照片質量基準。”
前幾個月,谷歌推出了Night Sight(夜景)功能,Pixel通過機器學習技術以長曝光來精準地預測白平衡和色彩。其中,Pixel 3效果最好,可能是演算法隨最新的硬體進行了迭代。這套散發適用於谷歌所有Pixel系列,甚至是缺少光學影象穩定性的工程機。這也從側面說明了,於移動攝影而言,相機的軟體比硬體更為重要。簡而言之,在人工智慧的“操持”下,硬體因此擁有了更大的提升空間。
據雷鋒網瞭解,華為的Nova 4以及榮耀的View 20,首次採用了索尼IMX586影象感測器,4800萬畫素,意味著現階段的最高級別解析度。儘管如此,仍然需要在很多極其微小的單元填滿畫素,對圖片質量產生不確定性。榮耀“AI Ultra Clarity”(人工智慧超清晰)模式,擅長於最大限度地利用解析度,解擾感測器不常見的色彩濾光器,釋放出額外的細節。使用者可以將圖片放大,“海報”級照片應運而生。
影象訊號處理器在某一段時間非常重要,隨著計算攝影技術的進步,NPU將會發揮重要的作用。雖然蘋果公司的A11仿生晶片最先觸達消費者,但華為是率先宣佈在自家麒麟970上,採用人工智慧晶片的公司。全球最大的安卓處理器供應商高通公司並未將機器學習作為戰略重點。谷歌開發了自己的晶片Pixel Visual Core,用以幫助人工智慧相關的影象處理。蘋果最新的A12仿生晶片具有8核神經引擎,可以在core ML中執行任務,直接與影象處理器相連線,比A11快九倍。可以更好地對焦,生成更真實的景深。
所以,晶片對於對於機器學習的效率和效能至關重要。需要說明的是,谷歌的演算法是在大型計算機上訓練的,大型計算機擁有發達的GPU以及英偉達深度學習Tensor Core(張量計算核心)。大部分工作可以“提前”完成,但將機器學習的計算能力搬運到移動端裝置上,可以預見,在相當長的一段時間內,屬於前沿性研究。
即使目前處於計算攝影的早期階段,神經引擎可以減少手機拍照的處理負擔,隨時間的積累,執行速度越來越快。拍照作為任何手機的最基本功能,面部ID、人臉識別解鎖、AR視訊、AI人像、景物美化、相簿智慧分類、智慧場景識圖......在過去兩年時間,已經深入滲透到普通人的日常生活中。
《2018年中國人工智慧手機行業研究報告》顯示,語音助手、人臉解鎖、智慧光線拍攝、美顏和識圖成為2018年中國AI智慧手機使用者最經常使的TOP5功能。人臉解鎖、語音助手、隨行翻譯、智慧光線拍攝、AI雙攝/三攝、背景虛化成為使用者認為最有價值的TOP5功能。
雷鋒網(公眾號:雷鋒網)認為,指數級增長遇到物理極限這個“天敵”,沒有休止地持續增長逐步放緩。未來誰能夠拯救停滯不前的移動攝影,答案不言自明!
】