商湯工程院院長沈徽：AI技術本身不產生價值必須要跟行業結合

阿新 • • 發佈：2018-11-13

近日，習近平總書記強調人工智慧具有溢位帶動性很強的“頭雁”效應，必須把增強原創能力作為重點，夯實新一代人工智慧發展的基礎。這把原本就火熱的人工智慧推向新的高潮。

11月8日，在CSDN和AICamp聯合舉行的“2018中國AI開發者大會（AINEXTCon）”上，商湯科技副總裁、工程院院長沈徽發表了主題為“創新極限賦能百業——商湯智慧視覺的產業化落地”的演講。

沈徽認為，人工智慧特別是計算機視覺技術不是一個單點上的突破，如果我們要真正把它做好，是整個技術平臺性的提升。當AI跟越來越多的場景結合之後，能夠獲得新的需求，這些需求點會成為技術提升的輸入和資料。從實踐中來到實踐中去，AI產業不斷髮揚光大。

以下是沈徽的演講內容：

很高興能夠有機會和大家分享商湯科技在智慧視覺方面的進展和落地應用方面的實踐。

首先講下大背景，人類社會的演進背後都有技術在推進，如青銅器的出現讓農業有了較大發展。

過去幾年，由於深度學習技術突破所帶來的AI領域革命性的突破，對社會影響非常深遠。往次的技術革命，技術延展了我們的手和腳，增強了我們的肌肉。而AI則延展了我們的大腦，使人類能夠更加敏銳，AI技術進步對人類社會的影響和文化影響都是非常深遠的，大家應該感到非常激動，因為我們正處在這樣一個時代的開始。

人工智慧從技術領域來說是個很泛的技術，人能做計算機不能做的我們都認為是智慧。人工智慧的技術路線有很多模組，基於統計思路的機器學習是人工智慧裡很重要的技術方向，經歷了三次浪潮，1957年感知器，1986年神經網路，以及近些年基於深度學習技術所帶來的AI感知層面的突破。我們現在處在第三次浪潮中，2010、2011年由深度學習真正實用化開始為代表的一次浪潮。

計算機視覺處在一個超越大眾的階段

什麼是機器學習？輸入x輸出y，假設y滿足一定規律，機器學習就能找出f，能更好的擬合概率分佈。第一類是物體識別，是貓還是狗，還有一種應用是低解析度影象變成高解析度影象。在機器學習裡面擬合f有多種不同的技術，神經網路是中間技術的一種，神經網路由多個神經元以及之間互相連線形成的一個網路，如果看到每個神經元都有一個或者多個輸入通常一個輸出，一個輸出可能連線到多個神經元的輸入裡，在神經網路裡每個神經元都要找到相應的位置，得出一個輸出函式。

我們看神經網路的時候，X1、X2、X3這些輸入叫做特徵，特徵在深度學習出現之前大量都是人手工把它做出來的，人根據自己的經驗、自己的技術把現實世界中的資料轉化成可以被神經網路消費的特徵。

我們在很大程度上不需要人工做特徵的識別，而是可以用神經網路把這樣的特徵學出來，這是深度學習網路帶來的很重要的突破，它的應用會變得更加普適，因為不需要針對每個場景做特徵指令級，我們可以把算力變成真正的智慧，這樣一個通路就打開了。

我想很客觀的評價一下我們現在處在什麼階段，技術必須要到一定程度才能真正轉化為生產力，否則之前更多的是研究的狀態。第一階段往往技不如人，五年前的人臉識別、語音識別和人的差距還很大，從錯誤率來看大概幾倍甚至幾十倍的差距。第二階段是我們真正能達到甚至超越普通人的水準。第三階段是超越專家，AlphaGo在圍棋這個領域超越了專家。

計算機視覺現在大概還處在第二階段，處在一個超越大眾的階段。一方面，在一些細分領域定義的很清楚，我們用深度學習的辦法有足夠的資料能夠做得非常好，超越人類；另一方面，它的普適性還有很大的欠缺，包括對資料的依賴沒有達到人工智慧需要的量。在這個階段，AI已經變成一個非常可用的東西了。

下面我分三方面介紹一下商湯所做的事，從技術與平臺、產品和行業解決方案三個角度進行介紹。

技術與平臺

深度學習最重要的三個點，第一是演算法模型，第二是資料，第三是算力。

商湯在三年前構建的DNN（深層神經網路），有1200多層，在ImageNet上第一次贏得世界冠軍。

再講一下商湯的深度學習平臺SenseParrots。大家知道AI領域有各種各樣的開源平臺，商湯為什麼要建立自己的SenseParrots平臺？因為商湯的資料資源處於世界領先地位，如果想取得不斷的突破必須要很好的工具，這個訓練平臺是非常重要的工具，而領先的工具很難從開源平臺獲取，很多時候想真正滿足使用者的需求不是一個網路模型就能解決問題，我們需要能夠在這樣的平臺上構建完整的網路，這是構建這個平臺的原因。商湯內部大量的研發工作都在這個平臺上完成，未來我們也會向合作伙伴輸出這樣的能力。

算力方面，今年商湯會擁有超過14000塊GPU，體現了旺盛的需求，商湯在超過18個行業有各種各樣的落地場景，在這些行業裡必然有各種各樣不同的基於計算機視覺的需求，所以造成對算力巨大的渴望。我們一方面把我們算力的總量提升，另一方面把算力的效率提高。

第三是資料，我們有海量可以用來訓練的資料，涵蓋超過18個行業，人臉只是當中的一小部分。

產品和行業解決方案

接下來講一下應用。

這是基於商湯AR引擎的應用，把王者榮耀裡的虛擬化人物放到真實的場景中，它不是簡單的疊加，必須要對物理環境有3D感知，這樣才能真正把虛擬人物非常自然的放在裡邊。手機雙攝頭可以獲取場景的3D資訊，藉此我們重構出一個3D的場景，用六自由度實時跟蹤技術，確定很多場景的關鍵點，根據這些關鍵點之間的關係以及變化，對虛擬物體做3D的構建，進而產生這種自然的效果。

商湯的SenseAR技術在兩年前，就已廣泛應用於各類短視訊、直播等使用者原創內容（UGC）視訊平臺中。我們利用人臉關鍵點技術，用計算機理解人臉。左邊第一張圖在方框裡綠色的點標出了五官的位置，這樣就很容易做出好玩的AR效果，這就是關鍵點技術實現的。

自動駕駛中的視覺感知，左邊是行駛區域的檢測和車道線檢測，右邊是在這個基礎上對訊號燈的檢測和路邊物體的檢測，這些都是用智慧視覺技術對環境做感知。除了感知道路也能感知車輛，更重要的是能夠感知運動方向並做出相應的預測。

我們當時發了一篇關於在複雜情況下車道線檢測演算法的Paper，除了用程式視覺技術對環境做理解之外，我們還把視覺技術和結構化技術做結合，使我們對遮擋或視覺不清情況下的車道線恢復能起到很好的效果，中間用傳統CNN做，很多車道線不是特別清晰，右邊做了一個解析，效果好了很多。這個創新告訴我們當做AI技術或深度學習技術時一定不要限制在窄的範圍內。

這是DMS中的視覺感知，是用於智慧車艙的技術，可以對大貨車、計程車司機進行檢測和監控，看他是不是注意力集中，有沒有危險動作，有沒有疲勞等等，這是多種視覺技術的結合。第一張圖是注意力，注意力是如何檢測的呢？我們看他視線的方向，在DMS中做視覺跟蹤，我們做眼球檢測，計算出注意力的方向進而做一個預估，可以達到非常高的精度。

下面講一下智慧視覺賦能城市大腦，舉一個用於尋人的真實案例：今年初南方某地公安局使用我們的技術在三小時之內就找到了一位走失三天、患阿爾茨海默症的老人。

我們不光看人臉，還看很多其他資訊，比如一個交通路口，資訊和道路狀況結合之後可以做自動交通管控。很多時候大家會說這個就是去識別和做一些檢索，但是當資料量級很大的時候就很難做了，為此我們構建了SenseFoundry方舟城市級視覺開放平臺，同時做實時檢測、實時跟蹤和實時分析，這在北上廣深等大城市中已經應用了。

它一方面要有系統的提升，另一方面要有演算法的提升。如果想從十個人裡識別一個人，和一千萬人裡識別一個人，對演算法的要求是完全不一樣的。我們人臉識別的技術在不斷提升，包括採用增量學習的技術，對不同環境高容忍度、高普適性的技術。在此之上我們做了人臉和人體的聯合搜尋，大量的環境下很難捕捉到一個完整的人臉，這個時候人臉、人體再加上其他資訊去做聯合搜尋能大大提高搜尋的準確度。

去年蘋果第一次在手機上推出了3D人臉解鎖，但對人臉解鎖的研究商湯早就進行了。和iPhone不一樣，我們要想在安卓系統上為多家廠商提供人臉解鎖的能力，我們需要有一定的演算法優化。人臉解鎖不單單是簡單的臉和臉的比對，很重要的是活體檢測和注意力檢測，不能拿一張照片就給手機解鎖，別人不能在你睡覺的時候拿著你的臉給手機解鎖。人臉解鎖雖然已經實現了一個功能但是它在不斷迭代，單純用人臉解鎖手機時，準確率可能需要達到10的負4次方量級，相當於4位密碼，但當你要做支付、認證等和金融相關的應用時就需要有10的負6次方，甚至負8次方量級才能達到要求，我們現在已經超過了10的負8次方。

活體檢測方面，進攻方會想出各種各樣的辦法用人臉攻擊識別系統，識別系統不斷髮現潛在漏洞，避免系統性的活體檢測失誤。商湯有一個專門的團隊每天的任務就是想著怎麼把活體檢測的系統突破掉，這裡有幾個簡單的攻擊手段，包括紙質照片、面具、三維面具和視訊等，我們一方面不斷尋找新的方式做攻擊，同時做防守。

這是人臉3D重建，拿著一個手機的前攝從五個角度拍到人臉，當拍到五張照片之後用五個方向的人臉做一個3D的重建。

下面看一些其他產品。想必大家已經在一些小區、大樓看到刷臉進門，從以前刷卡按指紋變成了刷臉。當人在運動當中走過一個閘門時，我們希望以最快的速度檢測到人臉，並用最快的速度判定應該開門還是關門。大家可以想象隨著人步入通道臉的大小不斷變化，怎樣能獲取更高精度的檢測？最簡單的是把圖片按照不同的大小進行分割，但這樣演算法效率非常低，99%的計算都是無用的計算，我們是在模型裡做一些優化，能大大提高效率，訓練的時候精度提升會變得更快。

這是一些資料，右上角的表用不同的技術把它疊加在一起，包括精度和速度提升，我們可以通過不同的硬體做選型。

此外，刷臉技術還用於很多不同的場景，包括身份驗證、門禁、閘機等等。商湯是通過刷臉進辦公室的，今年北京航空航天大學9月份新生入學時，也用了商湯SenseHello刷臉系統做註冊。

剛才說的技術產品都是由內向外的，行業解決方案是因為大量客戶很多時候並不在乎用什麼技術，更在乎能幫助他解決什麼問題，我們要提供解決方案，這樣才能把他的精力從痛點移開，進而去關注他的業務。

今年九月，在上海召開的世界人工智慧大會上，我們在人工智慧大會現場的黃浦江西岸做了智慧公共空間管理系統，融合了多種感知技術，用視覺技術和IOT技術做觀察、理解、預判和行動形成一個管理閉環。只有提供這樣的完整解決方案客戶才能夠實實在在感受到它的價值。

AI必須要跟行業結合才能產生價值

介紹了這麼多產品和技術落地的事情，我想談的是人工智慧特別是計算機視覺技術不是一個單點上的突破，如果我們要真正的把它做好，它是整個技術平臺性的提升，也是商湯在過去多年不斷積累，在各個行業尋求問題，構建研究能力和技術上的突破。

AI技術本身是不能產生價值的，必須要跟行業結合，跟實際場景結合。當AI技術跟越來越多場景結合之後，一方面能夠提供價值，另一方面能夠獲得新的需求，這些需求點會成為技術提升的輸入和資料，從實踐中來到實踐中去，AI產業不斷髮揚光大，真正拓展我們的腦力和感知能力，使社會生產力進步。我覺得每一位都可以加入到AI系統裡面來，擁抱AI，從中獲取能更好地解決現在問題的方案，把社會帶到一個新的高度，謝謝大家。

商湯工程院院長沈徽：AI技術本身不產生價值必須要跟行業結合