信通院AI白皮書:硬核乾貨一文打盡,從技術流派到應用趨勢
人工智慧的戰略重要性不僅吸引了科技巨頭和資本的瘋狂投資,養活了一眾創企,更是得到了各國頂層支援。我國繼去年7月釋出了《新一代人工智慧發展規劃》,11月公佈了首批國家人工智慧開放創新平臺名單之後,工信部本週三又公示了2018年人工智慧與實體經濟深度融合創新專案名單(覆蓋106個專案)。
中國資訊通訊研究院和中國人工智慧產業發展聯盟的人工智慧發展白皮書(技術架構篇),從產業發展的角度,分析技術現狀、問題以及趨勢,盤點智慧語音、語義理解、計算機視覺等相關應用。
以下為智慧內參整理呈現的乾貨:
AI技術流派
讓機器實現人的智慧,一直是人工智慧學者不斷追求的目標,不同學科背景或應用領域的學者,從不同角度,用不同的方法,沿著不同的途徑對智慧進行了探索。其中,符號主義、連線主義和行為主義是人工智慧發展歷史上的三大技術流派。
符號主義
符號主義又稱為邏輯主義,在人工智慧早期一直佔據主導地位。
該學派認為人工智慧源於數學邏輯,其實質是模擬人的抽象邏輯思維,用符號描述人類的認知過程。早期的研究思路是通過基本的推斷步驟尋求完全解,出現了邏輯理論家和幾何定理證明器等。
上世紀70年代出現了大量的專家系統,結合了領域知識和邏輯推斷,使得人工智慧進入了工程應用。PC機的出現以及專家系統高昂的成本,使符號學派在人工智慧領域的主導地位逐漸被連線主義取代。
連線主義
連線主義又稱為仿生學派,當前佔據主導地位。該學派認為人工智慧源於仿生學,應以工程技術手段模擬人腦神經系統的結構和功能。
連線主義最早可追溯到1943年麥卡洛克和皮茨創立的腦模型,由於受理論模型、生物原型和技術條件的限制,在20世紀70年代陷入低潮。
直到1982年霍普菲爾特提出的Hopfield神經網路模型和1986年魯梅爾哈特等人提出的反向傳播演算法,使得神經網路的理論研究取得了突破。
2006年,連線主義的領軍者Hinton提出了深度學習演算法,使神經網路的能力大大提高。2012年,使用深度學習技術的AlexNet模型在ImageNet競賽中獲得冠軍。
行為主義
行為主義又稱為進化主義,近年來隨著AlphaGo取得的突破而受到廣泛關注。
該學派認為人工智慧源於控制論,智慧行為的基礎是“感知—行動”的反應機制,所以智慧無需知識表示,無需推斷。智慧只是在與環境互動作用中表現出來,需要具有不同的行為模組與環境互動,以此來產生複雜的行為。
在人工智慧的發展過程中,符號主義、連線主義和行為主義等流派不僅先後在各自領域取得了成果,各學派也逐漸走向了相互借鑑和融合發展的道路。特別是在行為主義思想中引入連線主義的技術,從而誕生了深度強化學習技術,成為AlphaGo戰勝李世石背後最重要的技術手段。
深度學習一招翻紅
可以說,本輪人工智慧的發展,是在大資料環境和計算能力大幅提升的基礎上,由深度學習帶動的。
深度學習全稱深度神經網路,本質上是多層次的人工神經網路演算法,即從結構上模擬人腦的執行機制,從最基本的單元上模擬了人類大腦的執行機制。目前,深度學習已經在計算機視覺、語音識別、自然語言理解等領域取得了突破(詳情參考第209期智東西內參)。
深度學習已在多領域實現突破
深度學習分為訓練(training)和推斷(inference)兩個環節。訓練需要海量資料輸入,訓練出一個複雜的深度神經網路模型。推斷指利用訓練好的模型,使用待判斷的資料去“推斷”得出各種結論。
大資料時代的到來,圖形處理器(GPU)等各種更加強大的計算裝置的發展,使得深度學習可以充分利用海量資料(標註資料、弱標註資料或無標註資料),自動地學習到抽象的知識表達,即把原始資料濃縮成某種知識。
基於深度學習的人工智慧技術架構
當前,基於深度學習的人工智慧演算法主要依託計算機技術體系架構實現,深度學習演算法通過封裝至軟體框架的方式供開發者使用。
軟體框架是整個技術體系的核心,實現對人工智慧演算法的封裝,資料的呼叫以及計算資源的排程使用。為提升演算法實現的效率,其編譯器及底層硬體技術也進行了功能優化。
深度學習技術體系概述
人工智慧演算法的設計邏輯可以從“學什麼”(表徵所需完成任務的函式模型)、“怎麼學”(通過不斷縮小函式模型結果與真實結果誤差來達到學習目的)和“做什麼”(迴歸、分類和聚類三類基本任務)三個維度進行概括。
人工智慧主要演算法分類
近年來,隨著AI演算法在多領域的突破,相關演算法的理論性研究持續加強,新演算法如膠囊網路、生成對抗網路、遷移學習等,也被不斷提出。
人工智慧新演算法
下文將概述圍繞深度學習的五方面技術現狀和發展趨勢。
大佬開源造生態
如前所述,軟體框架是整個技術體系的核心,是演算法的工程實現。當前,人工智慧基礎性演算法已經較為成熟,各大廠商紛紛發力建設演算法模型工具庫,並將其封裝為軟體框架,供開發者使用。
企業的軟體框架實現有閉源和開源兩種形式:蘋果公司等少數企業選擇閉源方式開發軟體框架,目的是打造技術壁壘;目前業內巨頭基本都是基於自身技術體系的訓練及推斷軟
件框架,將開源深度學習軟體框架作為打造開發及使用生態核心的核心。
人工智慧開源平臺對比(援引招商證券)
總體來說開源軟體框架在模型庫建設及呼叫功能方面具有相當共性,但同時又各具特點。業界目前主要有深度學習訓練軟體框架(TensorFlow、MXNet等)和推斷軟體框架(Caffe2go等)兩大類別。
當前開源軟體框架的技術發展呈現出以下幾方面的特點:
1、谷歌與其他公司間持續競爭。巨頭公司在技術上將積極探尋包括模型互換,模型遷移等技術聯合,以對抗谷歌公司。例如臉書(Facebook)和微軟已經合作開發了一個可互換的人工智慧軟體框架解決方案。
2、開源軟體框架在向統一和標準化方向發展。隨著人工智慧應用的爆發,開發人員在不同平臺上建立模型及部署模型的需求愈發強烈,在各類軟體框架間的模型遷移互換技術研發已經成為重點。
3、更高階的API逐漸佔據主導地位。以Keras為例,它是建立在TensorFlow、Theano、CNTK、MXNet和Gluon上執行的高階開源神經網路庫,以其高階API易用性而得到了廣泛的使用。
4、模型的叢集併發計算成為業界研究熱點。當前人工智慧網路對於單計算節點的算力要求過高,但當前主流開源軟體框架對於模型分割進行計算並沒有實現,而這個問題也將隨著應用場景的不斷豐富而不斷引起重視,成為開源軟體框架下一個核心競爭點。
編譯器解決適配問題
在實際工程應用中,人工智慧演算法可選擇多種軟體框架實現,訓練和開發人工智慧模型也可有多種硬體選項,這就開發者帶來了不小的挑戰。
原因一是可移植性問題,各個軟體框架的底層實現技術不同,導致在不同軟體框架下開發的模型之間相互轉換存在困難;二是適應性問題,軟體框架開發者和計算晶片廠商需要確保軟體框架和底層計算晶片之間良好的適配性。
編譯器解決軟硬體適配問題
解決以上兩個挑戰的關鍵技術之一就是深度神經網路模型編譯器,它在傳統編譯器功能基礎上,通過擴充面向深度學習網路模型計算的專屬功能,以解決深度學習模型部署到多種裝置時可能存在的適應性和可移植性問題。
深度學習的兩大表示規範
深度學習網路模型的表示規範分為兩大陣營。
第一陣營是Open Neural Network Exchange(ONNX,開放神經網路交換),是一個用於表示深度學習模型的標準,可使模型在不同軟體框架之間進行轉移。ONNX由微軟和Facebook聯合釋出,該系統支援的軟體框架目前主要包括Caffe2,PyTorch,Cognitive Toolkit和MXNet,而谷歌的TensorFlow 並沒有被包含在內。
第二陣營是 Neural Network Exchange Format(NNEF,神經網路交換格式),是由Khronos Group主導的跨廠商神經網路檔案格式,計劃支援包括Torch,Caffe,TensorFlow等幾乎所有人工智慧軟體框架的模型格式轉換,目前已經有30多家計算晶片企業參與其中。
晶片提供算力保障
現有深度神經網路需要用更短的時間、更低功耗完成計算,這就給深度學習計算晶片提出了更高的要求:一是計算晶片和儲存間海量資料通訊需求,包括快取(Cache)和片上儲存(Memory)要大,計算單元和儲存之間的資料互動頻寬要大;二是專用計算能力的提升,解決對卷積、殘差網路、全連線等計算型別的大量計算需求,同時降低功耗。
總的來說,AI計算晶片的發展過程可以總結為一直在圍繞如何有效解決儲存與計算單元的提升這兩個問題而展開,成本問題則作為一個舵手控制著最終的航向。
AI計算晶片分類
在深度學習訓練環節,除了使用CPU或GPU(深度學習訓練的首選)進行運算外,現場可程式設計門陣列(FPGA)以及專用積體電路(ASIC)也發揮了重大作用;而用於終端推斷的計算晶片主要以ASIC為主。基於深度學習的人工智慧技術,核心在於通過計算找尋資料中的規律,運用該規律對具體任務進行預測和決斷。
源資料需要進行採集、標註等處理後才能夠使用,標註的資料形成相應資料集。業務型別主要包括資料採集、資料處理、資料儲存以及資料交易等環節。
人工智慧資料集的參與主體
當前,人工智慧基礎資料型別主要包括語音語言類(包括聲音、文字、語言學規則)、影象識別類(包括自然物體、自然環境、人造物體、生物特徵等)以及視訊識別類三個大類,從世界範圍來看,資料服務商總部主要分佈在美國、歐洲等發達國家。但其資料處理人員則大多數分佈在第三世界國家;我國語音、影象類資源企業機構正處於快速發展階段,為產業發展增添了動力。
計算和服務平臺的快速崛起
深度學習使用GPU計算具有優異表現,催生了各類GPU伺服器,帶動了GPU伺服器的快速發展;同時,也帶動了以服務的形式提供人工智慧所需要的能力,如深度學習計算類的計算平臺,以及語音識別,人臉識別等服務,這也成為人工智慧企業打造生態的重要抓手。
一方面,伺服器廠商相繼推出了專為AI而設計的、搭載GPU的,應用於視訊編解碼、深度學習、科學計算等多種場景的伺服器,為AI雲場景對彈性配置能力予以優化,以增強PCI-E拓撲和數量配比的彈性,增加適配多種軟體框架的運算需求,支援AI模型的線下訓練和線上推理兩類場景。
另一方面,為了解決企業自行搭建AI能力時遇到的資金、技術和運維管理等方面困難,人工智慧企業紛紛以平臺類服務和軟體API形式的服務等形式,提供AI所需要的計算資源、平臺資源以及基礎應用能力。
科幻落地,未來已來
目前隨著深度學習演算法工程化實現效率的提升和成本的逐漸降低,一些基礎應用技術逐漸成熟,如智慧語音,自然語言處理和計算機視覺等,並形成相應的產業化能力和各種成熟的商業化落地。同時,業界也開始探索深度學習在藝術創作、路徑優化、生物資訊學相關技術中的實現與應用,並已經取得了矚目的成果。
智慧語音
按機器在其中所發揮作用的不同,分為語音合成技術、語音識別技術、語音評測技術等。智慧語音技術會成為未來人機互動的新方式,將從多個應用形態成為未來人機互動的主要方式。
已經面世的智慧語音技術應用有智慧音箱(智慧家庭裝置的入口)、個人智慧語音助手(個性化應用整合),以及以API形式提供的智慧語音服務,覆蓋了智慧客服、教育/口語評測、醫療/電子病歷、金融/業務辦理、安防、法律、個人手機、自動駕駛及輔助駕駛、傳統家電、智慧家居等領域的應用。
計算機視覺
一般來講,計算機視覺主要分為影象分類、目標檢測、目標跟蹤和影象分割四大基本任務。
目前,計算機視覺識別這一人工智慧基礎應用技術部分已達商業化應用水平,被用於身份識別、醫學輔助診斷、自動駕駛等場景。
計算機視覺的三大熱點
在政策引導、技術創新、資本追逐以及消費需求的驅動下,基於深度學習的計算機視覺應用不斷落地成熟,並出現了三大熱點應用方向:人臉識別、視訊結構化、姿態識別。
自然語言處理
自然語言處理(NLP)是研究計算機處理人類語言的一門技術,是機器理解並解釋人類寫作與說話方式的能力,也是人工智慧最初發展的切入點和目前大家關注的焦點。
自然語言處理的主要步驟包括分詞、詞法分析、語法分析、語義分析等,其應用方向主要有文字分類和聚類、資訊檢索和過濾、資訊抽取、問答系統、機器翻譯等方向。
展望AI的五大趨勢
人工智慧這座礦還遠沒有挖完,還有一籮筐的問題等待解決。
一方面,深度學習演算法模型存在可靠性及不可解釋性問題,因此存在產生不可控結果的隱患;另一方面,當前的資料環境不夠完善,存在著流通不暢、資料質量良莠不齊和關鍵資料集缺失等問題。
此外,推斷軟體框架質量參差不齊,制約了業務開展,編譯器缺乏統一的中間表示層標準,雲、側端AI晶片的市場格局有待形成。
基於技術和產業的發展現狀,信通院總結出了以下五大趨勢:
遷移學習的研究及應用將成為重要方向 。
遷移學習由於側重對深度學習中知識遷移、引數遷移等技術的研究,能夠有效提升深度學習模型複用性,同時對於深度學習模型解釋也提供了一種方法,能夠針對深度學習演算法模型可靠性及不可解釋性問題提供理論工具。
深度學習訓練軟體框架將逐漸趨同,開源推斷軟體框架將迎來發展黃金期。
隨著人工智慧應用在生產生活中的不斷深入融合,對於推斷軟體框架功能及效能的需求將逐漸爆發,催生大量相關工具及開源推斷軟體框架,降低人工智慧應用部署門檻。
中間表示層之爭將愈演愈烈。
以計算模型為核心的深度學習應用,由於跨軟體框架體系開發及部署需要投入大量資源,因此模型底層表示的統一將是業界的亟需,未來中間表示層將成為相關企業的重點。
AI計算晶片朝雲側和終端側方向發展 。
從雲側計算晶片來看,目前GPU佔據主導市場,以TPU為代表的ASIC只用在巨頭的閉環
生態,未來GPU、TPU等計算晶片將成為支撐人工智慧運算的主力器件,既存在競爭又長期共存,一定程度可相互配合;FPGA有望在資料中心中以CPU+FPGA形式作為有效補充。從終端側計算晶片來看,這類晶片將面向功耗、延時、算力、特定模型、使用場景等特定需求,朝著不同發展。
行業巨頭以服務平臺為核心打造生態鏈。
對於國內外的雲服務和人工智慧巨頭,如亞馬遜、微軟,阿里雲、騰訊雲、科大訊飛、曠視
科技等企業,將圍繞各自應用,與裝置商、系統整合商、獨立軟體開發商等聯合,為政府,企業等垂直領域提供一站式服務,共同打造基於服務平臺的生態系統。
智東西認為,上一波的企業數字化為深度學習的產業化落地提供了初步引導,隨後,人工智慧相關的大資料、雲服務、晶片、演算法產業和市場格局逐漸成熟。在智慧語音、計算機視覺、自然語言理解等細分技術的發展下,智慧醫療、智慧金融、智慧汽車等“AI+”專案掀起了一波創投熱。無疑,AI泡沫確實存在,但AI曙光勢必降臨。
本文已標註來源和出處,版權歸原作者所有,如有侵權,請聯絡我們。