1. 程式人生 > >資料智慧是大資料的未來

資料智慧是大資料的未來

資料智慧是大資料的未來

近日,兩家大資料領域的代表性企業Cloudera和Hortonworks宣佈了它們相對平等的合併,宣稱新公司將建立世界領先的下一代資料平臺並提供業界首個企業資料雲,這令很多人感到意外,大資料的未來何去何從,一時成為大資料產業從業人員關心的話題。
資料智慧是大資料的未來
  大資料蹣跚前行,邁進下半場

隨著2012年維克托·邁爾-舍恩伯格《大資料時代》一書的出版,“大資料”這一概念乘著網際網路的浪潮在各行各業中扮演了舉足輕重的角色,得大資料者得天下,業界紛紛用大資料這個詞來描述和定義資訊爆炸時代產生的海量資料,並命名與之相關的技術發展與創新。

2013年被稱為中國的“大資料元年”,大資料開始在我國流行,以勢不可擋的姿態進入人們的思想意識,並在社會的各個領域探索與落地實踐。塗子沛的《大資料》一時成為暢銷讀物,大資料的概念風行大江南北,阿里巴巴成為最早提出通過資料進行企業資料化運營的企業。2015年,我國政府通過了《關於促進大資料發展的行動綱要》,大資料更是上升為國家戰略。

同美國市場一樣,以Hadoop為代表的大資料技術,在中國的大資料產業中也經歷了一段狂熱期,在很長一段時期內,Hadoop幾乎成了大資料的代名詞。在這個資料大爆炸的時代,企業需要對海量資料儲存、快速處理和分析,Hadoop正是為此而生。但目前看來,這股浪潮正漸漸退去,Hadoop正在逐漸變成一項傳統技術。

從誕生到現在,Hadoop已經走過十多年的歷史,但近年來,以Hadoop為代表的大資料產業生態,在實際落地中卻面臨著尷尬的局面。首先,大資料的價值被誇大,在投入產出比上差強人意。其次,中小企業對大資料的應用極為有限。目前看來,需求主要來源於一些大型企業,資料量過大,資料分析需求旺盛,但中小企業自身資料量並不大,需求度較低,同時也缺少相應的大資料技術人才。最後,大資料管理難度大,資料開放共享、資料質量、資料安全、個人隱私資訊保護等已經成為管理大資料最頭疼的問題。今年5月,歐盟資料保護法規《通用資料保護條例》釋出,對大資料企業採集的個人隱私資料管理工作產生極大的挑戰。

2018年10月底,IBM宣佈以高達340億美元的價格收購RedHat,IBM宣稱其將成為全球的頭號混合雲提供商,而亞馬遜、微軟、阿里巴巴等雲端計算巨頭早已將計算、儲存、網路資源和應用軟體(大多來自開源社群)作為線上雲服務來提供,Anaconda產品和營銷高階副總裁MathewLodge指出,大資料的中心已經從Hadoop轉移到了雲端,在雲環境下的物件儲存系統(如亞馬遜 S3、微軟Azure BlobStorage和Google Cloud Storage)中儲存資料比在HDFS中便宜了5倍。

儘管現在就談Hadoop已死為時尚早,但大資料產業面臨的以上問題已經累積很久,也沒有被很好地解決,能否解決以上問題將直接關乎大資料的未來發展。

人工智慧方興未艾,取得新突破

人工智慧(AI)是研究用於模擬與延伸擴充套件人的智慧的理論、方法、技術及應用系統的一門新的技術科學,目前在商業和生活中已有大量應用場景,被產業界寄望為下一輪技術革命,對它的關注熱度已經超過大資料。

AI的發展歷程一波三折,呈螺旋式發展,在歷史上共經歷三個時期。首先是1956年達特茅斯會議提出了AI的概念,但當時的計算機處理效能和資料容量制約了AI技術的發展。然後在20世紀80年代,專家系統興起,AI演算法模型有了重大發明,包括多層神經網路和BP反向傳播演算法的提出,出現了能與人類下象棋的高度智慧機器,但隨著桌上型電腦的出現,使得AI專家系統走向沒落。再往後就是2006年,Hinton論文開啟了深度學習時代,特別是2016年,AIphaGo大敗李世石,將AI從後臺推到了科技界的聚光燈下,一時間萬眾矚目。

AI已經替代了早些年的大資料,成為新的商業科技風口。2017年全球AI融資超150億美元,谷歌、亞馬遜、蘋果、微軟以及阿里、百度、騰訊等中美科技巨頭紛紛佈局。以深度學習為代表的AI演算法,PC/移動網際網路上海量、多維度、高價值大資料,以及以GPU、FPGA、ASIC為代表的AI計算晶片,成為本輪AI發展的核心驅動力。

AI技術體系一般分為基礎層、技術層和應用層,在AI大發展的浪潮中,AI技術體系中的各模組發展特點各不相同。

基礎層對應著演算法(包括迴歸、分類、聚類、深度學習演算法等)、算力(即AI晶片)和軟體框架(實現對AI演算法的封裝)。

演算法部分,深度學習帶動了本輪AI的大躍進,深度學習已經在語音識別、影象識別等領域取得突破,而海量的資料和高效的算力支撐是深度學習演算法實現的基礎,同時還有很多新的演算法理論成果正在被提出和應用,如強化學習、遷移學習、膠囊網路、生成對抗網路等。

算力部分,由各種AI晶片來提供基礎計算能力。AI晶片除了傳統的CPU及 GPU外,還包括為特定場景應用而定製的計算晶片。深度學習既要求計算晶片支援對儲存介質中海量資料的高效存取,還要能支援一些特定AI計算需求,因此GPU成為目前深度學習演算法應用中的首要選擇。FPGA(現場可程式設計門陣列)可以實現應用場景的高度定製,屬於一種半定製化晶片。ASIC(專用積體電路)是不可配置的高度定製專用計算晶片,其效能也是最優的。TPU(張量處理單元)是谷歌公司設計的處理器,非常適合執行TensorFlow軟體,還有寒武紀的NPU,都是ASIC的典型代表。另外,還湧現出各類定製化的高效能AI計算伺服器,或稱之為GPU一體機,一站式提供AI所需的算力。

軟體框架部分,目前AI軟體框架百花齊放,軟體框架是整個技術體系的核心,實現對AI演算法的封裝、資料的呼叫以及計算資源的排程使用。軟體框架好比是AI應用開發的作業系統,為開發者提供程式設計環境和演算法庫,並按需分配AI晶片等硬體資源,目的是構建AI系統開發和執行的軟體環境。目前主流的AI軟體框架主要有TensorFlow、MXNet、Caffe、Torch、CNTK、Theano、SciKit-Learn等,軟體框架的使用者包括了AI服務的開發者和使用者。

技術層負責解決具體類別的AI技術問題。其中語音識別技術負責將語音轉換為文字或命令,自然語言處理技術實現人和機器之間的自然語言通訊,計算機視覺技術用於處理圖形影象和視訊內容的識別。

應用層立足於解決各行業領域實際場景問題,如安防場景下,用於警訊發現、人臉識別、道路監控等;金融場景下,可用於資產異動監測、徵信風控和智慧投顧等;醫療場景下,可應用於對醫學影像、電子病例處理來輔助診療;還有目前最為火熱的自動駕駛場景,谷歌、特斯拉和百度三巨頭的無人駕駛汽車已經上路試執行。

以雲服務方式提供AI服務已成為當前的趨勢,AI雲服務一般分為平臺類服務和軟體類服務。平臺類服務包含GPU雲服務,深度學習平臺等,GPU雲服務是以虛擬機器的形式,為使用者提供GPU計算資源。深度學習平臺則是以TensorFlow、Caffe、MXNet等主流深度學習軟體框架為基礎,提供相應的常用深度學習演算法和模型,組合各種資料來源、元件模組,讓使用者可以基於該平臺對語音、文字、圖片、視訊等海量資料進行離線模型訓練、線上模型預測及視覺化模型評估。軟體類服務包括提供API程式介面、SDK包、訊息服務介面的形式提供AI相關的線上網路服務,可包括語音識別、文書處理、影象檢測、智慧推薦等應用方式。

掘金資料資產,探索資料智慧

大資料為人工智慧發展提供了基礎資源,人工智慧技術的核心就在於通過計算找尋大資料中的規律,對具體場景問題進行預測和判斷。想要訓練出成功的人工智慧演算法,需要運算力和大量的資料,其中最重要的就是資料量要足夠大。除了資料量足夠大,大資料還需要通過採集、清洗、標註等處理工作後才能夠作為人工智慧演算法模型訓練的輸入,但目前在實際應用中,資料流通不暢、資料質量不高和資料安全風險等問題仍然極大制約著人工智慧的發展和應用。

大資料的未來何去何從,與人工智慧技術如何完美結合,共同驅動數字經濟發展,資料智慧或將成為新的熱點和大趨勢。

“資料智慧”是百度公司在2014年提出的概念,百度對資料智慧的定義,指基於大資料引擎,通過大規模機器學習和深度學習等技術,對海量資料進行處理、分析和挖掘,提取資料中所包含的有價值的資訊和知識,使資料具有“智慧”,並通過建立模型尋求現有問題的解決方案以及實現預測等。

2018年10月,第五屆中國國際大資料大會上釋出的《2018年資料智慧生態報告》中提出,在機器學習、分散式計算等技術發展的基礎上,資料逐漸呈現出高維度、高階態、異構性的形式,把能夠對海量資料進行分析、處理和挖掘,並且通過建模、工程等方式來解決實際預測問題,最終實現決策的行動,稱之為資料智慧。

對資料智慧的資訊化落地,業界一般稱之為資料智慧平臺或資料中臺。

據阿里巴巴公共資料平臺負責人介紹,阿里巴巴資料中臺戰略在2015年首次提出,旨在對內提供資料基礎建設和統一的資料服務,對外提供服務商家的統一化資料產品。阿里資料中臺基於OneData體系建立的集團資料公共層,從設計、開發、部署和使用上保障了資料口徑的規範和統一,實現資料資產全鏈路管理,並提供標準資料輸出。基於阿里資料中臺輸出的生意參謀產品,是阿里巴巴首個統一的商家資料產品平臺,為中小企業商家提供資料披露、分析、診斷、建議、優化、預測等多項資料服務。

另外,據百度公司的百度數智平臺官網介紹,該平臺定位為提供大規模機器學習、深度學習、資料分析及展現、資料應用等產品與服務,包括了大資料基礎產品和大資料應用產品兩大類,大資料基礎產品包括大資料傳輸Minos、資料工廠Pingo、資料治理Dayu、資料分析與開發Jarvis、大資料視覺化Habo等產品,大資料應用產品包括百度智客、百度覓客、百度匯客、百度客情、百度商情等產品,百度公司將其數智平臺定位為AI時代的企業資料管家,服務於公司內部和各行業合作伙伴。

在2018年10月由中國聯通大資料公司主辦的加速-U10大資料價值峰會上,中國聯通大資料公司負責人以“數智”為主題發表演講,她認為當前大資料產業已經進入“數智”時代,聯通大資料的數智升級,在於更大規模的資料、更深度的智慧,打造數智新架構體系,做值得信賴的資料智慧服務運營商,同時介紹了中國聯通UBD數智中臺的建設思路。

可以看出,以上代表性企業建設資料智慧平臺或資料中臺的意義主要在於,一是幫助企業管理好內部現有的資料資產,即資料資產管理;二是為企業提供基於大資料的預測分析產品,即人工智慧服務。資料資產管理的目的是為了準備和提供高質量的資料給人工智慧應用,對資料的規範化和標準化是企業實現基於大資料提供智慧化服務的關鍵,也是決定大資料價值實現的基礎。

大資料進入下半場,人工智慧已然崛起,現有的大資料技術亟須和人工智慧技術結合,孕育新的產業生態,從百度、阿里和中國聯通的做法可以看出,向資料智慧型企業轉型正在成為大型科技企業新的行動方向,阿里巴巴提出的“大中臺、小前臺”的做法已經成為業界主流數字化轉型思路,企業通過建設資料智慧平臺或資料中臺,打破內部資料壁壘、盤活資料資產、提升資料價值,對外提供統一的智慧化資料服務,有望再次重構大資料產業生態環境,進一步深挖和釋放大資料的價值紅利。