讓人人都能使用 AI
本文是作者在2018年9月25日眾智匯社群分享的記錄。由 @L 記錄整理。
作者 : 常雷 博士,偶數科技創始人兼CEO。 北京大學計算機系博士, 曾任EMC高階研究員、EMC/Pivotal研發部總監, 長期專注於AI和大資料領域。
Apache HAWQ資料庫頂級專案創始人, 中國大資料產業生態聯盟專家,中國人工智慧百人專家,2017年入選美國著名商業雜誌《快公司》“中國商業最具創意人物100”榜單。
曾在國內外頂級資料管理期刊和會議(如SIGMOD等)發表數篇論文,擁有多項國際專利。
成為AI創業者
結合關係資料庫和Hadoop
我是2008年從北京大學博士畢業的,專業方向是資料庫。在博士期間主要做的是資料庫、資料倉庫、資料探勘和機器學習的研究工作。
畢業之後我加入了EMC。當時EMC剛開始在中國建立研發中心,而大資料(Big Data)則剛剛開始興起。我入職後主要做大資料和機器學習相關的工作。
到了2010年左右,Hadoop已經在中美非常流行了,許多企業開始嘗試用Hadoop儲存、處理大量資料。
Hadoop可擴充套件性強,但是效能非常差;傳統的資料庫關係資料庫讀寫查詢速度很快,但是可擴充套件性比較差。所以當時我就想:這兩個東西是不是可以結合起來?
為了驗證想法,就做了一個原型系統,結合了關係資料庫和HDFS。這個系統釋出了alpha版,並在沃爾瑪進行了試用,反饋非常不錯。
開源HAWQ,成為Apache頂級專案
之後我們對原型進行了產品化,起名為HAWQ。HAWQ源自英文的HAWK(鷹),把K改成了Q。
2013年,HAWQ1.0釋出,並在全球推廣。此後的2年裡,很多世界500強公司都已經開始使用。
2015年底,我們把HAWQ開源給了Apache ——大家知道Apache 是世界上最著名的開源組織,很多大資料專案,比如Hadoop,Spark都是Apache孵化的。
開源在中國的發展相對滯後,開源專案還是比較少的。在資料庫領域,HAWQ是中國團隊貢獻的第一個Apache頂級專案。
把HAWQ作為開源給Apache,初衷是為大資料生態做貢獻,希望整個生態系統會有好的發展。
除了開源,HAWQ團隊在學術領域同樣有所貢獻,我們的研究成果在SIGMOD發表——世界範圍內,在資料庫這個領域有三大頂級技術會議,第一個就是SIGMOD,第二是VLDB,第三是ICDE。
走上創業的征途
在取得了這些成績之後,2016年底,HAWQ團隊從原公司獨立出來,創立了偶數科技,專注人工智慧和資料技術。
偶數科技在2017年先後拿到了兩輪融資。2018年的2月份,又加入了微軟加速器。
申請微軟加速器的過程經過層層選拔,和全球1000多家公司競爭,最終我們得以入選,最終同期總共只有15個公司入選。
坊間傳言進入微軟加速器也是比進哈佛的難度還高。我們得以入選,也體現了偶數科技在人工智慧和資料平臺這一塊的技術和基礎。
AI系統層級
一個完整的AI解決方案,包含下列4個層次:
1. AI硬體層
目前位於這一層的企業很多,包括做CPU、GPU、FPGA,以及專用機器學習的硬體,和感測器等等硬體裝置的公司。
硬體是程式執行的基礎,具體到AI領域,硬體對於演算法、框架的效能提升有很大幫助。
2. 資料平臺層
很多人把資料平臺和人工智慧完全都離開。但是我認為資料平臺也是整個AI解決方案的一部分。
畢竟,任何人工智慧的操作都是在資料的基礎上進行的。人工智慧的平臺也是基於資料平臺之上的。
資料平臺又可以分為下列幾個部分:
1)資料倉庫
資料倉庫負責儲存查詢和處理結構化資料。
無論是結構化資料、半結構化資料,還是非結構化資料,要做分析的時候,基本95%以上的資料都要轉化成結構化的。
因此,資料倉庫是資料平臺裡最重要的一個部分。
2)流處理
資料產生的速度越來越快,許多資料處理,甚至更進一步的分析都需要實時進行,因此對於流處理的需求日益提高。
3)圖資料管理
現階段的知識圖譜技術,是圖資料管理的典型。
知識圖譜在許多領域,例如金融反欺詐,犯罪嫌疑人側寫,運動軌跡分析等等,都有所應用。
而知識圖譜的底層,則是圖資料庫。
4)資料治理
想做一個好的一個專案,資料質量和源資料管理非常重要。
開發者需要把來自多個數據源裡的資料整合起來,資料的質量有所保障,才能保證上面的人工智慧演算法準確率會比較高。
3. 基礎AI技術層
AI領域最傳統的基於規則判斷的控制技術,已經被證明效能很不好,準確率也有很多的問題。
目前應用中,最基礎AI技術是機器學習。近年來發展迅速的深度學習是機器學習的子領域。
4. 行業應用層
雖然各個行業都可以應用AI技術,不過目前AI應用較多的主要有:金融、安防、醫療、工業、家居,以及機器人、自動駕駛等行業。
尤其是AI+金融和AI+安防,這兩個行業資料量大,資料結構、型別豐富,應用也比較剛性。
比如:反洗錢這個需求。如何根據一個賬戶的交易行為,判斷它是一個洗錢賬戶?在交易上,特別是洗錢交易有很多這種固定的模式,所以我們可以認為它是一個模式識別問題。
在安防領域也有類似的需求,公安接到了十個案件,裡面可能有兩個案件是同一夥人做的。但是如何把這兩個案件找出來,歸併成同一個案件?這也是一個模式識別的問題。
AI在這些領域,有非常大的貢獻。
AI公司類別
目前階段,以AI技術立命的商業企業,可以分為下列幾類:
1. AI硬體公司
(1)做CPU、GPU等AI硬體的公司。代表企業比如英特爾。
(2)提供雲服務的公司,比如亞馬遜,阿里雲,華為雲等。
(3)資料技術相關的公司,比如Hadoop、Spark,以及傳統的資料倉庫公司Oracle等。
2. 計算機視覺公司 & 語音公司
以人臉識別、語音識別等為主營業務的公司,例如曠世、科大訊飛等等。
3. 自然語言處理公司
自然語言處理的公司有好幾大類,其中有一類專門做客服,比如三角獸,微軟也做了很多相關工作。
4. 機器學習平臺公司
上層的應用都是基於底層技術的,機器學習是目前的主流AI技術。機器學習平臺公司開發機器學習平臺,為其他公司提供各種自動化的演算法、模型、神經網路等。
偶數科技可以歸屬到此類,我們開發一款名為LittleBoy的人工智慧平臺。
AI對傳統對行業的滲入
AI是如何滲透進傳統行業的呢?我們來看看例子:
信用評分、風險控制是金融領域的剛需也是核心業務內容之一,早期這些業務是用基於規則的方法實現的。
後來開始引入機器學習模型來構建打分卡。
從2015年開始,世界上各大金融公司都開始嘗試引入深度學習。
美國三大徵信局: Experian、Equifax,和 Transunion。前兩家在2017年選擇和AI創業公司合作,為無信用記錄人群進行貸款風險評估。
而 Transunion則在2018年新發布了基於神經網路的信用評分系統。
AI在金融領域在慢慢的滲透,用技術來做信用評分以及反欺詐已經成了當前的潮流。
Amazon(亞馬遜)雖然是目前世界最大的雲供應商,但同時它也是一家電商,它目前也在利用電子商務賬戶交易信息,來做小額信貸。
傳統行業面臨的AI挑戰
在將AI應用到金融上這一點,國內相對還比較落後。像同盾等徵信公司,基本上還是以基於規則的方式做信用評分。
大家當然是不甘落後的,都在探索怎麼把人工智慧用金融領域裡。在探索的過程中,也遇到了很多挑戰——
a)傳統行業的業務公司在試圖應用AI技術的時候發現:
-
人工智慧太難。要應用AI首先需要熟悉計算機技術,還要理解清楚深度學習,會使用TensorFlow等等。
-
應用AI需要具備數學知識。需要很紮實的統計學知識,要了解機器學習、資料科學。而這些領域的專業人才都非常難得。
b)對於AI創業企業而言,想讓AI技術真的創造價值,必須熟悉業務領域的專業知識,比如做反洗錢,就要了解反洗錢是怎麼回事情,在原有業務中是怎麼運作的等等。
因此需要既掌握AI技術,又掌握業務知識的人才——這樣的人才非常少,也非常貴。
傳統行業企業在試圖應用AI技術時非常痛苦,因為它們原有的業務人員和IT人員都無法完成這個任務。
讓AI人人可用
計算機剛出現的時候,是大型機,只有大企業才有經濟實力承擔購買和使用的費用。
但是後來經過幾十年的發展,出現了小型機、PC、Laptop,慢慢手機也可以當小電腦使用了。如今,每個人都能用上計算機了。
人工智慧也是一樣。AI現在處於對應於計算機大型機的時代,現階段只有大公司才有實力僱傭高階專業人才來使用它。
雖然現在如此,我們卻相信AI的未來一定也像今天的計算機一樣,是普通人很簡單的就能學會,老百姓人人都能用起來的。
比如:某公司HR經過半小時培訓,開發了一款自動篩選簡歷的AI工具,自動判斷海量應聘的簡歷是否符合公司要求——這樣的情形是不是我們希望出現的?
要達到如此的易用,AI技術需要解決兩個問題:易用和效能。
易用是指AI工具應該簡單到讓普通人很容易上手。
效能則是說,要讓使用者有好的體驗,就需要儘量達到實時性。
如果做資料分析,你肯定不希望傳送一個SQL語句後,等2個小時資料庫程式才給你返回吧。
早年的網際網路(八九十年代)網速非常慢。開啟一個網頁都要等好久,當時上網是一件非常痛苦的事情。
隨著網速的提升,體驗也逐漸不一樣了。能夠立刻得到答覆,這一點是互動式應用的基礎。
無論人工智慧還是資料分析,要具備互動性,就要先解決效能問題。
所以說我們做的這個事情基本上都是想讓普通老百姓,包括資料科學家能夠的有很好的體驗來做人工智慧。
讓機器學習全生命週期“拖拽可得”的AI平臺
如果有一個平臺,真的可以讓普通老百姓都能夠應用AI技術,那它應該是什麼樣子的呢?按我們的構想,它應該具備以下特點:
1. 底層基於雲平臺。
雲端計算虛擬化、統一管理、隨處可見的特性,使得它已經廣泛應用於各類企業的IT產品和服務。我們的AI平臺既然追求簡單易用,自然不應該讓使用者遭受安裝系統和各種工具的煩惱,雲端計算是一個天然的好訓責。
2. 底層之上,有內建的資料管理系統(資料庫)作為支援。
所有的機器學習、深度學習都是基於資料的,而且可能需要的訓練集相當龐大。為了讓非專業使用者可以輕易的傳輸、處理資料,應當有內建的資料管理系統,而不是要求使用者自己再去搭建資料庫。
3. 核心層是零門檻的機器學習建模平臺。
因為目標使用者是普通人/小白/初學者/零基礎的使用者,因此,不應該將大量的引數和公式暴露給他們,而是把機器學習模型封裝成黑盒,只要有輸入,黑盒就能給出一個輸出。
舉個例子:洗錢應用的輸入是所有賬戶的交易資料。比如今天這個賬戶一共有500筆轉賬,每筆轉賬了1萬塊錢,這是輸入資料。經過黑盒子反洗錢模型之後,輸出結果:這個賬戶是洗錢賬戶(或者不是洗錢賬戶)的還是不洗錢的。有了輸入->黑盒->輸出,就構成了一個最基礎的AI系統。
4. 多類相容的I/O模組。
AI系統可能應用於各種領域,因此,需要接受各種不同格式、型別的輸入,例如:語音訊號(語音識別),感測器資料(工業應用),GPS資料(車聯網)等等。這些資料平臺都要能夠處理。
輸出方面,應該可以直接輸出簡單的結構化資料。也應該能夠語音等型別的資料(支援互動式問答系統)。
5. 基於拖拽的"積木式"使用者介面。
種種功能就像一塊塊小積木一樣堆在那裡,需要哪個,就拖過來用,不需要了,就拽走扔掉——可以隨心所欲,任意組合。
這樣的系統太理想了,真的能夠出現在現實中嗎?
向著“人人可用的AI”努力的“小男孩”
偶數科技的LittleBoy平臺,就是一個正在行進在理想路上的小男孩。
LittleBoy很像是一個數據科學家。
資料科學家是怎麼工作的呢?一般是這樣的:
-
首先,整理好輸入,資料中提取出有效的特徵。
比如輸入是一個關係資料庫的大表,裡面可能包含1000個column,這些column都可以是這份資料的特徵。
-
然後,選擇模型型別(比如選擇LR,SVM,GBDT,或者CNN網路等等)和演算法,如果選擇的是機器學習模型,還需要調參,並進行模型訓練。
模型的型別有很多,演算法的型別有很多,模型引數的組合則更多——引數組合可能有幾百萬甚至上千萬種。
對於資料科學家而言,要花費大量時間在這裡,通過多次的迭代,達到優化的結果。
LittleBoy所作的,就是把資料科學家的這些工作自動化——
【1】特徵提取
在使用傳統的機器學習系統時,資料科學家要手動選擇特徵。如果本來有1000個原始特徵,資料科學家要自己去嘗試其中那些是有效特徵,如何組合最能夠優化結果。
而這1000個原始特徵交給LittleBoy,它會自動做資料預處理包括填空值、正則化等等,然後自動選取有效特徵。
【2】模型訓練
選取完特徵,LittleBoy還會自動進行模型訓練——自動選擇演算法、模型型別,自動調參,迭代訓練,根據測試集來做評估,最終得出模型。
【3】模型釋出
此外,LittleBoy能夠將訓練好的模型自動釋出。
訓練好模型就是為了使用的,需要有專門的系統來讀取模型,執行模型,讓模型可以預測新的資料。
LittleBoy一旦訓練好模型,使用者只需要點一下發布按鈕,這個模型就會自動生成一個服務。其他人或者程式就可以通過傳送REST API來呼叫它。
【4】以OushuDB為基礎的資料管理
我們公司的OushuDB也是解決方案中的重要一環。
它提供資料的統計分析和查詢功能。而且與關係資料庫和Hadoop系統都是無縫整合的。我們稱為新一代資料倉庫。
雖然與Hadoop無縫接合,但效率卻相對Hadoop有指數級的提升——OushuDB基於SIMD(單指令流多資料流)指令開發了一個新的執行器。在TBCH的標準測試資料集上執行查詢操作,比Spark快了幾十倍——做到這一點這是非常困難的。
【5】基於雲平臺
LittleBoy既可以部署在企業私有云上,又有部署在公有云上的公共版本。
以上特點,使得LittleBoy真正達到了零門檻AI系統的水平。
我們去做過實驗,找了很多文科背景的學生。他們接受了15分鐘到半個小時的培訓後,給他們信用卡交易資料,就能做一個簡單的信用卡反欺詐模型了!
AI+金融案例分析——反洗錢AI解決方案
下面來分享一個偶數科技做過的真實案例:為某商業銀行開發反洗錢AI解決方案。
這家銀行擁有約1000萬客戶,之前用的反洗錢系統是基於規則的,每天輸入當日所有的客戶交易記錄後,大概能報告出200個可能的洗錢賬戶。
但是再經過進一步的人工排查就會發現,這200個賬戶裡,真正洗錢的賬戶可能只佔1%。也就是說原有系統的準確率非常低。
這當然和規則系統的維護難度也有關,如果規則到了幾百條,閱讀規則的人就很難找出從頭到尾的邏輯了,很可能維護人員自己都不知道規則到底規定了什麼。
為了讓這樣一個低準確率的系統工作,銀行要投入一個大概20人的團隊,專門來對系統自動發現的賬戶進行二次判定。這還只是我們這家客戶,如果是大型銀行,那麼這個人工團隊有可能要三五百人。
我們利用LittleBoy給銀行開發了一個反洗錢模型,這個模型平均每天只給報告約三個可疑的交易賬戶,準確率非常高,達到了90%以上。
在提供這個查準率極高的模型同時,我們還提供了一個查全率接近100%,而查準率也超過50%的模型。
客戶可以參考兩個模型的結果,兼顧查準和查全。這樣,銀行在保證業務的同時,需要投入的人力大大縮減了。
Q1:現在很多大公司在開發AI平臺,偶數的優勢是什麼?
A1:首先,自動機器學習這一塊大家都處於早期發展階段,即使是一線網際網路公司等大企業,在這方面並無絕對優勢。
而且,我們做的是針對金融和公安領域的,基於高結構化資料的機器學習。我們所做的機器學習自始至終是結合著應用場景在做的。
而國外大公司比如Google和微軟,雖然也做機器學習平臺,確實在做通用平臺,和具體的行業、業務沒有繫結關係。
我們還有一個有點就是有自己的資料倉庫——OushuDB,資料倉庫是我們獨立研發的,在功能和效能上都全面把控。尤其在效能上,可以做到極致。這是我們獨特的優勢。
Q2:在使用Hadoop的過程當中踩過哪些坑?
A2:踩過的Hadoop的坑挺多的。
Hadoop整個生態系統比較複雜。真的想用好所有的元件非常困難。還有,往往很多元件功能是重疊的,其中卻沒有一個真的把功能做透,效能做高。這是大家用的時候最痛苦的地方。
我的建議是:Hadoop是一個很好的系統,但可能需要精挑細選一些元件來用,最好不要所有的元件全上——這是我們看到的很多Hadoop客戶最常犯的一個錯誤——那樣的話運維成本包括學習成本都會非常高。
Q3:LittleBoy和TensorFlow比有什麼樣不同和優勢?
A3:這兩個是不同的東西。LittleBoy的定位是自動化機器學習系統,而TensorFlow的定位是深度學習框架。
LittleBoy極大地簡化了使用者建模的過程,可以傻瓜式操作,零程式設計完成建模。
TensorFlow只是提供一個機器學習框架,你要訓練神經網路,還得自己寫程式碼。
Q4:創業企業相關稅收政策的變更,對偶數科技有影響嗎?
A4:對我們基本沒有影響,因為偶數科技一直是遵守政策做事情的。
當然,對整個創業市場會有一定的影響,因為現在創業市場並不是那麼規範。但長期來說應該影響不大。
小編直通車:掃描下列二維碼
“眾智匯” 願景
盡職盡才,允公允能 —— 本社群不定期舉行線上分享,組織群友分享知識、經驗、資源,以達到 讓我們每個人的職業生涯得到最大程度的發展 的目的 。
往期線上分享例項
OA==&mid=2652730803&idx=1&sn=3a69a92c9808d1cfefd7f7b271bbfeef&chksm=805c1f00b72b9616f4f54d65f5983378528260245fb99130c33e343cfaf08f0202189aa6ddc3&scene=21#wechat_redirect" target="_blank" rel="nofollow,noindex"> 大資料在輿情服務領域的應用
成全自己的熱愛與瘋狂——從醫生到創業者+動漫創作者,夢想使然
程式設計師的前10年——職業發展建議
歡迎掃面下列二維碼關注“悅思悅讀”公眾微訊號