1. 程式人生 > >微眾稅銀首席風險官許衛 :AI在金融風控領域的實踐應用

微眾稅銀首席風險官許衛 :AI在金融風控領域的實踐應用

10月28日FMI-2018人工智慧與大資料高峰論壇深圳場圓滿落幕,微眾稅銀首席風險官許衛以AI在金融風控領域的實踐應用為主題進行了精彩的分享。

 

微眾稅銀首席風險官許衛

 

 

以下是許衛演講內容,飛馬網根據現場速記進行了不改變原意的編輯(有刪減):

 

許衛:很高興來到這個論壇,我今天的主要目的是和大家分享自己在工作中的心得和經驗,希望給大家在今後的職業發展道路上提供一點幫助。如果有些人覺得有點收穫,我覺得就不虛此行。

 

我主要是做金融的,所以我今天給大家分享的主要是模型在金融領域的細分。

 

我的工作生態

 

工作十幾年,在這期間我接觸了很多機器學習的方法和工作,我也做了很多這方面的事情。實際上,在金融風控領域,一個很重要的主題是怎麼樣在人群裡面挑選出優質的金融服務人群,挑選出風險最高的要避免的人群,通過控制風險,極大化收益,做這樣的事情。

 

以前金融裡面有一個文章叫“Too Big to Fail”,不知道有多少人看過這個電影?金融是關乎國際民生的領域,2008年金融危機的時候,美國有些銀行因為過於激進的策略和方法導致風險集中暴露,美國政府當時花很多錢救援這些金融機構和銀行,後來被很多人詬病說是納稅人的錢買單。這個文章講的這件事情,系統重要性的金融機構影響很大,實際上金融危機後變得比較保守。在新技術的採用上相對科技公司比較保守。這其實對我們在座的各位也是機會。不管是谷歌還是Face book,是國內的支付寶或者是騰訊這邊,先銳的科技公司出來,如果應用到金融領域實際上是有很多空間可以做這件事情的。

 

我們都知道,美國四大銀行有上百年的以上的歷史,但是美國第一資本銀行30年內就做到第五、第六的位置,靠的是所謂的“量化分析”的技術。它做的這件事情,我覺得對於各位或者對於國內其實有一定的啟發。我還在公司的時候CEO曾經在全公司大會上講過最近幾年招了8000多個軟體工程師,多麼大的市場和投入。

 

統計模型vs機器學習

 

傳統的統計方法,最經典的是線性迴歸,比如人群的身高、體重,不同時間點的分佈,在傳統理論裡面是非常簡單的,線性迴歸就可以了,這是非常簡單的傳統方法。

 

量化分析在金融的應用就比較複雜。選擇麥肯錫當年做的案例,比如說AB是兩個不同的風險區分的指標,現在不同的圈裡有不同的風險人群分析,我們如果簡單做統計分析的模型,如圖所示很難區分出來好壞人群。但是我們的模型裡面如果用機器學習的方法,可以很精準的把好的人群和壞的人群區分出來。這只是舉例兩個維度的結果,現實過程中完全不止兩個,可能有幾百個變數。在金融裡面要花很大力氣研究這些變數到底怎麼相互影響、怎麼相互關聯,怎麼影響到我們的結果。當然機器學習也有些不足的地方,比如可解釋性。給一個新客戶放款100萬,機器學習說這是好的,但不能告訴為什麼是好的,這樣風險部門會認為存在很大的風險。如果這種風險累積,就是很大的風險了。美國的監管部門在這塊也有要求,對所謂的因果關係的理解。

 

行業應用的梳理

 

機器學習或者人工智慧在金融行業應用非常廣,去年年底我參加一個論壇,當時請了很多谷歌、亞馬遜等人工智慧實驗室的人來做論壇。為什麼金融公司請這樣的人來?因為人工智慧在金融領域的應用還在方興未艾的階段。

 

欺詐的識別:如果刷支付寶或者是騰訊的產品,怎麼確認是本人,而不是盜了帳號。有幾種型別:一是開帳號的時候,怎麼識別這個人是不是本人?這種欺詐是對人群的區分。其次,在信用卡或者消費金融的領域,每筆都要識別,如各位有手機,你拿手機還,你上一秒在這裡,幾分鐘之後出現在千里之外,這是不是認為有欺詐?你也要考慮錯誤距離的概念,有可能這個人坐飛機的,可能要考慮時間問題。

 

欺詐的模型已經用到了機器學習的技術。裡面有個很重要的速率的變數。這個客戶最近這段時間有多少次申請貸款、多少次尋求金融服務,如果非常頻繁尋求,說明對資金的渴求,那麼這個事情你的欺詐就會高。另外客戶填一個表,用多長時間填地址,如果連自己家庭地址都是猶豫不決,寫來寫去,這個時間上也是一個欺詐指標。

 

營銷的優化:比如第一資本廣告投放一年的預算是10億美金以上,怎麼做到最好的優化,最大的效果。做一個AB test,不同的流程設計,差別都很大。

 

風險的Credit scoring:對人群的風險進行分類。

 

運營的優化:在銀行裡面的客服團隊,客戶打電話進來,現在都是語音識別,自動的做回答。在上市公司裡面,很多後臺的服務人員有上萬的團隊,上萬人是巨大的開支。按照演算法進行優化分發,大大節省人力開支,提高客戶滿意度。

 

前面四個是現在用的非常成熟的或者已經廣泛應用的領域。

 

統計模型和機器學習的優劣勢

 

業務角度講,不管是機器學習還是深度學習還是傳統的方法,都是一個工具,都是為了完成最優的結果,都是為了推動業務的發展。

 

工具角度進行比較,統計學習模型,需要很多的假設,不管是服從正態分佈還是貝葉斯理論,這種假設是不是合適,要打問號。另外如果樣本量很小,怎麼從幾十個樣本里推算出規律,傳統模型處理這種問題很多。相應的,機器學習對大資料處理很強。對變數關係,統計學習更多是處理線性關係和一些非線性關係,機器學習處理更復雜的關係能力更強一些。金融裡面處理幾百個變數的非線性關係很好,準確度機器學習很好。我們之前做過一個專案,兩個組同時做模型,同樣的事情,一個組做傳統方法,一個組做機器學習,最後進行比較,機器學習的方法精確度更高一些。如果是非常經驗豐富的人做統計模型,也能夠逼近。

 

機器學習也有一些缺點,我之前負責過一個專案,小微企業貸款風險建模。最開始的模型用了很多變數,實際上是data driven。發現雖然精度提高了,但是穩定性不夠,實際使用上需要做很多優化。

 

金融領域需要可解釋性,可解釋性是非常重要的。不能是完全的黑盒子。比如現在做欺詐,道高一尺、魔高一丈,很多欺詐公司是想方設法去找漏洞。所以對這塊的反應速度要求很高,精度要求很高,可解釋性要求就降低了。還有模型的穩定度,穩定度之前解釋過,就不再贅述。還有計算的成本,現在這塊對大家不是特別大的限制,但是後來發現也有限制,因為有些公司資料量也是很大。當模型封裝之後,效率什麼樣,很多時候要求毫秒級別的響應,是不是做到實時毫秒級別的響應,要求非常高。

 

不同方式的比較(金融建模)

 

金融建模裡面最傳統的方法是識別人的好壞,最直接的方法是邏輯迴歸。現在流行的是決策樹GBDT。從最傳統的方法講起,當時我們是拿著傳統的SAS做分析,現在Python做分析,發現區別存在,同樣的事情同樣的方法去選,最後選出來的結果不一樣。這很可能導致我對客戶的識別偏差。就需要解釋、搞清楚差別的原因,比如變數選擇,我們拿GBDT做變數選擇,我們選出的變數也不一樣,可能有很大的差別。

 

當時有一個團隊讓他做各種不同的軟體比較、做分析,把這些東西做歸納。

 

比如傳統方法,對缺失值處理很嚴謹,每個怎麼做,傳統的SAS R直接略掉這個,這個不好,因為對樣本是一個損失。對現在的方法可能直接給了一個錯誤出來,這是對邏輯負責,對決策樹直接過了,不會給任何錯誤。對分類變數,比如是好是壞,是哪個地方來的,變數之間的關係不是資料存在,或者不存在數值線性的意義。整個變數的impution,怎麼做變數的差值等等,它是不是能自動識別這種變數等等。

 

二是演算法,是用迴歸、染色迴歸這種傳統的統計方法,還是用彈性網路,可能有很多選擇。

 

不同模型優化的比較。用的比較多的兩個指標是AUC和KS,這兩個指標大家可能非常熟悉,拿SAS比,發現SAS的結果和其他軟體是比較一致的。這是一個開源的東西,需要對結果做一下檢測。比如我用SAS,我是每年付SAS很多錢,SAS確保這個軟體的結果可驗證,沒有任何問題。但是Python不能給我保證,我必須自己驗證。有的公司沒有這方面要求,因為這個東西風險低,對金融機構,尤其比較大的金融機構是由開源軟體的驗證要求的。

 

總結

 

一、現在建模不是簡單跑軟體程式碼,同時也是為了解這個事情之後再做選擇。可能投機取巧的是,我們非常快速找到這種程式碼,不管是幹嘛,很快出結果,所謂調包俠。我們要深入瞭解後面的東西,尤其要理解,只有這樣,才能真正做出有價值的東西。

 

二、我們現在做了很多開源軟體的評估,對不同軟體進行比較,這也是一個很有意義的事情,一個控制風險,二是幫助深刻理解這些後面的演算法和限制。我們很多時候拿這個軟體,可能都不會去細看,但是實際上這個事情也是十分重要的。

 

三、最後想從我慢慢走向業務端的經驗來講,我最開始做技術,不斷進行技術方面的學習。我逐漸意識到技術是一個核心的東西,但是真正要做好,也需要加入對資料和整個業務的理解。如果有了這些,加上技術,未來在職業發展道路上就會有更廣闊的天地。

 

這是我的簡單分享。

關注公眾賬號

飛馬會

 

 

 

往期福利

關注飛馬會公眾號,回覆對應關鍵詞打包下載學習資料;回覆“入群”,加入飛馬網AI、大資料、專案經理學習群,和優秀的人一起成長!

 

回覆 數字“22”吳恩達新書,教你構建機器學習專案:《Machine Learning Yearning》

回覆 數字“24”限時下載 | 132G程式設計資料:Python、JAVA、C,C++、機器人程式設計、PLC,入門到精通~