1. 程式人生 > >機器學習如何應用於金融領域?

機器學習如何應用於金融領域?

轉自:http://mt.sohu.com/20160721/n460368881.shtml

去年P2P公司遇冷後,紛紛轉型稱會用大資料、機器學習等科技手段服務金融,搖身一變成為時髦的Fintech金融科技公司。但實現過程並不簡單,讓機器代替人去處理資料做判斷,在國內金融領域才剛剛起步。

  CreditX氪信是雷鋒網(搜尋“雷鋒網”公眾號關注)接觸的一家用機器學習做風投的公司,在金融領域擁有不少實驗經驗和思考。最近氪信創始人朱明傑在朗迪中國峰會發表演講,談及了將機器學習應用於金融的難點,以及如何提升模型的可解釋性。下文編輯自演講內容,有刪減。

  我做了十多年的機器學習,用機器代替人去處理資料做決策和判斷。過去十多年的機器學習,成功的應用都是在網際網路上,搜尋,廣告,推薦,可以說網際網路率先達到了資料時代。而到金融創新這個領域,如何實現網際網路級別的機器學習和人工智慧,大家都剛剛起步,我今天想講講我們CreditX在金融領域實踐網際網路級別機器學習的一些經驗和思考。

  金融風控的痛點

  我一直認為,“科技進步是被業務需求逼出來的”。過去我們在網際網路行業靠演算法和機器,都是被逼的,為什麼,因為資料量實在太大了,你想去淘寶搜個手機殼,讓阿里的同學人肉從上億的商品裡幫你找出最喜歡最合適的,那根本不可能。傳統金融場景裡,一筆100萬的貸款主要靠風控人員和關係,那是可行的;而到了銀行的信用卡中心,積壓的申請稽核,讓審批人員每週加班,都批不完。

  那現在網際網路金融要面臨更加普惠的場景,比如幾百塊錢一筆的手機貸,靠鋪人力一定是行不通的。所以,這已經不單單是提升運營效率問題,而是必須要把活兒交給機器,讓機器來學習人的風控經驗,機器人變成風控專家。

  金融領域應用機器學習與人工智慧的難點

  第一個問題是資料太少。因為金融資料非常稀疏,而且現在的很多金融產品形式在以前沒有發生過,所沒有十幾年的資料積累。換句話說就是缺少訓練資料,這又被稱為冷啟動,缺資料。另外,金融領域出現壞賬情況少則一個月多則數月,資料積累需要等很久,相比之下,網際網路搜尋領域內可以迅速拿到點選反饋,兩者差別很大。所以資料缺失是阻礙機器來學習人類經驗的巨大障礙。

  第二個是資料太多。這裡指的是資料特徵維度多,超過了人的處理能力。傳統金融只有十幾維度的特徵變數,人工調公式即可應對。但現在面臨這麼多維度的資料,大家也想了很多很好的願景,討論很多資料都可以用。但為什麼用不上呢?問題在於我們有什麼辦法可以有一個很強的表達能力將這些很原始的,也可以叫弱變數的資料特徵利用起來。將弱特徵資料組合起來,與結果聯絡起來,讓人的直觀經驗可以理解,讓風控專家去反饋。

  在金融場景內,不能像網際網路機器學習一樣是一個黑盒子,一堆資料扔進去,等結果來反饋迭代。 金融場景內,特別強調模型的可解釋性,這樣才能把人的風控經驗和直觀感受跟資料表現結果關聯起來。在此基礎上,我們才能說把人的經驗介入到利用資料進行機器學習建模的操作中去。做到特徵要能夠追溯回去,尤其是金融的反饋結果要等很久,需要人能夠快速干預反饋。

  如何解決金融風控冷啟動問題

  資料太少

  對於資料太少和產生太慢的問題,冷啟動問題是一個非常典型的case。我們在網際網路行業經常面臨缺少資料的問題,也積累了成熟的經驗,就是把人的因素疊加到機器學習過程中去。我們做搜尋廣告時,會請人標註資料,然後通過標註資料的專家來指導演算法工程師調優演算法,改進排序結果。而在金融場景裡,我們有很多現成的經驗以及經驗豐富的風控人員,這些專家有很強的風控知識。

  理論上講,如果有幾百個風控專家,不用發工資,我們做手機貸也可以做下去,但實際情況是我們必須靠機器去學習人的風控經驗。所以我們通過半監督學習的方法,把業務風控專家和實際的信貸結果在online學習中做一個結合。在這個過程中,風控人員可以實時的介入,不停地根據輸出結果做一些調整,然後非常實時地反饋到模型訓練的迭代提升的過程當中。

  這就說我們特別重視人的因素。現在大家都在講人工智慧, 人工智慧的本質是什麼?在我的理解其實就是讓機器學習人的經驗。以前我們依賴幾個經驗豐富的風控人員,現在我們可以讓機器把人的經驗學過來,然後讓機器來做一個自動的決策。

  金融的業務結果和樣本非常珍貴。比如,我之前在房貸業務上積累了一些樣本,然後換到一個新的消費信貸業務上,或者從一個消費信貸業務切換到另一個新的業務。這些珍貴的樣本資料不能丟掉,但怎麼去用呢?我們可以做到儘可能利用已有的經驗和知識,把generic的風險核心模型和domain knowledge分開,再去根據業務的場景資訊,以及場景內的先驗知識結合起來,在此基礎上學習和複用跨領域跨場景的知識,並且可以做到知識積累。

  深度學習技術解決特徵工程的難點

  資料太多

  接下來我們來看“資料太多”。我將這個問題分為兩個部分來看。

  首先是資料的特徵維度很多。我們關心的是如何將大資料和金融風控的問題掛鉤起來,這裡面其實是需要非常強大的特徵加工和表達能力。這是傳統的線性迴歸統計建模方法很難去完成的。我們的辦法有很多,這裡麵包括大家現在熱度很高的“深度學習”。深度學習的本質是通過資料特徵的處理去學習人處理知識和資料的方式。為了解決資料太多的問題,讓人能看透浩瀚的原始資料,在模型的前端,我們嘗試了不同的深度特徵編碼方法,非監督學習的方法對原始資料進行預處理,從而實現特徵的降維,將浩瀚的原始資料和最後結果掛上鉤。

  模型的可解釋性

  其次是模型的可解釋性。金融專家特別關心模型的可解釋性。這裡面有兩個意義:

  如果給信貸物件一個打分的結果,如果不能解釋,這個很難和申請人去溝通的;

  另外,我們所面臨的是一個非常複雜的環境,如果對於風控結果仍然是黑盒進黑盒出的話,風險是很難去把控和估計的。

  如果模型出了問題,造成的風險漏洞是我們不能承受的。在網際網路金融業務這麼快速成長的背景下,很有可能公司的業務都做不下去。所以,網際網路內黑盒進黑盒出的方法就不適用於金融場景,需要有一個可解釋的local模型去做到。我們的實踐經驗是, 利用LIME去捕獲結果或者區域性結果中的關鍵變數,然後讓風控專家迅速的抓到是哪些特徵導致結果的變化

  氪信取得的效果

  我們把網際網路的技術經驗,在金融場景內做了一些艱難的嘗試,並得到了一些實踐經驗,包括從最開始的資料獲取處理,到人的介入參與,到對複雜模型的干預過程,最後形成我們的practice。

  從效率上說,我們的一個合作伙伴得到了很好的效果。他們做了一個金融信貸場景,部署在氪信的系統和模型上跑,只需要3-4個業務風控兼運營的人員,風控的大部分工作交給機器去做。

  另外從效果上看,我們利用DNN模型做出來一個結果,可以看到結果比傳統的LR模型ks值從0.19提升到0.43。數字和結果是我們做模型的人最直接的一個答案,這裡面沒有什麼可以講概念的。

  大家之前對大資料期望值很高,又屢屢失望,現在其實對資料科技來說是一個很好的時機。因為大家真的需要能夠有運用資料的能力,用機器解決金融實際問題,這也是我們這個時代的機會和風口,也是一個新的開始。

  下個月的12、13號,雷鋒網將在深圳舉辦一場盛況空前的人工智慧與機器人峰會,屆時我們將釋出“人工智慧&機器人Top25創新企業榜”榜單,為此我們在蒐集並確認AI、機器人、自動駕駛、無人機等幾個領域的優質專案。如果您的專案是相關領域的,且足夠有技術壁壘、足夠有成長性,歡迎聯絡[email protected]