1. 程式人生 > >機器學習在金融大資料風險建模中的應用

機器學習在金融大資料風險建模中的應用

【摘要】

在網際網路金融、消費金融的蓬勃發展的當下,央行徵信在資料時效性、全面性和層次性上的短板日益凸顯。深度挖掘網際網路大資料資訊,開發大資料風控模型,更加精準的評估風險,已經逐漸成為了新一代信用風險模型體系建設的核心課題。

本文在傳統風險模型體系的基礎上,嫁接邏輯迴歸和決策樹模型建立T-L模型,並結合Random Forest模型完善模型結構。採用T-L核模型替代RF模型中的傳統決策樹模型,將RF模型和T-L核模型結合,建立了ScoreNet模型體系。既大大提升了風險模型區分能力,也保證了模型結構的清晰和評分廣泛的應用。

【關鍵詞】大資料風控  T-L模型  Random Forest  ScoreNet

1.選題背景及意義

目前,央行的個人徵信中心收錄的自然人數達8.6億多人,但其中僅有3億多人有信貸記錄,同時信貸記錄主要來源於商業銀行和農村信用社等金融機構,在資料時效性、全面性和層次性上存在嚴重短板。因此深度挖掘網際網路大資料資訊,開發大資料風控模型,彌補央行個人徵信資訊的不足,在網際網路金融蓬勃發展的今天尤為重要。

無論是線上還是線下的使用者消費、社交資料,都有著不同於傳統徵信資訊的獨有特徵:

資料的稀疏性強(使用者線上線下的行為散佈廣泛,極難全量收集和覆蓋;使用者行為偏好亦各有不同,在不同門類的行為差異很大,因此資料的稀疏性極為明顯。一般情況下,使用者行為資訊的缺失率均超過50%);

資料覆蓋面廣(資訊覆蓋面廣泛,支付寶或微信都有超4億活躍使用者,使用者行為覆蓋服裝、書籍、租房、休閒、娛樂等各方面,單指標維度超過1000個);

單變數風險區分能力弱(不同於傳統風險模型採用的歷史履約情況,個人資產評估等強變數,消費或社交變數一般均為區分能力較弱的弱變數)。

傳統信用風險評估模型在業務邏輯架構下,利用資料驅動或專家經驗開發模型模板,最終結合統計分析模型(邏輯迴歸、判別分析等)得到精準的計量結果。然而在新的資料畫像和業務情景下,不僅喪失了原有的業務邏輯框架,更使得傳統統計分析模型的應用受到嚴重限制。近年來,機器學習技術得到飛速的發展,在資訊識別、推薦引擎等領域都取得了出色的應用效果,大量實驗結果證明機器學習模型有著良好的魯棒性和泛化性。但機器學習模型的模型邏輯極為複雜,很難把控模型的真實效果,也不易於直觀展示和解釋變數的風險特性。如何結合傳統風險評估模型體系和機器學習技術,在保證業務邏輯和評分廣泛應用的前提下,更加精準的評估風險已經成了新一代信用風險模型體系建設的核心課題。

2.文獻綜述

David Durand(1941)在信用評分領域首先使用判別分析,預測貸款者的還貸情況;20世紀50年代,Bill Fair和Earl Isaac發明了基於logistics迴歸模型的FICO信用評分體系,得益於清晰的業務邏輯和解釋性,該評分體系逐漸成為了最為廣泛應用的風險模型體系。然而無論是邏輯迴歸還是判別分析模型,都主要針對線性問題,無法對變數的非線性結構進行分析,同時對資料完整性和有效性要求較高,對資料噪聲亦比較敏感,不適用於大資料背景下的模型開發和整合。

McCulloch, Warren; Walter Pitts(1943)[1]提出了神經網路模型,取得了十分廣泛的應用,並首次描繪了機器學習理論的雛形;Ray Solomonoff(1956) [2]在An Inductive Inference Machine一文中,首度提出了機器學習的概念;Aizerman, Mark A.; Braverman, Emmanuel M.; and Rozonoer, Lev I. (1964)[3]在統計學習領域的研究中提出了應用最為廣泛的機器學習模型支援向量機(SVM);Breiman, Leo (1996)[4]、Michael Kearns(1988)[5]、Ho, Tin Kam (1995)[6]提出了整合學習演算法:Bagging、Boosting、Random Forest,完美的解決了傳統機器學習演算法過度擬合的困境,使得演算法的穩定性、泛化性和魯棒性都有了顯著的提高。近年來,機器學習演算法在影象識別、語音識別、資訊檢索、推薦引擎、非結構化資料探勘等領域都取得了突破性的進展。推薦演算法與風險模型的一致性,及GBDT[7]和Random Forest在推薦演算法上優異表現,為我們研究金融大資料風險模型提供了新的方向和挑戰。然而無論是單一機器學習演算法,還是整合學習演算法都有著複雜的模型結構,這種複雜的結構不僅使模型喪失瞭解釋性,而且限制了專業模型分析人員對模型的把控能力,很難實現真正意義上的廣泛的應用。

3.研究的理論框架與模型建設

本文在傳統風險模型體系的基礎上,嫁接邏輯迴歸和決策樹模型建立T-L模型,並結合Random Forest模型完善模型結構,建立了ScoreNet模型。既大大提升了風險模型區分能力,也保證了業務邏輯的清晰和評分廣泛的應用。

3.1.T-L核模型

傳統信用風險評估模型在業務邏輯架構下分析變數的基本屬性及風險區分能力,用邏輯迴歸等統計分析模型進行量化分析,得到精準的風險計量結果。然而使用者行為資料獨有的稀疏性會使得統計模型極不穩定。決策樹對區域性資料分析有著極強的穩定性和魯棒性,同時可以揭示變數風險區分能力的非線性結構關係。因此我們將決策樹模型和邏輯迴歸模型進行嫁接,建立T-L核模型。即在進行統計建模前新增一層決策樹模型進行單變數分析,同時利用CHAID決策樹生成二元決策樹變數,然後將決策樹模型的輸出結果(單變數、交叉變數及二元決策樹變數)一同匯入邏輯迴歸模型中進行統計建模,確定所有風險因子的風險權重。

3.1.1.決策樹模型

在決策樹各種演算法中,CHAID[8](Chi-Squared Automatic Interaction Detection)既適用於二值型變數,也適用於連續型變數。針對每一次分叉,CHAID對二元響應和連續型目標變數分別採用了卡方和F檢驗。因此在本文中,選擇CHAID演算法作為決策樹演算法。

CHAID演算法以因變數為根結點,對每個自變數(只能是分類或有序變數,也就是離散性的,如果是連續變數,如年齡,收入要定義成分類或有序變數)進行分類,產生一系列二維表,然後分別計算所生成二維表的卡方統計量或F統計量。如果因變數(目標變數)是定類變數(例如PD模型),則採用卡方檢驗(Chi-Square-Test);如果因變數是定距變數(例如LGD,EAD模型),則採用F檢驗(F-Test)。如果幾個備選變數的分類均顯著,則比較這些分類的顯著程度(P值的大小),然後選擇最顯著的分類變數以及劃分作為子節點。

3.1.2.邏輯迴歸模型

邏輯迴歸模型[9]是因變數服從二項分佈,且自變數的線性預測與因變數的logit變換相連線的一種廣義線性模型[10],具體數學表示式為:

機器學習

由此可以得到

機器學習

理論可以證明,如果樣本的分佈服從多元正態分佈,那麼該樣本正好符合對數迴歸的假設。對數模型的誤差項服從二項分佈,因此,在擬合時採用最大似然估計法進行引數估計要比最小平方誤差法估計。

3.2. Random Forest模型

3.2.1.Random Forest的基本原理

隨機森林是由美國科學家Leo Breiman將其在1996年提出的Bagging整合學習理論[4]與Ho在1998年提出的隨機子空間方法[11]相結合,於2001年發表的一種機器學習演算法[12]。隨機森林是以決策樹為基本分類器的一個整合學習模型,它包含多個由Bagging整合學習技術訓練得到的決策樹,當輸入待分類的樣本時,最終的分類結果由單個決策樹的輸出結果投票決定,如下圖所示。隨機森林克服了決策樹過擬合問題,對噪聲和異常值有較好的容忍性,對高維資料分類問題具有良好的可擴充套件性和並行性。此外,隨機森林是由資料驅動的一種非引數分類方法,只需通過對給定樣本的學習訓練分類規則,同時亦不需要分類的先驗知識。

大資料

隨機森林是以K個決策樹為基本分類器機器學習,進行整合學習後得到的一個組合分類器。當輸入待分類樣本時,隨機森林輸出的分類結果由每個決策樹的分類結果簡單投票決定。這裡的

機器學習是一個隨機變數序列,它是由隨機森林的兩大隨機化思想決定的:

(1)Bagging思想:從原樣本集X中有放回地隨機抽取K個與原樣本集同樣大小的訓練樣本集(每次約有37%的樣本未被抽中),每個訓練樣本集構造一個對應的決策樹。

(2)特徵子空間思想:在對決策樹每一個節點進行分裂時,從全部屬性中等概率隨機抽取一個屬性子集,再從這個子集中選擇一個最優屬性來分裂節點。

由於構建每個決策樹時,隨機抽取訓練樣本集和屬性子集的過程都是獨立的,且總體都是一樣的,因此

機器學習

是一個獨立同分布的隨機變數序列。

訓練隨機森林的過程就是訓練各個決策樹的過由於各個決策樹的訓練是相互獨立的,因此隨機森林的訓練可以通過並行處理來實現,這將大大提高生成模型的效率。隨機森林中第

決策樹

訓練過程如下圖所示。

機器學習

將以同樣的方式訓練得到K個決策樹組合起來,就可以得到一個隨機森林。當輸入待分類的樣本時,隨機森林輸出的分類結果由每個決策樹的輸出結果進行簡單投票(即取眾數)決定。

3.2.2.Random Forest模型的缺陷及改進方向

不難證明隨機森林的泛化性誤差的上界[12]為:
大資料

3.3. ScoreNet模型

本文引入3.1中建立的T-L核模型替代3.2中RF模型中的傳統決策樹模型,將RF模型和T-L核模型結合,建立了ScoreNet模型體系。

機器學習

ScoreNet模型以傳統模型為基礎搭建,保留傳統模型的業務解釋性和穩定性。

ScoreNet模型以隨機森林模型為基本架構搭建了隨機模型,客服了傳統模型對資料噪聲亦比較敏感的缺陷,使模型的泛化性與穩定性有了進一步的提高。

ScoreNet模型客服了傳統模型一般只能容納10-15個變數的缺陷,模型可以涵蓋100+個變數。可以從源頭杜絕使用者刷分現象,提升模型的公信力。

ScoreNet模型的在應用層面的高度穩定性與業務解釋性,使其有著比純粹機器學習模型更廣泛的應用空間。

4.模型開發與結果分析

本文通過網際網路爬蟲技術及第三方合作機構通過跨商家、瀏覽器、裝置、微信進行實時網際網路資料採集分析,包括但不限於:商品消費行為採集與挖掘、資訊、社群與視訊閱覽行為採集與挖掘、O2O消費行為採集與挖掘、高單價商品消費行為採集與挖掘、金融服務行為採集與挖掘等。

通過各渠道資料採集與挖掘形成使用者全方位的畫像資料(如:人口統計學標籤、使用者通用標籤、資產價值標籤、消費行為喜好、閱讀喜好標籤、金融服務標籤、社交圈標籤等),進而瞭解使用者全方位屬性資訊。

本文采用大資料風險模型ScoreNet技術,針對身份資訊核查、穩定性資訊、金融申請資訊、資產評估資訊、商品消費資訊、媒體閱覽資訊等6大維度對使用者違約風險進行評估。

機器學習

4.1資料分析

4.1.1.資料採集

本文采集了:身份資訊核查、穩定性資訊、金融申請資訊、重要資產資訊、商品消費資訊、媒體閱覽資訊等6大維度近1000個子項的網際網路資料。

大資料

從模型表現可看出模型在不同樣本上皆具備一定程度的區分能力,表示其穩定性高,未來應用時能適應不同的人群。

大資料大資料

4.3模型結果對比分析

傳統模型與ScoreNet模型對比分析結果:

大資料

傳統模型與機器學習模型(Random Forest)對比分析結果:

大資料

模型對比分析結果顯示,ScoreNet模型較傳統模型(Logistics)在區分能力上有了較大幅度的提高,可提升KS/AR值約0.05,同時延續了傳統模型(Logistics)的穩定性和解釋性;ScoreNet模型較純粹機器學習模型(Random Forest)在穩定性、泛化性上有著絕對的優勢,區分能力也更加優越。

5.應用分析及方案建議

5.1.徵信多元化與風險量化

傳統金融機構的徵信資訊來源主要是央行徵信,但央行徵信僅有3億多人有信貸記錄,信貸記錄又主要來源於商業銀行和農村信用社等金融機構。隨著網際網路不斷滲入人們生活,網際網路行為資料是央行徵信的有效補充,可以不斷強化徵信資料的時效性、全面性和層次性,從無形中記錄使用者的行為,去偽存真,還原真實的客戶 。從而大大提升資訊的利用率和有效性。

同時,大資料風險模型的應用,可以不斷提高金融機構風險識別、計量能力。從而不斷完善徵信資訊體系架構,為精細化風險定價提供必要的基礎和土壤。

5.2.授信審批決策/自動化審批

傳統上,金融機構的授信審批決策主要依賴於信貸人員的主觀經驗和判斷,缺乏統一的標準,不利於金融機構整體風險政策的執行。隨著大資料模型開發技術與內部評級體系建設的深度融合,金融機構可更加廣泛和全面地將評分/評級結果應用於授信審批,為貸款決策提供參考和支援。

大資料風險模型優秀的風險排序及區分能力能夠大力推進自動化審批的程序及線上產品的改革與創新。對模型評分高於一定級別且滿足其它授信決策條件的,授信申請可以自動通過,不需要再經人工稽核,對於評分低於一定級別的,模型自動拒絕其申請;只有模型評分介於以上兩者之間的客戶,才由人工介入進行申請稽核。

5.3風險監控與預警

風險監控與預警是指藉助各類資訊來源或渠道,通過對資料與資訊進行整合與分析,運用定量和定性分析相結合的方法來發現授信客戶及業務的早期風險徵兆,準確識別風險的類別、程度、原因及其發展變化趨勢,並按規定的許可權和程式對問題授信採取針對性處理措施,以及時防範、控制和化解授信風險的一系列管理過程。

大資料風險模型較傳統內部評級體系更為精細和靈敏,可以快速識別貸後風險,為不同的使用者設定不同的監控頻率、自動篩選高風險客戶,制定有針對性的貸後管理措施、貸後管理工作等。

6.參考文獻

[1]. McCulloch, Warren; Walter Pitts (1943). A Logical Calculus of Ideas Immanent in Nervous Activity. Bulletin of Mathematical Biophysics 5 (4): 115–133.

[2]. Ray Solomonoff, An Inductive Inference Machine, IRE Convention Record, Section on Information Theory, Part 2, pp., 56-62, 1957.

[3]. Aizerman, Mark A.; Braverman, Emmanuel M.; and Rozonoer, Lev I. (1964). Theoretical foundations of the potential function method in pattern recognition learning. Automation and Remote Control 25: 821–837.

[4]. Breiman, Leo (1996). Bagging predictors. Machine Learning 24 (2): 123–140.

[5]. Michael Kearns(1988). Thoughts on Hypothesis Boosting, Unpublished manuscript (Machine Learning class project, December 1988)

[6]. Ho, Tin Kam (1995). Random Decision Forest. Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14–16 August 1995. pp. 278–282.

[7]. Brieman, L(1997). Arcing The Edge.

[8]. Belson, William A.; Matching and prediction on the principle of biological classification, Applied Statistics, Vol. 8 (1959), pp. 65–75.

[9]. Huston, James A. (1966). The Sinews of War: Army Logistics, 1775–1953, United States Army (755 pages).

[11]. Ho T. The random subspace method for constructing decision forests.IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,(08):832-844.

[12]. Trevor Hastie; Robert Tibshirani; Jerome Friedman (2008). The Elements of Statistical Learning. California.

本文由作者投稿至36大資料,並經由36大資料編輯釋出,任何不標明作者、來源36大資料及本文連結 http://www.36dsj.com/archives/42843的均屬侵權。

End.