1. 程式人生 > >淺談大資料風控的基本框架

淺談大資料風控的基本框架

本文轉載自 CreditX氪信,作者 唐正陽

近日,中國人民銀行成立金融科技(FinTech)委員會,旨在加強金融科技工作的研究規劃和統籌協調。

隨著AI、雲端計算在金融業務層面的快速滲透,也倒逼監管跟進升級,以進一步加強監管的有效性。事實上,這次央行提出監管科技(RegTech),也是對金融科技的肯定,希望其在驅動金融創新,引領金融規範化發展中發揮積極作用。

金融的核心在於風險,現下談及網際網路金融,很多人都對大資料風控並不陌生,也都在行業野蠻發展的過程中有自己的理解。但如果要定義什麼是大資料風控,可能不少行業外圍同學的看法難免有些偏頗和碎片化。下面筆者淺顯地從大資料風控的基本內容和框架出發,主要為想要了解這個行業的同學簡要做一個相對完整的介紹。

大資料到底有哪些?

首先我們需要釐清大資料的概念,當下各行各業都在探索大資料的價值,大資料的定義也很多。從技術的角度來理解,本質就是來自多個渠道和系統的結構化和非結構化資料,在金融領域,尤其是消費金融,我們界定大資料到底有哪些維度,其實芝麻信用分是一個非常典型例子,雖然不同公司有自己的分法,但資料主體大都可以歸類為身份屬性、信用屬性、行為資料、消費屬性、人脈關係這五大方面。

身份屬性,這是最基礎的,包括真實的身份資訊、學歷、就業經歷等。

信用屬性包含的方面比較多,比如過往的履約記錄、固定資產、流動資產、收入等都會納入進來用以衡量一個人還款能力和還款意願。

過去我們去銀行辦理貸款,以上這兩個維度就是傳統風控的資料來源,但由於大多數人沒有這方面比較完整的記錄,且流程冗長麻煩,因此只有少部分人才能享受金融服務。

現在隨著網際網路的爆發式發展,以及普惠金融的崛起,越來越多的機構正將海量網際網路資料和金融結合探索其在表徵風險方面的價值。如上所述,長期缺乏金融產品的人群基數龐大,需求旺盛,因此從創業公司到BAT到金融機構,都在拓展更多領域的大資料以搶佔消費金融爆發的視窗期。

資料拓展的第一個領域是消費屬性,這塊主要是電商或交易資料,比如日常購物商品、消費金額、消費時段等都可以從不同角度來分析出一個人消費穩定度,消費檔次,還款能力等風險特徵。

其次,人脈關係也是很重要的一個維度,俗話說“近朱者赤,近墨者黑”。很多時候你的微信朋友圈、經常打電話的朋友也反映了你在風險上的表徵。生活中我們和同事溝通比較頻繁,而如果一個人社交穩定度差,可能說明他經常換工作,顯然風險也會相應增加。

最後一個維度是行為資料,這塊資料涉及面比較廣泛,主要是使用者在APP上的活動所體現出的行為特點,包括瀏覽不同類目的頻次、時間、風險偏好等等。

說到這,我們對大資料風控涉及的幾類資料應該有了一個基本的認識,那在具體工作中,我們是不是應該先把這些資料都收集好才能做好工作呢?

答案是否定的,因為資料都是有成本的,開展一個金融業務,從資料、模型、服務再到最後的收益,更為關鍵的是業務本身的形態,再進一步擴充套件至產品、場景,我們會發現不同的場景面對不同的客群,風控關注的風險點都會有一定的差異,再反過來尋找能夠表徵這些風險點的資料也會有所側重。因此,如果要釐清大資料風控該用哪些資料,首先要對風控場景有所瞭解,其中最為核心的是理解不同場景下要抓住哪些金融風險。

金融風險的理解

風險的概念比較大,為了給大家提供一個最基本的視角來了解,下面以線上信用貸款舉例來闡述,這也是網際網路消費金融最主要的方向之一。在這個場景下,我們面臨的風險主要是信用風險和欺詐風險兩塊。

首先是欺詐風險,據數字,在中國,網際網路金融50-70%的損失來自欺詐,這也可以說是風控業務中最困難的地方。造成這種現狀的原因比較多,一方面是諸如現金貸型別的消費金融短期爆發式發展,大量創業公司湧入賽道以網際網路獲客運營的流量思路做金融,與此同時相應的風控經驗和能力缺失,因此給專業的欺詐分子暴露了較大的風險敞口,通過簡單研究業務規則漏洞,並通過網際網路傳播,可能帶來較大的損失;另一方面也是欺詐產業鏈自身研究實力不斷的完善有關,現在的欺詐已經從以往單一的個人欺詐演變為有組織、有規模的集團化欺詐,鏈條上盜號,資料洩露作為基礎賬號庫,已衍生出一系列包括黑產交易、ID Mapping、定向攻擊的完整產業鏈,其中的分工和技術也非常專業和精細化。

如圖:這種裝置稱為養卡裝置,俗稱“貓池”,實際上就是一個號碼卡插槽,可以在不拆卡的情況下將整張卡插到貓池裡,連線電腦後使用,還可以接收簡訊驗證碼。現在在各種平臺註冊時都需要填寫簡訊驗證碼,“刷手”為了獲取平臺的福利會利用貓池養卡,規避平臺的身份確認簡訊。

再比如簡訊攔截馬,這是一種可以攔截他人簡訊的木馬,讓被攻擊者收不到簡訊,並將簡訊內容擷取到攻擊者手機上。這種木馬最常見的是通過釣魚、誘騙、欺詐等方式誘導使用者安裝,然後通過攔截轉發使用者簡訊內容,以此獲取各種使用者重要的個人隱私資訊,如使用者姓名、身份證號碼、銀行卡賬戶、支付密碼及各種登入賬號和密碼等,造成這些資訊的洩露,再利用此資訊從而達到竊取使用者資金的目的,嚴重威脅使用者的財產安全。

第二塊簡單談一下信用風險,其定義是借款者違約的風險,換句話說,也就是借款人因各種原因未能及時、足額償還債務或貸款而違約的可能性。一般,我們會從還款能力和還款意願兩個角度去分析信用風險,但在小額信用貸場景中,由於額度一般為2000左右,少就幾百,多也就5000,一個正常有工作的人很少會不具備按期還款的能力。所以在這點上我們更多的是從還款意願角度來看,即借款人對償還貸款的態度,現實中有不少人會借錢不還,這就是常說的“老賴”,如果我們以違約概率的目標去識別他,還是能挑出不少有正常借款意圖的人。

大資料風控體系的初步構建

現在我們有了對大資料和風險的基本認知,但如何真正從大資料提煉出風險表徵,並進一步轉化為實時的金融風險決策服務呢?事實上,這需要重構一整套風控資料架構體系,過去傳統金融機構在身份屬性和信用屬性的資料上沉澱了豐富知識,但在網際網路金融業務中,使用者能夠關聯的更多是消費、社交和行為類資料,且越是小額分散的業務,資料的金融屬性越弱。近兩年小額現金貸也正是由於這部分資料的風控知識體系缺乏,因此陷入高利率覆蓋高壞賬、暴力催收等亂象。

隨著監管趨嚴和行業愈加規範化,大資料風控,尤其是基於弱資料的風控正成為線上信用貸業務最重要的核心競爭力,除了基本的身份驗證、合規、黑灰名單、規則過濾以外,要防控欺詐風險和信用風險,還需做好以下三個維度的準備:

第一是裝置層面,現在成熟的APP都需要闢如更換登入裝置時重新輸入簡訊驗證碼,或者登入時得手動滑動驗證碼等,這些既是擋住黑產的第一道關,也是後續風控的重要資料基礎。

第二是知識體系層面,拆解開來看,核心有2點,一是知識工程,二是模型。目前最領先的消金機構都有一套相對成熟的針對特定資料domain的風險特徵庫和分客群、分目標的模型,比如反欺詐模型、申請評分模型、風險行為預測模型等,貸後還會有催收模型、客戶流失預測模型等。在這過程中,引入AI處理弱資料,並在大量樣本上不斷迭代模型是關鍵。

第三是系統層面,試想我們有了清晰的資料認知,結合到場景和風險理解我們也摸索了一套經驗證的資料使用方式,但如何與我們的業務系統對接,成為實時的資料服務?這還需要一個完整的支援資料接入、加工處理、得出結果以及監控管理的線上引擎。隨著線上個人貸款規模的爆發式增長,控制風險、解放人力已成為最緊迫的需求,資料智慧自動化引擎是機構“跑起來”的強大推動力。

風控與徵信

最後,簡單談一下大資料風控和徵信的區別,不少同學會認為風控公司就是徵信公司,這其中還是有較大區別的,尤其在大資料領域。

據百科,徵信是專業化的、獨立的第三方機構為個人或企業建立信用檔案,依法採集、客觀記錄其信用資訊,並依法對外提供信用資訊服務的一種活動,它為專業化的授信機構提供了信用資訊共享的平臺。

應該看到,徵信所對應的資料還侷限在開頭所說的身份屬性和信用屬性範圍,也就是強金融資料,而大資料風控認為所有資料都是風險資料,更側重於將弱資料金融化,再提煉出風險表徵。因此,徵信本質是大資料風控的子集,覆蓋的人群和應用領域也更為狹窄。當下大資料風控和徵信的確還處於混業經營的狀態,但隨著行業發展,可預見市場還會逐漸細分,屆時前者將更注重在資料生態體系上的經驗和沉澱,後者則側重在獨立性和公信力以及監管合規等方面。