1. 程式人生 > >獨家 | 大資料與AI技術助力金融科技:百融金服的探索例項

獨家 | 大資料與AI技術助力金融科技:百融金服的探索例項

640?wx_fmt=png&wxfrom=5&wx_lazy=1

[導讀]本文選自百融金服CEO張韶峰和CRO季元於2017年9月14日晚在清華大資料“技術·前沿”系列講座——大資料與AI技術在金融科技的應用上的分享。兩位學長結合自己在金融行業和金融科技領域多年的探索,結合金融領域的反欺詐、信用風險識別、不良資產催收、精準營銷等業務場景,深入淺出地闡述對抗生成網路、遷移學習、強化學習等方法的金融行業建模實踐。

後臺回覆關鍵詞“0914”,下載完整版講座PPT

640?wx_fmt=png&wxfrom=5&wx_lazy=1

百融金服CEO張韶峰

0?wx_fmt=png

 百融金服CRO季元

張韶峰:首先非常激動能夠回到母校跟各位校友,還有各位朋友,來分享這次報告。我們進入到金融科技領域是2012年,我們最早跟銀行交流,想推動我們公司用機器學習演算法作為模型在銀行應用,銀行那時候習慣運用的演算法叫邏輯迴歸演算法(Logistic regression algorithm),是一種比較簡單的演算法。但是我堅定地認為資料有用,至於有什麼用,其實想不清楚,只是後來遇到金融行業的大爆發、變革,才發現數據在金融領域的應用那麼直接。

金融領域一個非常重要的支柱就是信用體系。中國還有七八億有金融需求的人沒有信用記錄,這是制約中國所謂普惠金融,刺激小微企業發展、消費發展,這是屬於基礎設施的問題。

大資料應用分層

0?wx_fmt=png

從大資料行業來看,有些是共通的。

第一步,收集資料。

第二步,資料處理。把資料進行標準化,清洗髒資料、不準的資料,或者做一些脫敏。

第三步,資料降維。如果表格的每一行是一個使用者,一個表的列數多達50萬列,這是非常龐大的一個維度,處理起來會導致效率下降,需要做一些資料的降維,需要做一些衍生變數。

第四步,資料建模。金融裡有兩個模型最重要:第一類是營銷獲客模型,預測什麼人需要什麼樣的金融服務,主要是預測客戶的需求。第二類是風控模型。

第五步,大資料應用。

不同的行業做的應用不同。

金融行業可以在哪些方面具體使用呢

0?wx_fmt=png

第一步,解決精準營銷。找好的而且有需求的客戶,這兩個標準要疊加。金融行業的精準營銷難度遠遠超過普通消費品,這是金融行業精準營銷的特殊性。

第二步准入。他如果來申請你的貸款,或者買你的保險,你能不能把他放進來?你得審批一次。比如你去銀行辦個貸款,或者辦一個信用卡,讓你填一大堆資料。

第三步,存量客戶的經營或者貸中管理。

第四步逾期。這是貸後管理。

從營銷、准入、經營、逾期,這四步每一步都可以充分使用大資料和人工智慧演算法來提升效率。

0?wx_fmt=png

我們完善了一套反欺詐引擎評分,評估你有多大概率會欺詐。規則是遇到什麼情況要採取什麼措施。模型是抽像出決策邏輯以及跟欺詐相關的資料。


0?wx_fmt=png

我們為金融機構提供定製化的服務,因為你的產品和你的客戶跟別的金融機構不可能一模一樣。我們的模型可以有差異化,資料的準備、初步篩選、交驗檢驗,篩選相關性比較高的變數、資料的分段,最後建立模型。

0?wx_fmt=png

我們用一些視覺化的演算法使金融機構和我們監管人員看得更清楚,規則有沒有命中,客群分佈怎麼樣。在客觀的分數段中,比如我們公司是300分到1000分,比如700分的人對應100個人裡只有3個人違約,而500分的人對應100個人裡頭有7個人違約,不同的分數段意味著不同的違約率,這個時候你就知道我應該給700分以上的放貸。這個評分對金融機構很重要,你算清楚每給500分的人放款一萬塊錢出去會虧多少錢,評分系統會幫你預測。

隨後,百融金服CRO季元先生與大家分享了具體的應用案例。

案例一:圖深度學習應用於團伙欺詐偵測

季元:百融在群體欺詐的跟蹤、反欺詐方面主要通過無監督-異常行為監測,還有通過監督學習-地理位置異常分析(Geohash)

,具體的實現方式是通過圖特徵學習演算法。

0?wx_fmt=png

這是圖特徵學習演算法大概的框架。因為我們輸入的是我們客戶圖的特徵,這張圖包括邊和點,圖的拓譜和節點的這些屬性構造了客戶的基本特徵。通過深度神經網路,從這些基本特徵出發衍生出更復雜的特徵。最終我們輸出的是什麼?一個是衍生後的特徵,再一個是觀察,觀察為了從基礎端衍生數學特徵,把這個演算法形成好東西移植到其他部分。

左邊這個表是我們常用的一些特徵運算元。這個圖反映了某個區域性的具體的階段,百融從DI特徵出發通過Faier做衍生,衍生出新的特徵。這個演算法其實有四個優點:

第一它支援不同的屬性圖,因為通常我們的圖只是節點和邊,只能反映拓撲結構;

第二它能輸出複雜關係函式用於跨網路遷移學習;

第三它能夠學習出稀疏特徵。

第四它支援並行,演算法效率高。

0?wx_fmt=png

這是我們某個客戶在2017年1月到5月份的使用者申請資料,申請次數34萬,使用者數4.7萬,總共70個特徵。通過我們的演算法識別出了它有12000多欺詐使用者,隸屬於238個團體。

案例二:強化學習應用於催收模型構建

0?wx_fmt=png

在你借了金融機構的錢之後,如果你一旦逾期不還錢,這個時候金融機構在內部是按照你逾期的時間給你劃分的,M1代表逾期一個月,M2是兩個月,在不同的逾期時間,它會給你不同的催收動作。

0?wx_fmt=png

我們應該從序列的觀點看,因為不同的人對不同動作的響應是不一樣的。實際上你每一步的動作都會影響到後續的結果,應該以整個過程的最大的回饋,來決定我們在什麼環節採取什麼樣的動作。這塊我們就把催收過程定義成一個馬爾科夫決策過程。

0?wx_fmt=png

通過強化學習來求解馬爾科夫決策過程。首先要定一個價格函式,其次就是你在不同時間段收回的錢,用折現因子折算到當前來看你的最大值,我們要求價值函式的最優點,這個演算法是通過價值迭代來實現。

案例三:遷移學習應用於客群評分構建

0?wx_fmt=png

我們的信用評分體系包括一個通用評分加上6個客群評分,通用評分類似於芝麻評分。這個評分在金融機構是怎麼用的呢?我們可以看到這個圖,柱狀圖表示不同分數段人數的佔比,線圖是不同分數段人數的的違約率,我們看到最低的300分數段違約率達到20%以上,最高的700分以上的不到1%。所以一個金融機構如果選擇了500分以上的人,那麼就意味著500分左邊的這些人他都要拒絕掉,而且如果只要500分以上的人的不良率在8%以下,如果他想降低不良率,比如降低4%,那就意味著他要提高准入標準,可能把准入的門檻提高到600或者更高。

0?wx_fmt=png

這是我們的6個客群評分,這個評分實際上對金融機構來講非常重要,因為大家希望我們把壞人全過濾掉,好人全放進來,這是不可能實現的。現實中我們的評分通常居於兩者之間,我們的目標是儘可能的靠近最好的那個部分。除了這7個標準評分之外我們還有定製產品,剛才邵峰介紹的給客戶做定製化的建模,因為好的客戶希望結合他的內部資料和我們百融資料一起構建一個專屬於他的評分,這樣效果會比標準評分更好。

0?wx_fmt=png

在信用評分構建的過程中存在一些現實問題,在講這些問題之前我先給大家簡單介紹一下什麼叫遷移學習。兩個基本概念:

第一個,域實際上包括兩個元素,X是特徵區間,這些變數的維度, P(X)是特徵空間上的概率分佈,實際上是我們的樣本和這些特徵的分佈。

第二個任務,任務包括一個標籤空間,是在樣本特徵空間上好或者壞甚至更多的內容,屬於監督學習的一部分。

我們知道域和標籤空間來求這個條件概率。

0?wx_fmt=png

在遷移學習裡面需要兩個域和目標,一個是源域和源任務,一個是目標域和目標任務。按照剛才定義我們現在有四種情況:

第一,源域的特徵空間和目標域的特徵空間不同;

第二,邊際概率分佈不同;

第三,標籤空間不同;

第四,條件概率不同。

這四種組合起來就是16個,但是現實生活中這16種組合不會都存在。包括比較典型的就是這三類:

第一種是線上客群和線下客群,它們的特點不一樣,因為線上客群我們能採集的特徵的維度更多;

第二種是同產品不同機構的客群,主要體現在邊際概率分佈和條件概率分佈;

第三種是同機構不同產品的客群,主要是特徵空間和條件概率不一樣。

0?wx_fmt=png

我們建模過程中碰到的比較現實的問題,有些客戶不會告訴你標籤空間,那這種情況下怎麼建模?

第一步,通過域適應演算法對源目標域的特徵進行降維處理。

第二步,構造邊際分佈實驗。構造一個函式來刻畫源域和目標域的邊際分佈的差異,度量兩個概率分佈的差到底有多大。

第三步,策劃條件分佈實驗。識別源任務的條件概率和目標任務的條件概率的差。

第四步,基於前兩步構造目標函式做優化。

第五步,進行迭代運算。

案例四:知識圖譜應用於貸前反欺詐

知識圖譜本質上是一個語義網路,在人工智慧裡一直有兩個流派,一個叫連線主義,我們第一個案例裡面講的深度神經網路屬於連線主義,它是模擬人腦的硬體結構,本質上是統計學。第二個流派叫符號主義,知識圖譜就歸屬於符號主義,它模擬的是人腦的推理方式,實際上是人腦軟體。這兩種流派實際上一直並行,上世紀五六十年代人工智慧剛興起的時候是符號主義領先,近年來隨著計算能力的提升,連線主義開始突起。

0?wx_fmt=png

知識圖譜相當於你要把人的經驗做知識表示和推理,所以你要把經驗固化成知識圖譜,通過這些語義的運算來做反欺詐判斷。我們通常把推理分為:不一致性驗證;機構異常分析。

0?wx_fmt=png

未知性的驗證,比方說兩個人用的是同一個單位電話,但是寫的單位名稱和單位地址不一樣,根據我們經驗這不符合邏輯,通過知識圖譜能把這種欺詐方式識別出來。

0?wx_fmt=png

靜態分析像我們第一個案例裡面講的結構。動態分析,通常情況下人的行為特徵應該是穩定的,如果你短時間變化快的話,那我們認為你也有欺詐嫌疑。 

0?wx_fmt=png

以上是我分享的主要內容,謝謝大家。   

張韶峰先生畢業於清華大學,擁有清華大學電氣工程自動化學士、碩士學位。他有15年IT、大資料領域經驗,持續創業者,先後效力Oracle、ESS、IBM等國際一流的科技公司。他曾經創辦了專注於資料探勘的公司天才博通,任執行副總裁;2009年與兩位合夥人共同創辦大資料技術與應用服務頂級公司百分點科技,目前該公司已佔領國內超90%的推薦引擎市場。2014年,張韶峰先生創辦專注服務於金融領域的大資料金融資訊服務的公司百融金服,並擔任CEO。

季元先生是清華大學數學系博士,從事銀行風險管理近十年,諳熟金融風控量化管理、風險策略優化等業務,曾任中國光大銀行金融市場風險處處長,在金融行業的資料分析、平臺架構、模型研究和風險策略等方面具有深刻的理解和深入的研究。2017年加入百融金服擔任CRO,全面負責百融金服整體風控業務。

清華-青島資料科學研究院“技術•前沿”系列講座,以知識傳播為使命,分享大資料新技術與前沿挑戰;旨在介紹大資料面臨的新挑戰及各種前沿技術,與校內科研隊伍互動交流。更多精彩乾貨及線下活動,敬請關注THU資料派(ID:datapi)及姐妹號資料派THU(ID:DatapiTHU)。

百融金服正在招聘,有意向的同學後臺回覆“百融”檢視招聘資訊~

後臺回覆關鍵詞“0914”,下載完整版講座PPT

編輯:王璇

校對:丁楠雅

轉載須知

如需轉載文章,請做到 1、正文前標示:轉自資料派THU(ID:DatapiTHU);2、文章結尾處附上資料派二維碼。

申請轉載,請傳送郵件至[email protected]


為保證發文質量、樹立口碑,資料派現設立“錯別字基金”,鼓勵讀者積極糾錯

若您在閱讀文章過程中發現任何錯誤,請在文末留言,或到後臺反饋,經小編確認後,資料派將向檢舉讀者發8.8元紅包

同一位讀者指出同一篇文章多處錯誤,獎金不變。不同讀者指出同一處錯誤,獎勵第一位讀者。

感謝一直以來您的關注和支援,希望您能夠監督資料派產出更加高質的內容。

0?wx_fmt=png

0?wx_fmt=jpeg

相關推薦

獨家 | 資料AI技術助力金融科技探索例項

[導讀]本文選自百融金服CEO張韶峰和CRO季元於2017年9月14日晚在清華大資料“技術·前沿

資料AI平臺的構建

雲端計算,賦予IT資源可伸縮的力量,從而可以整合算力,為各種新技術提供表演的舞臺,同時也為社會積蓄了豐富的資源,為大資料、人工智慧提供底層技術的支撐。大資料技術則將通過對資料的儲存、加工、處理、分析,在為人們發掘資料價值的同時,也為人工智慧提供了豐富優質的資料資源。而人工智慧技術,則是人類社會智慧化的關鍵

某銀行信用卡中心——資料反欺詐應用案例 2017-06-23 10:54 本篇案例為資料猿推出的大型“金融資料主題策劃”活動(檢視詳情)第一部分的系列案例/徵文;感謝 的投遞 作為整體

某銀行信用卡中心——大資料反欺詐應用案例 2017-06-23 10:54 本篇案例為資料猿推出的大型“金融大資料主題策劃”活動(檢視詳情)第一部分的系列案例/徵文;感謝 百融金服 的投遞 作為整體活動的第二部分,2017年6月29日,由資料猿主辦,上海金融

快搜索“資料智慧城市”南京技術交流會成功舉辦

前沿: 2018年11月6日,由大快搜索、南京大資料產業協會、南京東大智慧化系統有限公司共同組織籌備的“大資料與智慧城市”南京技術交流會圓滿結束。大快搜索常務副總李海鵬、大快搜索CTO王鑫義、大快搜索應用研究院院長高林、東大智慧智慧城市事業部總經理凌霄漢、東大智慧技術總監李玉峰等行業專家出席了會議。

在5G、資料AI領域進行合作,商飛騰訊雲共推飛機智慧製造

說到中國的大飛機制造,大家肯定會想到的一個名字:中國商飛~ 去年5月,中國首款國產大型商用飛機C919首飛成功,作為中國實施大型客機專案的主體,統籌幹線飛機和支線飛機發展、實現我國民用飛機產業化的主要載體,商飛也一下成了“網紅”。 飛機制造業被譽為工業領域的皇冠,是國家戰略性產業,商

2018中國國際資料大會  助力資料實體經濟深度融合

近日第五屆中國國際大資料大會在京盛大開幕。 大會由人民郵電出版社主辦,資訊通訊大資料產業聯盟協辦,信通傳媒、數創匯承辦,《大資料》雜誌、中關村大資料產業聯盟、北京湖北企業商會大力支援。 百位大資料前沿專家圍繞“實體融合新動能 數字經濟新發展”主題,從生態完善,技術突破,融

第四次工業革命區塊鏈IoT、資料AI的合併初露端倪

第四次工業革命:區塊鏈與IoT、大資料、AI的合併初露端倪 人工智慧(AI),區塊鏈和物聯網(IoT)以及大資料,未來的“四大”技術已經脫穎而出。從他們的萌芽階段開始,他們的成長和問題都受到關注。 正是由於這個原因,許多人和公司開始懷疑這些問題是否無法通過組合技術來解決。作為基石元件

資料平臺架構技術選型場景運用

導讀:本文將大資料的工作角色分為三種類型,包括業務相關、資料科學相關和資料工程。大資料平臺偏向於工程方面,大資料平臺一般包括資料來源、資料採集、資料儲存、資料分析等方面。 講師從資料來源、資料來源結構、資料變化程度和資料規模等4個維度對資料來源進行分類,資料來源分類維度的

獨家 | 王海峰資料人工智慧(附PPT下載)

1月28日上午,由中國工程院和清華大學聯合主辦的“長城工程科技會議”第四次會議工業大資料分會在清

專訪宜信AI中臺團隊負責人王東智慧金融時代,資料AI如何為業務賦能

前言:宜信技術人物專訪是宜信技術學院推出的系列性專題,我們邀請軟體研發行業的優秀技術人,分享自己在軟體研發領域的實踐經驗和前瞻性觀

資料資料分析概述

何為資料?——資料的幾種定義 資料(data)是事實或觀察的結果,是對客觀事物的邏輯歸納,是用於表示客觀事物的未經加工的的原始素材。 資料是資訊的表現形式和載體,可以是符號、文字、數字、語音、影象、視訊等。資料和資訊是不可分離的。 資料是資訊的表達,資訊是資

資料人工智慧催生智慧時代

讀書筆記,資料來源:中國工程院院士鄔賀銓給吳軍的新書《智慧時代——大資料與智慧革命重新定義未來》寫的序。 科學研究四個正規化 吳軍認為科學研究發展經歷了四個正規化: 描述自然現象的實驗科學; 以牛頓定律和麥克斯韋方程為代表的理論科學; 模擬複雜現象的電腦科

課工場資料學員從技術晉升到PMO,年薪突破39萬元

IFTNews:課工場最近捷報頻傳,在10月份北美大資料高薪就業班全員平均月薪過萬後,大資料班某學員近日又成功就職於北京某銀行,獲得39萬年薪成功轉型,AI獲得了職業上的提升。而課工場年初許諾的“高薪就業年”高薪就業記錄又一次被重新整理高。 畢業於211學校的該學員曾任職於屬於金融IT解決方案服務商的頭部公

《零起點Python資料量化交易》 pdf下載

本書是國內較早關於Python大資料與量化交易的原創圖書,配合zwPython開發平臺和zwQuant開源量化軟體學習,是一套完整的大資料分析、量化交易的學習教材,可直接用於實盤交易。本書有三大特色:一,以實盤個案分析為主,全程配有Python程式碼;二,包含大量的圖文案例和Python原始碼

資料入門環境搭建整理、資料入門系列教程合集、資料生態圈技術整理彙總、資料常見錯誤合集、資料的離線和實時資料處理流程分析

本篇文章主要整理了筆者學習大資料時整理的一些文章,文章是從環境搭建到整個大資料生態圈的常用技術整理,環境希望可以幫助到剛學習大資料到童鞋,大家在學習過程中有問題可以隨時評論回覆! 大資料生態圈涉及技術: Hadoop、MapReduce、HDFS、Hive、Hbase、Spark、Scala

人工智慧、資料複雜系統

├─01-複雜系統│ 1.1物理預測的勝利與失效│ 1.2預測失效原因│ 1.3複雜系統引論│ 1.4生活例項與本章答疑│ ├─02-大資料與機器學習│ 2.1大資料預測因為│ 2.2大資料與機器學習│ ├─03-人工智慧的三個階段│ 3.10課程大綱(二)│ 3.1規則階段│ 3.2機器學習階段發展至連線主

全面解讀雲端計算、資料AI資料中心的影響

模組化資料中心行業發展正面臨前所未有的複雜環境,網路應用種類和數量的極大豐富催生了海量資料,人工智慧的興起帶來了高密度計算,這些都給資料中心這一網際網路基礎設施提出了更多和更高的要求。今天,我們已經無法迴避"ABC"究竟給"D"帶來哪些影響這一問題了。 "ABC"正在對"D"產生深刻影響

如何在未來的資料AI機器學習領域,獲得一份不錯的工作?

AI 的發展腳步會加快,這一年將是 AI 技術重生和資料科學得以重新定義的一年。對於雄心勃勃的資料科學家來說,他們如何在與資料科學相關的工作市場中脫穎而出?2018 年會有足夠多的資料科學相關工作嗎?還是說有可能出現萎縮?接下來,讓我們來分析一下資料科學的趨勢,並一探如何在未來的大資料和機器學習 /

資料全系技術概覽

  什麼是大資料? 大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。 在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大資料時

資料開發及和資料相關的技術

  在現如今,隨著網際網路技術飛速的發展,目前有不少朋友詢問關於大資料方面的問題,比如什麼是大資料開發啊,和大資料相關的技術是什麼呢等問題,我們今天就淺談一下大資料開發及和大資料相關的技術的問題。        首先,大資料(big data),指無法在一定時間範圍內用常規軟體工具進