1. 程式人生 > >2016 年度消費信貸建模小結

2016 年度消費信貸建模小結

一、2016年度忙碌的工作與技術積累

1.1 第一版通用信用模型:

201601 開始建模。

梳理大資料特徵風控建模的過程如下:

樣本:

從LDYS購買到sms中收到逾期3次以上定義為壞,從來沒有收到逾期的定義為好。

特徵:

細粒度搜索詞、大資料使用者畫像(自然屬性、社會屬性、興趣與需求屬性)、LBS(家、公司、到訪等)、各大類產品線按每1/3/6/12月做的統計衍生特徵、細粒度搜索瀏覽等特徵在性別等分類器上提取出的最後一層做稠密特徵。

三大特徵源,bdg的特徵覆蓋率86%(53.4w) 特徵有9+w維, fsg的特徵覆蓋率100%(61.4w)特徵有1000維,bdl的特徵覆蓋率50+%(31.6w)特徵有2500維。

模型:

基於paddle訓練DNN模型。

1.2 第二版通用信用模型:

201604 開始。

優化點:參考zest的樣本規整方案,將建模樣本在的好定義得更嚴格:好人必須是觀察期之前有信用卡或貸款賬單的使用者。重新建模。

1.3 第三版通用信用模型beta版 與 升級版:

201607 開始。

樣本:

第一次提供了LDYS自定義的違約等級標籤D4+的人作違約人群,該樣本噪聲大模型效果不如之前。

第二次使用9個月表現窗提取連續違約3個月以上的作為違約人群。

樣本優化點:

嘗試對比幾種不同方式定義違約使用者:最大逾期資訊數>=3,連續逾期月份數>=2, >=3。

特徵優化點:

針對大資料畫像不斷迭代升級變化的問題提取穩定特徵保留。

加入LDYS的儲蓄卡、信用卡最近1/3/6/12個月的消費記錄特徵。

使用無監督特徵稠密化建模。

模型優化點:

嘗試wide 與deep 網路的結構。還缺乏詞之間的組合特徵編碼。

後續優化事項:

特徵衍生:詞之間的組合特徵、連續特徵離散化、無監督特徵。

DNN模型:引入新的網路結構如resnet,加深網路層數。

1.4 收入模型:

201609 開始。

樣本優化點:

收入層次的劃分。

目標Y為連續值壓縮: log變換等。

1.5 外部合作建模嘗試:

201606 開始,後轉交給其它同事。

1.6 業務資料分析:

整過一年裡間斷性穿插業務策略的各種資料分析需求,如模型分cut值分析、模型分的解釋、策略的優化分析等等。

1.7 技術點:

針對樣本imbalance,對正樣本作oversampling。

較系統的補充了gbdt的理論原理,用xgboost的PY進行包裝進行引數搜尋。

使用卡方、資訊增益、樹模型的葉子等做有監督篩選特徵、使用SVD無監督特徵降維等。

特徵權重處理調優:歸一化、離散化(次數按1,2,10,1000分段,金額按1,2,3倍方差分段)。

對各個典型特徵源單獨train一隱層的模型預訓練。

低維連續值特徵用gbdt模型已經能夠很好的捕捉到有用資訊,可以用其輸出接dnn。

應用dnn模型。

二、未來的計劃

1,樣本層面:

違約天數其實是連續的,可以嘗試連續值看看。

2,特徵層面:

構造更多無監督特徵對百度大資料進行降維。

3,模型層面:

DNN模型引入更深的層次。

跟進業界新提出的DNN網路結構與應用實驗,時序DNN。

繼續關注DNN模型的可解釋性。

相關推薦

2016 年度消費信貸建模小結

一、2016年度忙碌的工作與技術積累 1.1 第一版通用信用模型: 201601 開始建模。 梳理大資料特徵風控建模的過程如下: 樣本: 從LDYS購買到sms中收到逾期3次以上定義為壞,從來沒有收到逾期的定義為好。 特徵: 細粒度搜索詞、大資料使用者畫像(

廣通軟件獲“2016年度中國最具影響力IT運維管理軟件提供商”殊榮

運維工程師 it運維12月16日,“科技原力覺醒引領創新巔峰”-- 2016創新影響力年會暨國家產業服務平臺2016年終評活動在北京裕龍國際酒店落下帷幕。本活動在主管部門的指導參與下,總結本年度技術成果並籍此對未來科技趨勢和方向做出展望與規劃,由國家十大產業服務平臺共同主辦,賽迪網承辦。500余名來自科技領域

廣通軟件榮獲“2016年度ITSS優秀會員”稱號

itss it運維 1月12日,為了表彰在IT服務標準研制和應用推廣工作中所做出的貢獻,中國電子工業標準化技術協會信息技術服務分會(以下稱ITSS分會)在北京召開“2016年度ITSS優秀會員”專家評選活動,廣通軟件獲得“2016年度ITSS優秀會員”稱號。圖中左三為廣通軟件代表工信部信息化和軟件服務

南方都市報2016年度十大好書-獲獎評語

範圍 網絡數 改變 中國 讀者 日常生活 地址 生活方式 有一個 一句話評語:互聯網工作者獨特、深刻、具有前瞻性的思考 在評價《在線》這本書時,我們決定拋開王堅的身份不管:不管他過去幹過什麽,也不管他現在在幹什麽,只看他的書傳遞的是怎樣的觀念。《在線》是一本講大數據、雲

2016年度中國會計師事務所排名前十

專業 組織 house coo html you 員工 專業服務 品牌 http://www.wenxuetiandi.com/news/xuexizixun/201708/444478.html 1普華永道   普華永道(Price Waterhouse Cooper

2016 年度頂級開源創作工具

無論你是想修改圖片、編譯音訊,還是製作動畫,這裡的自由而開源的工具都能幫你做到。 幾年前,我在 Red Hat 總結會上做了一個簡單的演講,給與會者展示了 2012 年度開源創作工具。開源軟體在過去幾年裡發展迅速,現在我們來看看 2016 年的相關領域的軟體。 核心應用 這六款應用是開源的設計軟體中的最強王

年度總結】於無聲處聽驚雷-2016年度總結

         走過安詳晚年的2016已經在2017的春風中步入天國有一陣時間了,早在它走之前就已和我說好,幫它寫一份精彩紛呈的墓誌銘把我們之間的故事寫下來,送給他聽,現在也是時候動筆了。      

2016年度星級專利代理機構名單排名

2016星級  80家單位 名稱 五星   中國國際貿易促進委員會專利商標事務所 五星   北京市柳沈律師事務所 五星   中國專利代理(香港)有限公司 五星   上海專利商標事務所有限公司 五星   北京三友智慧財產權代理有限公司 五星

測試五年——我的2016年度總結

概述 回看2015年度總結,Flag年常是完不成的。。。。 回想自己的2016年,還是比較充實的,總體來說,幹了下面幾件事: 讀了一些書 瞭解了好多亂七八糟的語言 寫了好多篇文章 瘦了好多 還有一件低調的事 讀書 說起讀書,應該是我

《時代週刊》2016年度25項最佳發明出爐

創刊於1923年的《時代週刊》每年都會推選出當年驚豔且樂趣十足的科技發明,2016年快要走完了,《時代週刊》的25大科技發明(排名不分先後)又面世了。在這些千奇百怪的產品中,你最愛哪一款呢?1. 磁懸浮燈泡 Flyte  Flyte 是一種利用電磁場和諧振感應耦合技術讓燈泡

2016年研究生數學建模A題

多無人機協同任務規劃           無人機(Unmanned Aerial Vehicle,UAV)是一種具備自主飛行和獨立執行任務能力的新型作戰平臺,不僅能夠執行軍事偵察、監視、搜尋、目標指向等非攻擊性任務,而且還能夠執行對地攻擊和目標轟炸等作戰任務。隨著無人機技術的快速發展,越來越多的無人機將應用在

2016年度GitHub上Stars最多的10個Python專案

這是2016年最後一個工作日了,感謝所有的小夥伴幾個月以來的陪伴,是你們的陪伴,我才有一直寫下去的動力。希望你們度過了一個愉快充實的2016,而2017年我還會繼續寫,希望你們一直在,我們一起努力! 2016年接近尾聲,在最近的幾篇文章中,會整

年終總結(2016年度

原本是不打算寫年終總結了。但考慮到這一年的複雜心情(其實更大的可能是我這幾天有點太閒了),我還是好好地想了想這一年發生的事情,以及我接下來究竟還想做些什麼。 先來聊聊我在2016年做了些什麼。技術工作方面能寫出來的不多,以至於我前幾天在某個地方被人揹後說【如今搞翻譯的都能被尊為教主】,他的目的是說中國的技術界

【大資料架構】基於大資料的消費信貸平臺

金融的核心是風控,而好的風控依託於資料。作為依託於大資料驅動的信用消費金融平臺的量化派,為了給信

擴充套件:GAN模型及其在2016年度的進展

自己留看方便https://www.jianshu.com/p/edbcf96ca3c9?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

解讀GAN及其 2016 年度進展

摘要 本文主要包括兩方面內容:首先對GAN的基礎概念與理論基礎進行介紹,並分析了其模型構建原理與優勢等;其次對其在2016年度的主要進展進行梳理和概括,主要包括從模型理論框架到實際應用問題中的相關擴充套件與改進及其訓練技巧等工作。(以下僅為個人觀點,不當之處歡迎大家批評

2016年度10大HTML5動畫

踏得網精選2016年度最酷最新的HTML5動畫集,評選標準為:創意新穎度+實現技術難度+趣味程度。使用一些線上H5生成工具的作品,因其主要使用圖片和CSS3套路動畫,千人一面乏善可陳,不入該列。所涉及技術主要是:HTML5/CSS3/SVG/WebGL(Three.js)/E

2016-11-09】近期小結

真是久違的近期小結系列。。。。 1.distinct的分組作用 一般來說,大家都知道distinct是用來去重的,卻忽視了他也有分組的作用~下面就來測試一下。 假設有一張aaa的表資料如下:  其中,date和name欄位是一一對應的,而date和name2欄位並不是一一對應的。 1)下面就來測試dis

(翻譯)2016美國數學建模MCM E題(環境)翻譯:我們朝向一個幹旱的星球?

make 歷史 evel miss try 這一 aspect content analyzing PROBLEM E: Are we heading towards a thirsty planet? Will the world run

201671010130 2016-2017-2 《Java程序設計》第二周學習小結

博客 返回 由於 程序 使用 spa family 浮點 multi 學習Java第三章小結 本周我學會了: 首先是解決關於解決運行程序前出現了錯誤提示“editor dose not contain a main type”程序無法運行”的問題,通過網友的博客http: