1. 程式人生 > >京東金融資料探勘比賽

京東金融資料探勘比賽

第一步 資料清洗,我們首先針對那些三個月內沒有發生點選,沒有發生購買,沒有發生貸款同時沒有白條貸款的使用者,有529個使用者,認為在未來一個月不帶款,因此資料清洗掉。

第二步 數學建模 採用滑窗法取樣擴充訓練樣本。

第三步 特徵選擇與篩選。在特徵提取的時間視窗,分別為1,5,10,15,30,50,all.

針對loan表,提取貸款金額與貸款天數,貸款金額與貸款次數,貸款次數與貸款天數,貸款金額與時間視窗總天數,貸款次數與時間視窗總天數,貸款天數與時間視窗總天數,分別提取統計特徵,統計特徵包括均值,標準差,散度,偏度,變異係數,最大值和最小值,峰值到時間序列兩端的統計值。針對裡面的,貸款金額與貸款天數時間序列,貸款金額與貸款次數,貸款次數與貸款天數時間序列,分別求取微分序列,並同時將其統計特徵作為特徵用於訓練。

針對click表,提取點選次數與點選天數,點選次數與視窗總天數,點選天數與視窗總天數。提取時間序列的統計特徵,這包括均值,標準差,散度,偏度,變異係數,最大值和最小值,峰值到時間序列兩端的統計值。
針對order表,提取部分品類的分佈特徵,購買的天數,購買次數等,分品類對次數的分佈特徵(方差和均值等)。
針對btloan表,提取分期的統計特徵和是否免息的統計特徵,和他們之間的關聯特徵。
針對固有特徵,主要提取使用者的性別,年齡,限額,啟用日期等使用者的固有屬性特徵。
交叉特徵,提取loan-click交叉特徵,loan-order交叉特徵和loan-btloan交叉特徵和order-btloan交叉特徵。
第四步
模型stack。採用不同引數的xgb和不同引數的lgb,用LR做stack整合,得到最終的提交結果。