怎樣使用使用者畫像建設徵信系統?
使用者畫像在徵信中的應用
問題描述
傳統金融機構的徵信資訊來源主要是央行徵信,但央行徵信系統中僅有3億多人有信貸記錄。這部分信貸記錄又主要來源於商業銀行和農村信用社等金融機構,其資料的時效性、全面性和層次性上存在明顯短板,無法全面反映客戶的真實資訊。央行整體的徵信系統收集了8.68億個自然人的資訊,還有將近6億多人的資訊沒有被收集。此外,民間借貸的資訊不會錄入徵信系統。可以說,目前央行徵信資料缺失,情況不容樂觀。
在央行徵信資料缺失的前提下,我們該如何應用大資料方法,準確評估使用者信用風險,建立徵信系統呢?
當前存在的徵信系統
芝麻信用是國內最大的個人信用評分系統。其資料來源於阿里巴巴生態系統內部的資料、政府公共部門資料和合作機構的資料等。芝麻信用通過網路資料的收集和評估,對不同的個體給出相應的評分。其主要考慮的是個人信用歷史、行為偏好、履約能力、身份特徵和人脈關係等。其評分模型以線性迴歸和邏輯迴歸為主。
國外的徵信系統有FICO、ZestFinance等。
解決方案
使用者畫像構建的目的:
解決當前商業銀行和部分p2p金融機構徵信困難的問題,幫助網際網路金融機構挖掘潛在使用者。
使用者畫像構建的步驟:
(一)資料收集
對於一個使用者,需要收集的資訊有:
1、使用者個人資訊:如使用者姓名、年齡、性別、職業、國籍、居住地址、聯絡方式等。
2、消費資訊明細:消費物品、價格、線上消費還是線下消費、購買什麼服務、發生消費時間等。
3、行為資訊:在什麼時間瀏覽了什麼網站或頁面、發生什麼點選行為、發生什麼停留行為、使用搜索引擎搜尋了什麼資訊等。
4、地理位置資訊:常用的登入IP,常用的收貨地址,常去的地點等。
5、 產品明細:使用者購買的產品資訊,如價格、產地等。
6、 財務明細:使用者每個月收支情況、使用哪種消費方式較多等。
7、 社交明細:使用者經常與哪些人發生金錢交易等
其他還有使用者的心理分析等。收集時儘量提高資料的真實性。
(二)資料整理歸納
在收集了海量的資料以後,需要進行資料的整理歸納,以從中獲取有用的資訊。網際網路金融企業從企業的業務需求出發,可將使用者的基礎資料劃分為人口屬性、信用評級、消費傾向、投資傾向、社交屬性、潛在價值等資訊。
具體的步驟有:
1、 資料核對
唯一性核對:評估是否符合業務邏輯要求的唯一性,同一使用者能否在不同的系統環境中唯一識別。
完整性核對:評估資料是否涵蓋了建模所需的資訊。
有效性核對:確保資料的有效性。所有資料都落在取值範圍內。
關聯性核對:識別有關聯的屬性,對關聯性進行核對。
及時性檢查:確保資料的時效性。
一致性核對:檢查資料在傳輸過程中是否有缺漏。
2、 資料清洗
檢查資料的有效性,對於有問題的資料,通過一定方法調整後使用。如果無法調整,則刪除。
3、單變數分析
單變數分析的目的是確保變數符合實際業務的意義。
1、變數區分能力分析:使用多個統計指標進行計算,如AR等,通過計算結果對變數進行篩選。
2、經濟學含義分析:分析篩選後各變數的經濟學含義。變數應當反映業務需要,並具有明確的經濟學含義。
3、變數轉換:部分變數可能具有多種型別的資料,不同變數的取值範圍也有可能不同。常用的轉換方法是將不同型別的變數轉換為概率值。
4、 多變數分析
目的是降低變數間的相關性。
1、 變數相關性分析。使用相關性矩陣、聚類分析等技術,進行變數的相關性分析。
2、 聚合。將相關性高的變數聚合,使用新的變數來替換這些變數。
5、 變數衍生
部分網際網路資料業務相關性較低,在單變數分析中可能被淘汰。但是將這些變數通過相關性分析後,這些變數與業務解釋性強的變數之間可能有強關聯。這就需要變數衍生,將這些資料整合衍生為更加稠密、業務解釋性更強的衍生變數。衍生變數主要側重於商品的消費資訊。
(三) 模型構建以及標籤
可選用的技術有文字挖掘、自然語言處理、機器學習、各種分類演算法。
傳統的模型是從業務邏輯出發,通過人工調參的方式建立評估模型。而在這裡,我們可以使用隨機森林模型為基本架構搭建隨機模型,隨後使用線性迴歸技術進行分析,確定各種風險因子的權重。這樣就克服了傳統模型對於資料噪聲相當敏感的缺陷,提高了系統的穩定性。
通過分析分析使用者的人口屬性、信用屬性等,可以給使用者貼上年齡、消費行為、理財理念、風險愛好、消費場景偏好等標籤
(四) 使用者畫像
用上述提到的各種標籤,可以對使用者進行畫像。
使用者的各種行為會以資料形式被記錄。分析這些行為資料,我們給使用者貼上標籤,最後得到一個使用者畫像。一個使用者會不斷地產生行為資料,我們在不斷地獲取這些資料的同時,使用者畫像也會越來越貼近使用者的真實情況。
通過對不同的標籤分配不同權值,我們可以評估一個使用者的信用情況。在這基礎之上,我們就能建立徵信系統,使用大資料的方式來補足央行徵信系統的不足,降低網際網路金融企業的運營風險。
以支付寶為例,使用者在使用支付寶的過程中,會產生如網購消費、線下消費、轉賬、理財等資料。支付寶會給使用者貼上不同的標籤如平衡型、小有資金等。支付寶通過建立使用者畫像,判斷一個使用者的信用狀態,由此決定了對每個使用者的花唄、借唄放款額度。
結語
當前的央行徵信系統尚不完備,這方面的缺陷可以由各金融機構建立大資料徵信系統來補足。
在網際網路金融的發展過程中,大資料手段正不斷被應用到實際業務中,其中使用者畫像就是一個強有力的工具。使用者畫像在網際網路金融企業提供個性化服務、精準營銷、風險控制等方面發揮著重要作用。
我們要發展網際網路金融,就得用好使用者畫像這一工具。