1. 程式人生 > >如何用AI演算法識別騙保行為?螞蟻保險智慧風控模型首次公開!

如何用AI演算法識別騙保行為?螞蟻保險智慧風控模型首次公開!

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

阿里妹導讀:人生充滿意外和不確定性,保險的使命,就是給人以安全感。風控是保險業務正常發展的重要環節,成長於網際網路環境下的保險風控更為重要。

今天,阿里工程師正在利用跨平臺體系下的海量資料資源和智慧風控模型,優化保險風控,提升保險業務整體風控能力,讓保險更好幫助人們對抗風險,減少後顧之憂。

保險風控的背景以及挑戰

商業保險是一種用於保障未來的商業行為。除了我們常見的車險、財產險、健康險等傳統保險以外,運費險、賬戶安全險等在網際網路環境下應運而生。風控是保險業務正常發展的重要環節,成長於網際網路環境下的保險風控更為重要,其中保險風控主要有兩個重要部分:

  • 核保/准入:判斷是否承保,如何承保的過程,精準的准入能力對於騙保風險防控有非常重要意義,尤其是冷啟動階段

  • 核賠:判斷理賠是否符合保險保障條款,是防控騙保的核心手段之一

受到有限的資料、大規模計算平臺缺乏等原因,傳統保險公司只能基於有限的特徵(如年齡、性別、出險情況),結合經驗提煉出來一些簡單規則(當然,有些公司嘗試使用LR等方法建模)去輔助保險員的核保、核賠工作。

支付寶以及淘寶體系下的資料的積累,給我們提供了更好的資源來做風控,從中可以挖掘出使用者的消費習慣、社會關係、經濟能力等多維度深層次資訊,一定程度上可以反映出使用者的騙保概率、出險概率,用於甄別使用者騙保行為。我們希望能夠利用跨平臺體系下的海量資料資源和智慧風控模型,優化保險風控這兩個重要環節,提升保險業務整體風控能力。

值得注意的是,在構建保險場景下的風控模型,以下兩個重要的問題需要考慮:

  • 可解釋性:對於保險領域的模型來說,特別是風控模型,模型的可解釋型是一個重中之重。

  • 團伙性:大部分的騙保行為都是團伙行為。個體行為可能不明顯或者容易偽裝,但是潛在團伙關係是很難被完全掩飾的。如何挖掘圖上的潛在資訊,挖掘出團伙對甄別騙保行為有很大的幫助。

本文依託於超大規模機器學習框架引數伺服器PS[1]開發的FastRep圖演算法和PS-SMART演算法,並通過特徵工程精細化賬號行為屬性等,最終在X產品的兩個重要場景准入和核賠上上線,大大減少了騙保案件。

風控背景

以X產品風控為例:1.量化投保人不履約責任的風險概率,從而判斷最優的承包人員群體,即准入模型;2.量化理賠申請的騙保風險概率,從而防止騙保帶來的資損,即核賠模型。因為考慮到保險場景要求的強解釋性,我們演算法的主體選用了PS-SMART(PS-SMART是基於PS實現的分散式GBDT)。GBDT作為一個非線性分類器,其的優勢在於模型的強解釋性,魯棒性高,並能很好的處理建模使用的特徵裡的稀疏,預設,連續數值等。

我們提取了一些業務特徵,同時引入圖演算法來學習理賠涉及到的關係網路資訊。不同時間粒度下的離線特徵是通過ODPS定時任務週期性生成,與行為相關的實時特徵是通過特徵中臺生成。

准入模型

准入模型的業務目標在通過模型預測使用者的ROI,基於使用者的特徵、行為等屬性,我們使用PS-SMART訓練了多版GBDT模型。GBDT是非常成熟的一類演算法,這裡就不贅述原理。

模型效果

前後我們上線過兩版模型,在產品賠付率下降的情況下,預測目標的保費翻了四倍。

准入模型的價值是用演算法的視角,更精準的預估了使用者的ROI。從而業務決策上將會調整不同的ROI結果的人群准入策略,從而保證整體的保費收入增長。

核賠模型

核賠模型的目標是去判定每一筆理賠是否騙保。因為是事件級別,所以除了把使用者特徵引入PS-SMART訓練GBDT模型以外,還引入了行為特徵、關係特徵等更多資料。核賠模型的建模需要了解騙保行為本身,因此我們基於引數伺服器(PS)框架下的FastRep演算法來學習使用者的embeddding來刻畫理賠中投保人和被保險人所涉及到的關係特徵。從後面的模型效果顯示,關係網路的embedding的加入後,能提高模型頭部的召回。另外,目前FastRep演算法可以支援十億量級節點圖的計算,對於大資料量級的模型產出效率是非常重要。

演算法原理

FastRep演算法是一種基於圖關係的資料表徵演算法,該演算法為無監督演算法,利用PS分散式框架能快速地生成每個圖節點的embedding向量。這些embedding向量能較好的反映節點在網路中的特徵。FastRep演算法主要包括隨機遊走演算法和word2vec演算法兩個部分。

基於PS框架的隨機遊走演算法(random walk)演算法:

隨機遊走(random walk)是圖計算中的一個基礎演算法。其核心思想:針對一個構建好的圖(網路),隨機地選擇一個結點,記作X1,然後隨機的從X1的鄰接結點選擇一個,記作X2,類似的,不斷的選擇出來X3,X4等等。由於PS在處理超大資料規模上的處理速度、容錯性有較大的優勢,因此我們在PS框架下開發了隨機遊走(random walk)演算法。和傳統的隨機遊走演算法相比,我們的PS版本的隨機遊走演算法的特點和優勢:

  1.  在server和worker上分別儲存整個圖的資訊。在server端保留全域性圖資訊的好處是當有worker掛機時,PS的failover機制能較快的重啟一臺機器,並將server的資訊同步到worker上。

  2. 在worker上儲存全域性圖資訊的好處是每個worker獨立批量產生相應的隨機序列,並且流式輸出到ODPS表中。由於每個worker都儲存著全域性圖資訊,生成相應序列並不需要訪問其他資料,減少了依賴性和網路頻寬,極大地提高了效率和並行化。

基於PS框架的word2vec演算法:

利用隨機遊走演算法產生相應的序列後,我們採用word2vec演算法來生成相應的embedding資料。大家都很熟悉傳統的單機版word2vec演算法,為了解決超大規模資料的word2vec演算法,我們開發了基於PS框架的word2vec演算法。和傳統單機版word2vec演算法相比,我們做了以下改進:

  1. worker端並不儲存整個模型,它僅僅儲存它讀入資料中需要的embedding。當模型更新時,僅僅更新區域性節點的embedding。這樣減少了worker的記憶體和傳輸網路頻寬。

  2. worker端讀取資料時,並不是全部讀入整個資料,而是讀入部分資料分片。這樣能大大減少worker的記憶體和儲存資源。

  3. 引入category sample方法,使得負樣本取樣更加貼近詞的權重。計算下一次的負樣本取樣的資料時,將cpu計算和網路傳輸非同步進行,進一步提高cpu和網路頻寬的使用效率。

模型效果

FastRep演算法效果

我們從兩個角度研究了FastRep在這個場景下的效果,如圖1我們可視化了某一天測試集關係網路向量表示,我們發現該方法對於騙保事件和正常事件是有較強的區分度的(藍色是正常事件,紅色是涉及騙保的事件)。

640?wx_fmt=png

圖1 理賠事件embedding視覺化

圖2可視化了同一天事件涉及到的使用者向量表示,騙保一定程度上也是可以通過此法識別出來,另外我們通過實際資料研究了圖中圈出來case,發現了一組存在中介關係的騙保團伙,而這種多度關係的識別在普通方法上是很難識別出來。

640?wx_fmt=png

圖2 使用者embedding視覺化

模型離線效果:

在測試集上,準確率提升的基礎上,覆蓋率上漲了5倍。

模型線上效果:

目前我們部署上線了模型,此模型和規則等組合上線之後我們可以看出來線上識別風險的能力大幅度提高,日均騙保案件量降幅76%。

總結

這次的專案是螞蟻保險資料部和人工智慧團隊一次成功探索嘗試,利用AI新技術提升整體風控能力,未來,我們將繼續探索更多場景的能力提升。 

我們在等你!

如果,你想感受網際網路時代的大潮!

如果,你想成為網際網路金融的弄潮兒!

如果,你想成為大資料的摸金校尉!

來這裡就對了!

螞蟻金服保險事業部資料組常年招聘各類演算法、資料探勘、資料分析等方向人才。歡迎砸簡歷:[email protected],一起致力於網際網路保險的資料能力建設,if not now,when! If not you, who!

同時螞蟻金服人工智慧部分散式學習和系統組也常年招各種演算法相關人才,同樣歡迎砸簡歷!

參考文獻

[1]Jun Zhou, Xiaolong Li, Peilin Zhao, Chaochao Chen, Longfei Li, Xinxing Yang,Qing Cui, Jin Yu, Xu Chen, Yi Ding, and Yuan Alan Qi. KunPeng: Parameter Server Based Distributed Learning Systems and Its Applications in Alibaba and Ant Financial. KDD 2017. 1693-1702.

640?

你可能還喜歡

點選下方圖片即可閱讀

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=png

關注「阿里技術」

把握前沿技術脈搏