1. 程式人生 > >大資料風控系統概述

大資料風控系統概述

為什麼要做風控系統

不做的話,會有以下風險:

  • 各種小號、垃圾賬號氾濫
  • 撞庫攻擊、盜號、毀號、拖庫等
  • 拉新 10w 留存率不到 5%
  • 百萬營銷費用,卻增加不了使用者粘性
  • 投票票數差距非常懸殊
  • 各種榜單被垃圾賬號佔領
  • 實物獎勵被機器人領走
  • 紅包被秒搶
  • 下單不付款佔庫存
  • 虛擬佔座
  • 刷單炒信
  • ……

風控場景

  • 營銷活動反作弊

防禦現金紅包獎勵、優惠劵促銷、電商秒殺等營銷活動場景下薅羊毛、黃牛黨倒賣等各種欺詐行為

  • 內容防盜爬

防禦行業競爭資料、高價值內容、隱私資料等被盜爬行為

  • 渠道流量反作弊

防禦 iOS、國內外 Android 等各類渠道推廣流量作弊行為

  • 刷榜刷單防護

防禦直播熱度排行、電商銷量排行、熱門內容推薦等場景下惡意刷榜刷單行為

  • 虛假使用者裂變識別

防禦拉新、助力砍價、電商拼團等場景下虛假使用者裂變行為

  • 支付風控

防禦盜卡交易、遊戲代充等欺詐行為

作弊手段

打介面和虛擬機器

這兩種手法比較相似,都是用電腦模擬手機等移動裝置,以虛假裝置資訊和網站、APP 的伺服器端通訊。

這種低成本手段是移動網際網路水大魚大時期的遺留物,銘刻著各平臺未對黑產痛下殺手時的“美好記憶”,由於操作簡便,不需額外資源,仍是目前主流的黑產手段之一。

識別打介面的主要方式是:引入裝置標識判斷邏輯,沒有任何裝置標識資訊或資訊不正確,就會被判斷為打介面“假客戶端”。

識別虛擬機器的方法:其中一種方法是看 CPU、PC 上虛擬機器使用的 CPU 指令集架構和移動裝置會有明顯差別,如果發現指令集屬於 PC 而非移動裝置,則識別成功。

裝置農場

此後,黑產不得不啟用更高成本的新手段——用真實手機作惡,裝置農場形態應運而生。

這是與黑產對決的一個長期堡壘,攻防雙方的手段交替進化,主要經歷下面幾個階段:

簡單刷機(通過修改單個裝置資訊,如 IMEI 號,用一臺手機模擬出多個移動裝置)、

複雜刷機(通過修改多維度裝置資訊模擬移動裝置)、

Hook 改機(通過劫持系統函式、返還虛假資訊模擬移動裝置)和

多開(通過劫持系統函式,同時在單臺手機上開啟幾十個相同應用,如幾十個微信,提高作惡效率),
把黑產逼到了不得不啟用“真機農場”的境地。

而真機農場,就是“老老實實”地把一臺手機當做一個裝置來用,相比用一臺真實設計模擬數個虛假裝置,其成本已十分高昂。

反欺詐工程師們也找到了應對真機農場的關鍵:即便不刷機、不 Hook,群控卻依然是黑產無法繞過的核心,所以在對群控多維痕跡進行專門檢測後,真機農場也無所遁形。

2018 年的黑產新動向:雲手機、硬體外掛和積分牆

雲手機

2018 年 9 月下旬,雲手機橫空出世。就像其名稱所展示的,這是雲端計算在黑產界的最新應用。和“雲手機”的對決,

雲手機和傳統裝置農場的最大區別是:它背後並不是一個真正的手機,而是一套搭載在雲伺服器上的虛擬手機。

在雲手機加持的新型農場裡,場景更加“科幻”——掛在牆上的不再是成百上千的手機,而是一片片裝載了安卓的板卡,這些板卡可被電腦群控,模擬正常智慧手機的註冊、點選、分享等一系列使用者行為。

硬體外掛

在雲端計算之外,黑產也開始用起了硬體外掛。

大牛是一款可插裝在蘋果手機上的硬體,它最牛的功能是,是插上之後,能讓蘋果手機在不“越獄”(開放使用者操作許可權)的情形下實現改機和篡改 GPS 的目的。

搞清了這個原理後,只要識別出相關特徵,大牛也就不牛了。

積分牆

目前這波黑產中最難搞定的 Boss 級手段——積分牆。積分牆其實就是“人刷”,由羊頭和羊群協作完成。

厲害的羊頭能觸及多達萬級乃至十萬級的職業、半職業羊毛黨。一旦有大漏洞出現,羊頭就會將訊息層層放出,組織大家一起薅——在由各種訊號、傳輸協議連線的“平靜網際網路”中,羊頭引領這支大軍,進行著“奪金不用刀”的無聲“搶劫”。

電商平臺今年初的優惠券漏洞,就可以理解成一次驚動全網的“積分牆”。積分牆的攻防難點在於,背後是真人、真裝置。很難識別,這也是我們近期對抗的重點,不過現在也快識別得差不多了。”

識別的方法也自成體系,主要通過團伙特徵和行為時序異常等維度來綜合判斷,再結合通過大資料例行運營挖掘出的積分牆應用,一起做到風險可控。

風控系統解決方案

全鏈路風控解決方案,包括三大部分:事前預防、事中檢測處置、事後分析回饋

  • 事前預防:通過資料採集收集使用者側資訊、通過業務規則來限定參與活動的門檻、通過身份核驗來確認使用者身份等手段,防止風險事件的發生。
  • 事中檢測處置:通過實時線上的手段來檢測風險,並做相應的風險處置,防止風險事件的發生。
  • 事後分析回饋:基於長週期的離線資料分析,計算使用者側、裝置側、IP 側、業務側的各種風險特徵,並作用於事前風控和事中風控。

風控主要功能

從資料提供規範、支援規則和社群、黑產庫、輸出方式等方面提供完整的解決方案
風控引擎主要的工作是識別風險,一般的風控引擎都需要如下幾個功能:

  • 名單服務:建立黑、白、灰名單;
  • 畫像服務:建立基於 IP、手機號、賬戶等層級的畫像服務;
  • 指標計算:一般包括高頻類統計、求和、計數、求平均值、求最大值、求最小值等等;
  • 風控模型:基於採集到的資料,建立風控模型,比如:裝置模型、行為模型、業務模型等;基於機器學習、深度學習技術來構建業務模型、裝置模型、行為模型,或文字類模型(異常地址檢測、異常暱稱檢測)等;
  • 規則引擎:最終的風控資料進入規則引擎,由規則引擎判斷是否存在風險。風控運營需基於業務建立各種風控規則,以識別風險。

風控系統架構

資料採集

使用者資訊/ 裝置指紋 / 操作行為 / 網路資料 / 提現資料 /第三方資料

機器學習模型

  • 社交網路

欺詐團伙識別,基於手機號、裝置、IP,行為等建立時域關聯網路,利用社群發現、
風險傳播等無監督演算法精準防禦黑產團伙欺詐行為

  • 離群點分析

識別異常頻率行為使用者,如刷量使用者

  • 複雜事件處理

基於一些規則模型,檢測異常行為。比如信用卡盜刷檢測,
識別使用者短時間內切換不同地點登陸賬戶

  • 效果評估

準確率 召回率

異常團伙示例

通過機器學習模型生成的團伙行為特徵如下所示:

社群成員有相同的手機型號和手機號字首,且啟動時間高度一致,還都在充電,該團伙疑似為裝置農場作弊。

規則引擎

根據規則和閾值進行判斷,返回使用者風控等級,下面為幾個規則引擎方案:

  • 藉助成熟的規則引擎,比如 Drools,Drools 和 Java 環境結合的非常好,本身也非常完善,支援很多特性,不過使用比較繁瑣,有較高門檻

  • 基於 Groovy 等動態語言自己完成

  • Spark SQL + 規則轉化成的 SQL 語句構建規則引擎對使用者風控指標進行分級

管理系統

  • 指標管理
  • 指標組合管理
  • 閾值管理
  • 名單管理
  • 提現審批

參考

https://zhuanlan.zhihu.com/p/84747637
https://www.cnblogs.com/cx2016/p/11647110.html
https://www.jianshu.com/p/a14f1d9a1d9d
https://ixyzero.com/blog/archives/4270.html

更多文章

知識圖譜在大資料中的應用

基於Spark Graphx+Neo4j實現使用者社群發現

基於大資料聚類社群的作弊使用者發現方法

基於 Apache Flink 和規則引擎的實時風控解決方案

Flink 在同程藝龍實時計算平臺的研發與應用實踐

MapReduce Shuffle 和 Spark Shuffle 原理概述

攜程是如何把大資料用於實時風控