1. 程式人生 > >回顧·愛奇藝流量反作弊的“術”與“道”

回顧·愛奇藝流量反作弊的“術”與“道”

作者:張曉明

整理:DataFun社群

社群公眾號ID:datafuntalk

今天主要從以下幾個方面介紹,首先介紹下流量反作弊相關的介紹,然後是愛奇藝流量反作弊的“道”,愛奇藝流量反作弊涉及到的點很多,起“道”還是蠻貼切的,讓大家對愛奇藝流量反作弊有個認知;接下來就是流量反作弊是怎麼做的。第四個從系統應用的角度講如何構建反作弊體系,最後就是未來的展望。

首先說一下什麼是流量反作弊,書面並沒有官方定義,我定義為製造非使用者產生,或帶有一定目的性的資料。非使用者產生的就是程式設計師寫的一些程式碼重複執行投遞邏輯或產生一些並非人為產生的資料,帶有一定目的性指有些資料並不是機器產生的,很大部分都是人產生的。如一個人在APP上重複的操作一個事情,但所有的操作都是合法的(不斷開啟關閉視訊刷視訊),這也是一種反作弊。第二點說一下流量作弊的形式,一種是機器作弊:模仿投遞日誌,呼叫介面。有些資料並不是投遞的,而是訪問業務資料庫,提供介面訪問,這種也算為流量作弊;第二種是人工作弊:微信群,QQ群,由專人指導,專業APP,指導操作並與使用者分成。這兩種作弊的模式機器作弊的設定模式相對固定,短期效果明顯,因為是機器迴圈操作,通過動態ip,而且速度比較快。人工欺詐模式不固定,效果與組織規模有關。

反作弊產業現狀第一個就是難辨識,機器作弊越來越趨近現實,很具欺騙性。在平臺和作弊方進行博弈的過程中就如同病毒一樣不停成長,就很難防範。第二是成本低,動態代理IP獲取容易,還有P2P機制的刷量軟體(流量精靈),雖然我們平臺能識別,但是如果是個小公司,一開始還是很難識別的。第三個就是行動快,非常的有組織有規模,不是某一個人某一臺電腦下一個軟體刷一下。

簡單介紹一下其刷量模式,中間紅色部分是流量欺詐平臺,首先是製片方或渠道去流量欺詐平臺購買流量,欺詐平臺在網站視訊刷流量,網站定期向渠道方支付流量分成。右邊是網店向流量欺詐平臺購買流量,平臺刷網店商品,提高人氣,這是兩種比較直接的形式。還有就是直播刷人氣,與網店模式差不多,還有就是網站刷廣告等其他形式。網站刷廣告形式是做了一個網站,讓廣告聯盟向網站投廣告,站長向欺詐平臺買流量,帶動廣告量,廣告聯盟就會支付費用。

給行業帶來的傷害直接就是經濟損失,第二個就是正常使用者對產品的判定標準失衡,如電商你都不知道產品是人評價還是機器評價。然後就是企業信譽受損,如票房十億但是電影很爛,長此以往信譽就會受損。企業資料分析不準確,做商業分析時各種指標對不上。企業成本上升,如愛奇藝本來十臺機器就能維護正常運維,但是一旦遇到刷量情況就無法承受,大量資料導致服務卡頓,因此伺服器採購成本高。

資料是一個企業的核心資產,是一種生產物料,並且表達了一系列的行為。資料可以衍生出各式各樣的產品,能夠幫助使用者提升使用者體驗,如可以基於資料做一些推薦產品。資料還能幫企業做一些決策、預測。如果資料質量不過關就會導致分析不準確。

從工程技術來看,流量反作弊是一個技術問題,機器生成的資料,算異常流量。從業務方面,只要分析師認為資料表象特徵不具備規律性,算異常流量。總的來說兩者結合都算異常流量。但是有一個特點,從工程師的角度,這個事一旦做完就完了,如資料加密過程,你在廣告、評論都能應用。

接下來講一下流量反作弊與資料清洗之間的關係。資料清洗更加關注的是欄位是否存在,列舉值是否正確,該版本的投遞是否註冊並稽核通過。我們資料平臺對資料投遞是有一套規範,必須在投遞平臺註冊並稽核通過,才會認為投遞是真實合法的。流量反作弊更關注資料的特徵是: 指標是否正常,硬體資訊是否正確,業務之間特徵資料關聯是否合理,是否滿足預測模型。

接下來說一下流量反作弊的位置,底下是各種資料來源,然後將資料傳到ODS上,ODS直接對接反作弊的各種技術。反作弊做的越前越好,損傷越少,因為拿到的資料是一致的。這裡有兩種輸出方式,一種就是以黑名單方式或者幾種黑名單的方式;另一種就是直接給業務方表格。我們主要採用第二種方式,加入我們以黑名單形式,A使用者用來A黑名單,B使用者用來B黑名單,而A和B不一致。但是反作弊最好是能拿到所有資料,因此我們給出所有資料。我們以現有資料做反作弊,但是有些機密資料是拿不到的,機密資料是以黑名單的形式給使用者。

流量反作弊的難點有:被動防守,事後分析,而且不斷迭代發生。業務場景複雜,沒有通用模型。第三個就是持續維護舊規則,不斷增加新規則。因為作弊和反作弊是一個攻防過程,需要依據作弊技術不斷更新規則。

做流量反作弊需要提前做一些準備工作。第一個就是掌握投遞的日誌或者資料庫中的元資料含義,這個不可或缺,是所有工作的前提。第二個掌握主體業務的工作模式和場景,如視訊相關,需要了解播放器相關的場景和工作模式,資訊流是怎樣的。第三個是避免資訊孤島,必須找到所有相關聯的資訊。第四個是瞭解作弊的目的什麼,從目的入手比較好操作。第五個是與業務部門良好的溝通,確認作弊的口徑,並做好保密工作。需要溝通確定作弊口徑,如視訊需要給業務方解釋不以視訊觀看為目的的流量都算是作弊流量。

認定為技術問題也是可以做的,一旦做完都可以用。具體方式有:做一些IP信譽機制,如果IP機制做好了,所有流量通過這個IP都是作弊流量。第二個安全畫像,利用打分機制。第三個就是加密資訊檢測,執行起來所以機制都是一樣的。然後是裝置硬體資訊檢測,這是目前比較重要的機制,不管你是手機端的網頁或是APP網頁都能識別裝置唯一ID。

認定為業務問題的解決辦法分為兩個方面,一個基於規則統計,一種是基於機器學習。機器學習優點可以實現十分複雜的邏輯,但是需要關注模型的選擇和效果,缺點解釋性比較差。統計有一個很好地解釋性,但是缺點要求統計模型的複雜程度限制在一定範圍內。能找一些特徵,但是選擇特徵有限。

認定為業務問題的解決思路先建立一個指標庫,指標庫要足夠強大,第二個就是業務資料的上下文分析,業務發生時日誌檔案記錄上面發生了什麼還有下面要發生什麼。第三個是行為特徵的分析,如使用者先訪問A再訪問B,再訪問C,但是它直接從A到C就不正常了。第四個是基於時間序列的分析,資料訪問要符合一定的時間序列規則,如A-B-C不能C-B-A。

基於機器學習的反作弊思路是將資料從源日誌中取出,進行資料清洗和抽樣。然後做正反樣例標定以及特徵工程,然後將其放入標籤庫。分為測試集和訓練集,然後進行模型訓練,利用測試集進行模型評價,通過後構建特徵庫,進入反作弊服務體系。

機器學習最重要的就是特徵工程,特徵工程決定資料的天花板。如果特徵工程好,模型一般也可以很好,但是如果特徵工程不好模型再好一定不能做好。上圖介紹了特徵工程如何做、使用方案、專業評估,然後如何獲取特徵,這些特徵如何稱呼,還有特徵預處理、分級以及做一些降維。然後就是模型訓練,主要使用LR、RF、GBDT、XGBoost。

效果評估就是敏感資料更關注TP,因此精確率必須要好,否則就無法使用。還有一般資料,如F1,ROC,AUC。這些指標低點並不影響後續分析。業務不斷維護舊規則建立新規則,對舊規則而言對作弊資料打標籤,建立特徵標籤驗證,基於作弊資料和標籤進行分析,最後進行驗證。比如今天做了一些反作弊,有兩條規則都對資料進行驗證,交集越來越大,最後一個包圍另一個,那麼被包圍的規則就沒有用了。

還有重要的一點是監控,如果被業務方反應已經很被動,需要在業務方發現之前解決。需要做一個監控提醒,首先定義定義監控指標(pv,uv,評論數等),業務主體基礎資料的監控,端整體資料的監控。然後分主題監控,如細粒度的分主題相關資料的監控,還有一點是監控的時效性,需要實時監控,準實時監控。

從系統應用的角度看反作弊體系,反作弊離不開徵信,首先確定徵信物件,對於我們就是渠道徵信。還有發展階段,短期做什麼,中期做什麼,長期做什麼。其價值就是做一些決策、信用監測以及成本節制。體系結構構件作弊與反作弊特徵庫,建立一些徵信模型,建立信用評價體系然後做一些預測。

流量反作弊的服務應用第一個就是資料報表,具體有:內容流量&反作弊總體分析,單個內容流量&作弊情況查詢,攻防效果分析,徵信總體分析,單個徵信物件信用報告查詢智慧分析。第二個智慧分析,就是負責作弊識別-扣量-減付業務流程自動化, 作弊概率預測,異常預警,策略分析。第三個就是介面服務,反作弊結果以介面形式服務於各個業務。

未來展望在技術方面引入深度學習方法,蠶蛹模型融合技術,產品方面加快信用體系建設,形成產業聯盟。

作者介紹

2014年加入愛奇藝,主要從事愛奇藝大資料平臺搭建以及流量反作弊專案,見證了愛奇藝在流量反作弊、規範市場環境方面的發展歷史,帶領團隊完成了流量反作弊的系統體系建設。

——END——