英文文獻閱讀-無需人工標籤的虛假使用者檢測
最近面試微博安全的時候,大BOSS提到微博安全一個重要的點就是虛假刷榜行為的檢測,這裡就涉及到虛假使用者的檢測,所以閱讀了一篇相關文獻。
0x00 文獻簡介
原文標題: SybilBlind: Detecting Fake Users in Online
Social Networks without Manual Labels
原文作者:Binghui Wang, Le Zhang, and Neil Zhenqiang Gong
原文出處:ofollow,noindex">https://arxiv.org/pdf/1806.04853.pdf (RAID 2018)
虛假使用者往往會被攻擊者利用來發動政治安全、經濟安全、個人安全等方面的攻擊,包括操縱選舉、控制輿論、影響股票以及垃圾郵件和釣魚攻擊等。作為業務安全的一部分,社交服務提供商十分重視相關安全層面的檢測。
0x01 研究背景
本領域已有研究方法如下:
1 基於結構的方法
- 隨機漫步(Random Walks)和混沌置信傳播 (LBP)
隨機漫步通俗一點說是指我們無法預測運動的下一步動作,但是可以對整個運動的密度分佈規律進行掌握,進而進行預測研究的方法。
混沌置信傳播是指,馬爾科夫隨機場中每個節點之間的概率分佈會相互干擾,最終在多次迭代中,會達到概率分佈的穩態。
- 社群發現演算法(Community Detection Algorithms)
從圖結構中找出社群的一系列方法。
2 基於資訊的方法
- 通過對使用者內容、使用者行為、使用者社交結構特徵進行分類訓練的方法。
其實從這裡我們可以看出論文研究中設計模型的兩種常見方法,一種是通過理論去計算設計模型,一種是基於實踐經驗來設計模型,這個問題我覺得可以細聊,這裡就不多說了。傳統需要 label 的模型存在以下幾點問題:
- 人工標記耗時
- 無法檢測新模式的虛假使用者
- 標記訓練集可能被攻擊者用於規則逃逸
0x02 論文模型
三部分構成
取樣器——檢測器——聚合器
取樣器對社群圖進行相同節點的隨機取樣標記,檢測器利用以前論文中提到的模型進行檢測,聚合器根據兩個指標進行判別修正檢測結果,最後在多次迭代中得到一個趨於穩定的檢測模型。
取樣器部分提到了隨機標記和不同的極化場景,隨機標記意味著對於取樣結果的區域進行隨機label,這時,隨機label與真實label之間就會存在差異,這種差異定義為噪聲。不同的極化場景會影響已有檢測器的效能,正向極化場景下,每個標籤域的噪聲較小;負向極化場景下,每個標籤域的噪聲較大;非極化場景下,標籤域噪聲隨機分佈。
在這種情況下,利用原有檢測器進行檢測就會存在問題,因此作者提出對結果進行聚合,聚合的指標主要有兩個:
同質性,通俗講就是物以類聚,用公式衡量就是相同屬性節點相連的邊與所有邊的比值。
單邊熵,衡量虛假使用者比例的一個指標,用公式衡量就是虛假使用者大於50%,就不正常,單邊熵值就為0。其他情況下,單邊熵隨著虛假使用者增加而增加,減少而減少。
在這種情況下,三種場景的對指標的呈現會有不同。
非極化場景下,同質性會很小,這是因為虛假使用者和真實使用者各佔一半。
負極化場景下,同質性大,但單邊熵會小,這是因為虛假使用者過多。
正極化場景下,同質性大,單邊熵也會大,因為虛假使用者會維持在一個合理的範圍內(不會太大也不會太小)
針對這兩個指標評判抽樣場景,再決定結果是否應該聚合,最終多次迭代後得到一個虛假使用者和真實使用者的聚合模型。