網路系統中的免疫細胞:新無監督學習模型可發現系統中潛行的黑客
一種新的無監督學習模型,可以發現侵入系統的黑客,並在其作出攻擊行為前迅速作出反應,發出警報。
2013 年,一群英國情報人員發現大多數的安全工作都致力於阻止黑客入侵,但幾乎沒有人反過來思考這個問題:阻止已經入侵的黑客洩露資訊。基於這個想法,這些人成立了一家新的名為 Darktrace 的網路安全公司,並與劍橋大學的數學家合作,開發了一種利用機器學習模型捕捉內部漏洞的工具。
研究人員沒有用黑客攻擊的歷史例項訓練演算法,相反,他們需要一種新方法讓系統能夠識別異常行為。於是,研究人員轉向無監督學習模型,這是一種並不常見的基於機器學習演算法的技術,其中一個很大的特點在於,它不需要人類指定具體的搜尋目標。

圖丨Darktrace 在感染病毒的裝置上顯示鎖定了一個異常行為(來源:DARKTRACE)
Darktrace 聯合執行長 Nicole Eagan 說:“這個系統很像人體自身的免疫系統,能識別哪些是自己的,哪些是外來的。並在發現外來入侵後,能夠做出非常精確而快速的反應。”
絕大多數機器學習應用程式依賴於監督學習。監督學習需要研究人員給機器輸入大量經過仔細標記的資料,來訓練它識別具體事物的能力。例如,如果你想讓機器能識別金毛犬。你需要給它輸入成百上千的金毛犬圖片和其他非金毛犬圖片,同時明確地告訴它哪些是,哪些不是。然後它才能很好的地進行識別。
在網路安全領域,監督學習模型非常有效。用系統以前遇到的各種威脅來對機器進行訓練,機器就能掌握隔離這些威脅的能力。
但是監督學習模型有兩個主要問題。首先,它只適用於已知的威脅,對未知對威脅束手無策。另一方面,監督學習演算法在平衡的資料庫下才能很好地執行。換句話說,即對於機器來說,需要特別注意的目標和可忽略的目標在數量上是相當的。然而,網路安全資料是高度不平衡的,比如有少數情況是海量的正常行為中混入了少數的威脅行為。

圖丨一個特定子網路中的所有視覺化連線(來源:DARKTRACE)
這種情況下,監督學習的效果並不令人滿意,而非監督學習就可以派上用場了。非監督學習可以檢視大量未標記的資料,並找到不復合典型模式的部分。因此,它可能會識別出系統以前從未見過的威脅,並且只需要很少的異常資料點就能做到這一點。
Darktrace 部署軟體時,它在客戶的網路周圍設定了物理和數字感測器觀測網路活動。這些原始資料將匯入到超過 60 種不同的無監督學習演算法中,讓這些演算法相互競爭以發現異常行為。
然後,再將這些演算法的輸出結果傳送到另一個主演算法中,主演算法使用各種統計方法來決定這 60 個演算法中哪些行為要注意,哪些行為可以忽略。所有這些複雜的操作都打包成最終的視覺化連線,允許操作人員快速檢視並對可能的入侵作出反應。而在操作人員得出解決方案之前,系統會隔離這個漏洞,直到它被解決為止。例如,系統會切斷所有受感染裝置的外部通訊。
當然,無監督學習並不是無懈可擊。隨著黑客的攻擊越來越複雜,無論研究人員使用的是哪種機器學習方式,他們都可能騙過機器。加州大學伯克利分校的網路安全和機器學習專家 Dawn Song 表示:“在這種貓鼠遊戲中,攻擊者可以改變自己的遊戲規則。”
她說,為了應對黑客的改變,網路安全界轉向了積極主動的方式,通過建立更好的安全架構和原則,使系統更安全。但要徹底根除所有違規和欺詐行為,還有很長的路要走。“畢竟,整個系統最薄弱的環節就是安全。” Dawn Song 說。