1. 程式人生 > >信息安全與人工智能

信息安全與人工智能

人工智能 信息安全 機器學習

1. 前言

人工智能(即Artificial Intelligence,簡稱AI)是計算機科學研究領域的重要方向,其起源直接可以追溯至現代計算機未正式誕生之前,但其真正具有廣泛實用價值應看作為21世紀的初葉,可以預見在未來的若幹年中,隨著計算機硬件工藝極大的提高、網絡帶寬迅速增長,筆者認為人工智能應在計算機科學的若幹細分領域中占有最為重要的作用,它也會極為廣泛地被其它學科所應用,可以認為21世紀實際就是“泛人工智能”的時代。

與人工智能相較,計算機領域中的信息安全分支起源較遲,應該可以認為是上世紀80年代開始興起,90年代至今都在不斷發展的一門多交叉、邊緣性學科;其從最初的、比較單一的殺毒軟件開始(與數據加密一起可以認為是當代信息安全產業的濫觴,當然數據加解密實際上是信息安全最初的需要,但殺毒軟件最為人們所熟知),其後又發展了防火墻、入侵檢測系統,它們與殺毒軟件一起被稱作信息安全產品的“老三樣”或者被稱為“三架馬車”;隨著信息安全地不斷發展、嚴峻的信息安全形式以及客戶的要求,單一的安全產品已然無法滿足現實情況,筆者將信息安全的發展劃分為如下幾個階段:

第一階段:單一安全產品階段,即各種信息安全產品各自為站,每種安全產品各管一塊,其形態也基本上為網關型、主機型等;

第二階段:綜合安全產品階段(含解決方案),此類產品提供了單一安全產品所無法具備的一些功能,比如UTM類產品(統一威脅網關)、安全管理中心等,此類產品可能包含若幹種功能,而且它們應能將相關信息進行相關關聯,在一定範圍內和一定深度內進行一般性的挖掘,從而達到單一產品所無法完成的任務,但其能力應該也僅僅是在“一定”之內;

第三階段:此階段目前似乎沒有太多定論,一般而言可能是指所謂的大數據安全、雲安全,但個人認為無論是大數據還是雲安全都沒法準確刻畫、描述和解決我們當前面臨的各類復雜的安全問題,例如零日漏洞、社會工學(一般可指釣魚,無論是短信方式還是郵件方式等)、海量的惡意軟件變種等等,不一而足,所以此階段應該被稱為“人工智能安全產品”時代。因為面對當前如此復雜的信息安全形勢、如此巨大的數據信息、如此“狡詐”的網絡犯罪手段,僅僅依賴各類傳統方法(包括一般的關聯手段等)是無法解決的。

當然,人工智能也是無法解決所有信息安全問題,部分的問題還是需要一些管理手段,但竊以為以往提出的在信息安全領域中的“三分技術,七分管理”是值得商榷的,個人堅持“七分技術,三分管理”,因為無論何時、何種場合,“科學技術是第一生產力”,如果技術手段都無解決,那麽管理手段能解決的範圍和程度也是相當有限的;應該強調的一點是,正確的、適度的、合理的管理手段是必不可少的,否則其結果不是增加安全運維人員的負荷就是得到錯誤的結論。

2. 人工智能和信息安全產品的關系

其實,通過對過往安全產品的回溯,我們可以認為人工智能應早就滲透到各種類型產品的“血液”之中,其程度或淺或深,其效果或顯著或不甚明顯。其中較為著名的如反垃圾郵件開源系統——

Spam Assassin,在其中使用了一些諸如樸素貝葉斯的方法,它對可能今後未知的垃圾郵件進行打分和分類,這個開源項目目前仍被較好地維護。通過實驗,現在看來其效果還是不錯的(不過它使用的是Python進行訓練和識別,速度略慢,但在一般情況下處理郵件還是綽綽有余了)。

通過上節的例子,我們可以看出人工智能在信息安全上已經有了不錯的應用,那麽其還能解決哪些問題?

人工智能其實也包含若幹個不同的用途,筆者以為包括:

1. 分類:如在上例中對於垃圾郵件、釣魚郵件/短信的分類,即區分安全和不安全問題;各種分類模型或算法是人工智能技術應用於信息安全領域的最為重要的手段或方法;

2. 聚類:目前還沒有看到在安全產品中有被廣泛地應用;

3. 回歸分析和預測:這個已經被廣泛地運用於一些網絡類型的信息安全產品;

4. 規則挖掘:在信息安全領域,這種方法似乎沒有被大範圍使用,難道用不到?

5. 距離分析(其實聚類分析也是一種比較典型的距離分析):此類方法在一些網絡流量類產品中有比較好的應用,但安全也和網絡是密不可分的;

6. 假設檢驗:可以對一些對象的行為進行分類並建立基線,使用假設檢驗的方法來預測。

綜上所述,網絡安全與人工智能,特別是“機器學習”具有密不可分的關系,其中分類是最為重要的手段;只有通過對於不同數據的分類,方可識別惡意行為和正常行為,才能比較有效地處理安全問題,其它方法也是比較常用的手段,它們共同組成安全產品的“智腦”。


當然,不是安全產品僅僅具備人工智能這一項裝備就萬事大吉了,還是要結合一些傳統的,諸如特征(如MD5等)、一般性策略、名譽技術(其實也就是各類黑白名單庫)等方能充分發揮其效能。另外,信息的收集、處理(各類信息的元數據抽取)、識別(如對於網絡包的深度識別技術)、基礎統計等也是必不可少的(因為,各類人工智能算法並不是處理大數據的),這些步驟方是大數據安全的“前奏”。

那麽,在一些信息安全產品中,最需要通過人工智能技術解決哪些問題?答案應是對各類未知威脅的檢測。可以想象,如果一款安全產品總是需要或僅僅依賴各類特征來發現問題,那麽其時效性、有效性均會存在巨大隱患,在某種程度而言,它其實就是最大的“黑洞”。另外,需要說明一點的是,經過訓練的數據特征是需要升級的,這個只靠單個結點可能是無法勝任的。

3. 具備“智腦”的信息安全產品

既然人工智能與信息安全產品有如此深刻的關系,那麽我們需要梳理下當前信息安全信息形式下在哪些方面應應用哪些相關技術(包括已經使用的和可能在未來需要使用的):

1. 關於動態域名的識別:由於目前木馬已在各類惡意軟件中占有統治力的地位(純粹只具備破壞性的病毒,由於利益問題,占比基本很小),而且木馬主要的行為就是利用遠程控制方法來進行操控、滲透、重要信息的獲取和偷竊,多數木馬會使用動態域名的方法與遠程服務器進行交互以逃避靜態名單的檢測及阻斷,故對於動態域名的識別是防止木馬的重要一環,這只能通過人工智能的方法並配合靜態名單來滿足要求;


2. 釣魚行為的識別:在當前階段,利用社會工學的手段,使用短信(普通短信及彩信)、郵件等途徑誘騙用戶點擊、下載惡意軟件已經成為社會信息安全的毒瘤,而這些釣魚手段防不甚防,如文字具有非常的誘惑力且文字間插入很多特殊字符以迷惑識別軟件、圖像中隱藏惡意鏈接等等,隱蔽性很強,一般受害者根本無法辨識,故在很多場合亟需具備一定智能的軟件去不斷學習和識別這些問題;


3. 不斷演進的惡意軟件形態識別:目前,由於惡意軟件的偽裝方法十分隱蔽,如加殼甚至是私有殼、分段組裝、延遲執行、反沙箱或反虛擬化等等,雖然利用沙箱可以檢測出部分行為,但存在兩個問題:其一是沙箱的能力十分有限,而且可能產生比一些誤報,在很多場合下還需進行人工分析;其二是沙箱的性能十分有限,運行一個樣本,在一般情況下可能需要若幹分鐘,如果將同一個樣本放置在不同種類的沙箱中,那麽消耗的資源和時間都是十分驚人的,故需要更好的靜態識別方法(不僅僅是特征碼),以減少沙箱運行的次數;


4. 對於異常流量的識別:如果企業對於自身的網絡連接行為約束得較好(不過這也不排除某些合法站點被掛馬),那麽可能對於這個方面的防護要求並不是太高(但也未必不會產生問題),但是從安全性的角度而言,非法的外聯、內聯永遠也是企業安全的最大問題來源,這個也無法杜絕使用“擺渡”方式來偷竊企業敏感信息的手段,故對於不斷增長的網絡連接行為的檢視和審計就成為可能“阻斷”企業信息泄密的最後方法,但如何有效刻畫網絡連接、通訊的各類特征、內網各個結點的網絡行為、用戶網絡行為就成為非常重要的一環,但這裏仍需要使用一些人工智能及統計學的方法。


以上闡述的幾個方面可能不過是信息安全產品所需要解決的眾多問題中的幾個重要方面,但具體而言,特別是在目前大數據、雲計算環境下,一個具備“智腦”的信息安全產品應具有如下幾項特點:

第一,至少具備分布式的產品架構,能多個抓取點所獲取的不同種類的數據有分析、特征提取的能力;

第二,具備一定能力以提供對數據建模的功能,當然,提供建模的方法或接口最好有用戶自定義模塊;

第三,也是最重要的一環是,應提供較為豐富的人工智能應用,比如集成如樸素貝葉斯方法、貝葉斯網絡、Hopfield/BP神經網絡、卷積神經網絡、波爾茲曼神經網絡、深度置信神經網絡、n-gram方法(參見文獻[4])、遺傳算法、模擬退火、支持向量機(Support Vector Machine,簡稱SVM)、k-meansLDAApriori等等,為此應還需要集成各類向量/矩陣運算(能支持上百個維度)、空間距離運算(如歐氏距離、馬氏距離等)、統計數字特征分析、假設檢驗分析等,方可在面對處理不同問題時“遊刃有余”。比較好的一點是,很多開源庫已經提供了這些功能,如ROctavelibsvm等,一般所要做的工作不過是恰當地抽取特征和合適地模型建立


總之,對於一個不具備“智腦”的信息安全產品而僅僅依賴靜態特征運作,其在識別、防禦“未知威脅”上肯定會存在這樣或那樣的問題,也無法應對日益復雜的信息安全問題。

4. 未來的展望

通過上面的論述,可以看出當前信息安全類產品(無論是防禦類還是主動發現類)所使用的人工智能技術主要是基於一般機器學習方法的,而且此類機器學習方法還是比較集中在所謂“有師類(即有監督)”學習,而隨著技術的不斷發展和演進,信息安全類產品應及時將新的人工智能技術和手段不斷集中進來,更多地使用“無師類(即無監督)”的學習方法方可應對不斷惡化的信息安全形勢,即更大地提高產品的智能化水平,從而在應對各類問題的時效性和有效性上更進一步。

俗話說:“道高一尺,魔高一丈”,信息安全(無論是互聯網安全、內網安全還是其它方面的安全)永遠是一場“沒有硝煙的戰爭”,攻防兩端的理論、實踐(包括各種技術、手段、方法等)也不斷在發展,可以預見未來的信息安全戰爭就是:“人工智能對抗人工智能、機器學習對抗機器學習,甚至是機器人對抗機器人!。”


信息安全與人工智能