1. 程式人生 > >大數據、機器學習與信息安全

大數據、機器學習與信息安全

機器學習 信息安全

從機器學習的角度來看,大數據不過是訓練各類參數、概率分布模型的輸入。合適的、經過篩選的、符合事物客觀特征描述的大數據方才是好的數據,故在目前這個所謂“泛大數據時代”,數據確實是最為精貴的資源,但並不是所有數據都是,我們只能去蕪存菁方可認清數據的本質以及事物(包括人類自身)的本質。因此對於數據的處理反而變成了最最重要的問題。

從經典定義來看,機器學習對於特性輸出的提高,其最重要關鍵點不在算法(當然,好的算法也是非常重要的基礎,是成功的必要條件,是減少開銷、盡量少的消耗資源的核心)而是在於是否占有更大、更好的數據,從而訓練出更為出色的模型,其輸出主要是各類參數,至少在“弱人工智能時代”,其價值也是在於這些參數。因為人工智能的定義更為寬泛,它包含一些不多的、不主要依賴於數據學習的方法,AI這個大概念不是我們討論的要點。以神經網絡為例,定理告訴我們對於任何連續函數,可以以任意精度去逼近,先決條件是隱層的神經元越多越好。

對於機器學習而言,最重要目標是對客觀數據進行分類,其它任務已經變得不太重要了。無論我們談到的支持向量機、神經網絡、聚類等等無不是基本圍繞分類這個主題進行的!

以我的觀點來看,信息安全本質是提供可信、可靠的服務和數據(註意,這個定義的修飾詞不僅僅是可信,還有可靠,存在一定區別,因為我們不能忽視DOS/DDOS攻擊,這會造成服務的不可靠而不是不可信,這個觀點與吳瀚清略有所區別)。但目前我們可能還是無法直接運用機器學習的方法來規避DDOS攻擊,因為無論在網絡層還是應用層,抵禦網絡/應用的DDOS攻擊還是傳統方法,即引流/WAF,雖然能從這些數據中學習到攻擊數據的特征,但一旦錯誤地丟棄一個網絡數據包就可能造成用戶的投訴,而且可能你還沒有學習完,攻擊已經結束、服務已經停止,所以我們的著眼點還是在於機器學習在可信這個環節上。


本文出自 “13335387” 博客,謝絕轉載!

大數據、機器學習與信息安全