1. 程式人生 > >論文:基於數據挖掘的網絡入侵檢測關鍵技術研究-郭春

論文:基於數據挖掘的網絡入侵檢測關鍵技術研究-郭春

行數 base 進行 href 向量 設計 分類算法 lse 檢測方法

目錄

  • 1、文章主要工作:
    • 1.1 設計了一種適用於入侵檢測的特征提取方法。(降維)DSFE:Distance-sum based feature extraction method;
    • 1.2 設計了一種能夠適用於入侵檢測的樣本約簡方法。(樣本約簡,即縮減數據集中的樣本數量)
    • 1.3 設計了一種離群點挖掘的異常檢測方法。(能夠發現數據集中偏離大部分數據的離群值)
    • 1.4 設計了一種包含三個檢測模塊的兩層混合入侵檢測模型。

1、文章主要工作:

1.1 設計了一種適用於入侵檢測的特征提取方法。(降維)DSFE:Distance-sum based feature extraction method;

提出了一種基於簇中心距離和的特征提取方法:利用數據集中各數據樣本與簇中心的距離和關系,將原始特征向量從高維空間轉換到低維空間。

實驗數據集:KDD CUP 99
預處理
(1)第一步:將字符型特征映射為數值型特征。
(2)第二步:對這些數值型特征進行數值規範化。

評價指標:
(1)檢測率:TP/(TP+FN)
是指測試集中攻擊樣本被正確識別為攻擊的比例,是一個反映IDS攻擊識別能力大小的重要指標;
(2)真陰性率:TN/(FP+TN)
指測試集中正常樣本被正確識別為正常的比例,是一個反映IDS對正常樣本識別準確性的指標;
(3)精確率:TP/(TP+FP)
指測試集中所有被IDS識別為攻擊樣本中,真正為攻擊樣本的比值;
(4)F-score:

綜合評價IDS檢測率和準確率的一個指標;
(5)分類正確率:(TN+TP)/(TN+TP+FN+FP)
指測試集中被正確分類的樣本個數與測試集樣本總數的比值,是一個反映IDS對正常樣本和攻擊樣本區分能力大小的總體評價指標,能夠在一定程度上體現IDS的總體識別能力;
(6)漏報率:FN/(TP+FN)
指測試集中被誤識別為正常的攻擊樣本個數與測試集中攻擊樣本總數的比值,是一個能反映IDS攻擊識別能力的大小的指標;
(7)誤報率:FP/(FP+TN),也稱為誤警率;
指測試集中被誤識別為攻擊的正常樣本個數與測試集中正常樣本總數的比值,是一個反映IDS對正常樣本識別能力大小的指標。

混淆矩陣:
TP(true positive),表示正確識別異常數據;
TN(true negative),表示正確識別正常數據,
FP(false positive),表示正常樣本錯被識別為異常;
FN(false negative),表示異常樣本錯被識別為正常;

分類算法:DSFE結合SVM——本文還指定了各個算法參數、內核以及解決的問題;

曲線:本節給出了檢測模型對測試集進行檢測的ROC曲線和AUC值。
ROC曲線:顯示了當檢測率變化時誤報率的變化情況;
AUC值:與1越接近,說明檢測模型的檢測效果越好。

DSFE的框架為:

(1)階段一:一個人任意的n維數據集D首先被劃分為一個訓練集$D_{R}$和一個測試集$D_{E}$。將$D_{R}$中的數據樣本聚合為k個不相連的簇並提取各簇的簇中心,從而在該階段將得到k個簇中心$c_{1},c_{2},...,c_{k}$。
(2)階段二:利用$D_{R}$和$c_{1},c_{2},...,c_{k}$生成一個k維數據集$D_{R}^‘$。$D_{R}^‘$中每個數據樣本均由k個以距離和表征的新特征構成。
生成新的數據集的方法是:每一個新樣本$x_{i}^‘$的特征向量中的每一個特征的特征值為$x_{i}$與簇中心$c_{1},c_{2},...,c_{k}$中k-1個簇中心的距離之和。本文采用歐幾裏得距離。
(3)分類時,可先利用$D_{R}$構建一個分類模型,然後在用k個簇中心$c_{1},c_{2},...,c_{k}$將$D_{E}$轉換為新數據集$D_{E}^‘$,再由分類模型對$D_{E}^‘$進行分類得到分類結果;

1.2 設計了一種能夠適用於入侵檢測的樣本約簡方法。(樣本約簡,即縮減數據集中的樣本數量)

提出了一種基於類中心的分層樣本約簡方法:等分劃分策略?選出樣本子集,通過子集建立入侵檢測模型。

1.3 設計了一種離群點挖掘的異常檢測方法。(能夠發現數據集中偏離大部分數據的離群值)

提出了一種基於簇中心位置變化的異常檢測方法:聚類算法

1.4 設計了一種包含三個檢測模塊的兩層混合入侵檢測模型。

結合誤用檢測和異常檢測兩種檢測方法;
提出了包含兩個異常檢測模塊和一個誤用檢測模塊的兩層混合入侵檢測模型。

論文:基於數據挖掘的網絡入侵檢測關鍵技術研究-郭春