《web安全之機器學習入門》第5章K近鄰演算法讀書筆記【上】

阿新 • • 發佈：2018-12-25

K近鄰演算法的思路：如果一個樣本在空間上最近的K鄰居大多數都屬於M類，則該樣本屬於M類。在本章中，使用K近鄰演算法識別使用者操作序列中的異常命令。

分析資料集url:http://www.schonlau.net/

資料集說明：

50個使用者的linux操作日誌

以User開頭的檔案為使用者命令，總共有50個使用者，每個檔案記錄了使用者的15000條命令；其中前5000條是正常操作，而後10000條則包含部分異常操作

label.txt是一個100行，50列的檔案，每一列代表一個使用者，而每一行則代表了對於每100條命令的標註（異常命令只會出現在50001~15000共10000行內，100行內只要出現一次異常操作，則認為異常)

方法一：

#對於每100個操作序列，選取以下特徵
#特徵1：不重複命令個數
#特徵2：操作最頻繁的前10個命令，與資料集內操作最頻繁的前50個命令，計算重合度

#特徵3：操作最不頻繁的前10個命令，與資料集內操作最不頻繁的前50個命令，計算重合度

程式碼如下：

#coding:utf-8
import os
import numpy as np
from sklearn.neighbors import KNeighborsClassifier

#對於每100個操作序列，選取以下特徵
#特徵1：不重複命令個數
#特徵2：操作最頻繁的前10個命令，與資料集內操作最頻繁的前50個命令，計算重合度
#特徵3：操作最不頻繁的前10個命令，與資料集內操作最不頻繁的前50個命令，計算重合度

DATAPATH = os.path.normpath(os.path.dirname(os.path.abspath(__file__)) + "/data") 

def parse_data():
    rtn = list()

    for i in range(1, 51):
        FULLPATH = DATAPATH + "/User" + str(i)
        curdic = dict()
        with open(FULLPATH, "r") as f:
            for line in f.readlines():
                line = line.strip()
                if line in curdic.keys():
                    curdic[line] = curdic[line] + 1
                else:
                    curdic[line] = 1
        clist = sorted(curdic.items(), key=lambda x:x[1], reverse=True)
        rtn.append(clist)

    return rtn

def parse_all_data(ls):
    curdic = dict()
    for item in ls:
        for citem in item:
            if citem[0] not in curdic.keys():
                curdic[citem[0]] = 1
            curdic[citem[0]] = curdic[citem[0]] + citem[1]
    rtn = sorted(curdic.items(), key=lambda x:x[1], reverse=True)
    return rtn 

def parse_user_data():
    rtn = list()

    for i in range(1, 51):
        FULLPATH = DATAPATH + "/User" + str(i)
        curlist = list()
        with open(FULLPATH, "r") as f:
            for line in f.readlines():
                curlist.append(line.strip())
            rtn.append(curlist)

    return rtn

def parse_label_data():
    ls = list()
    for i in range(0,50):
        ls.append(list())
    FULLPATH = DATAPATH + "/label.txt"
    with open(FULLPATH, "r") as f:
        for line in f.readlines():
            lines = line.split()
            for i in range(0, 50):
                ls[i].append(int(lines[i]))

    return ls

if __name__ == '__main__':
    data = parse_data()
    all_data = parse_all_data(data)
    top_cmd_50 = [item[0] for item in all_data[0:50]]
    last_cmd_50 = [item[0] for item in all_data[-50:]]

    all_user_data = parse_user_data()
    all_label_data = parse_label_data()

    #使用使用者3的資料進行訓練和測試
    for m in range(0, 50):
        testdata = all_user_data[m]
        train_data = list()
        for i in range(0,15000,100):
            cmds = testdata[i:i+100]
            feature1 = len(set(cmds))
            cmd_dict = dict()
            for cmd in cmds:
                if cmd not in cmd_dict.keys():
                    cmd_dict[cmd] = 1
                else:
                    cmd_dict[cmd] = cmd_dict[cmd] + 1
            cmd_list = sorted(cmd_dict.items(), key=lambda x:x[1], reverse=True)
            top_cmd_10 = [item[0] for item in cmd_list[0:10]]
            last_cmd_10 = [item[0] for item in cmd_list[-10:]]
            feature2 = len(set(top_cmd_10)&set(top_cmd_50))
            feature3 = len(set(last_cmd_10)&set(last_cmd_50))
            train_data.append([feature1, feature2, feature3])

        #標籤
        label_data = [0]*50 + all_label_data[m]

        #使用前120個訓練KNN模型，使用後30個進行驗證
        model = KNeighborsClassifier(n_neighbors = 3)
        model.fit(train_data[0:120], label_data[0:120])
        test_result = model.predict(train_data[-30:])
        print "user:", m+1, "precision:", np.mean(test_result==label_data[-30:])*100
        print "predict", test_result
        print "correct result", label_data[-30:]

執行效果如下：

方法二：

在50個命令檔案中，去出所有命令（不重複）組成詞集。然後對於每100個操作序列，根據它們在詞集向量空間上的分佈情況得到特徵。

程式碼如下：

#coding:utf-8
import os
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score

DATAPATH = os.path.normpath(os.path.dirname(os.path.abspath(__file__)) + "/data")

#得到命令詞集
def parse_word_dict():
    words = set()
    for i in range(1, 51):
        FULLPATH = DATAPATH + "/User" + str(i)
        with open(FULLPATH, "r") as f:
            for line in f.readlines():
                words.add(line.strip())
    return list(words)

def parse_all_data(words):
    ls = list()
    words_len = len(words)
    for i in range(1, 51):
        FULLPATH = DATAPATH + "/User" + str(i)
        cwordict = dict()
        with open(FULLPATH, "r") as f:
            cmds = list()
            for line in f.readlines():
                line = line.strip()
                cmds.append(line)
        
        for j in range(0, 15000, 100):
            start = j
            end = j+100
            #每100個命令組成詞集向量
            clist = [0]*words_len
            for m in range(start,end):
                for n in range(0, words_len):
                    if cmds[m] == words[n]:
                        clist[n] = 1
                        break
            ls.append(clist)

    return ls

def parse_label_data():
    ls = list()
    for i in range(0,50):
        ls.append(list())
    FULLPATH = DATAPATH + "/label.txt"
    with open(FULLPATH, "r") as f:
        for line in f.readlines():
            lines = line.split()
            for i in range(0,50):
                ls[i].append(lines[i])
    rtnls = list()
    for line in ls:
        rtnls.extend([0]*50+line)

    return rtnls

if __name__ == '__main__':
    words = parse_word_dict()
    test_data = parse_all_data(words)
    label_data = parse_label_data()

    neigh = KNeighborsClassifier(n_neighbors = 3)
    #10輪交叉驗證
    scores = cross_val_score(neigh, test_data, label_data, cv=10)
    print scores
    print "precision:",np.mean(scores)*100

10輪交叉驗證的準確度如下：

《web安全之機器學習入門》第5章K近鄰演算法讀書筆記【上】

K近鄰演算法的思路：如果一個樣本在空間上最近的K鄰居大多數都屬於M類，則該樣本屬於M類。在本章中，使用K近鄰演算法識別使用者操作序列中的異常命令。分析資料集url:http://www.schonlau.net/資料集說明：50個使用者的linux操作日誌以User開頭的檔案

《web安全之機器學習入門》第5章K近鄰演算法讀書筆記【下】

Rootkit是一種特殊的惡意軟體，它的功能是在安裝目標上隱藏自身及指定的檔案、程序和網路連線等資訊。待分析資料集：KDD-99資料集，連結：http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html該資料集是從一個模擬的美

web安全之機器學習入門——3.1 KNN/k近鄰算法

數據收集完成整合 ada set acc eat true orm 目錄 sklearn.neighbors.NearestNeighbors 參數/方法基礎用法用於監督學習檢測異常操作(一) 檢測異常操作(二) 檢測rootkit 檢測websh

《機器學習實戰》第二章——k-近鄰演算法——筆記

在看這一章的書之前，在網上跟著博主Jack-Cui的部落格學習過，非常推薦。部落格地址：http://blog.csdn.net/c406495762 《Python3《機器學習實戰》學習筆記（一）：k-近鄰演算法(史詩級乾貨長文)》講述的非常細緻，文字幽默有趣，演算法細

程式碼註釋：機器學習實戰第2章 k-近鄰演算法

寫在開頭的話：在學習《機器學習實戰》的過程中發現書中很多程式碼並沒有註釋，這對新入門的同學是一個挑戰，特此貼出我對程式碼做出的註釋，僅供參考，歡迎指正。 1、匯入資料： #coding:gbk from numpy import * import operator de

《機器學習實戰》第二章——K-近鄰演算法

1.K-近鄰演算法（kNN）1.1K-近鄰演算法概述簡單的說，K-近鄰演算法採用測量不同特徵值之間的距離方法進行分類優點：精度高、對異常值不敏感、無資料輸入假定缺點：計算複雜度高、空間複雜度高適用資料範圍：數值型和標稱型1.2KNN演算法原理存在一個樣本訓練資料集合，並且每

《web安全之機器學習入門》第6章決策樹與隨機森林演算法

決策樹識別pop3埠掃描（原書中識別暴力破解，實際上pop3協議的並沒有guess_passwd型別的資料，所以改為識別port_sweep.）：待分析資料集：KDD-99資料集，連結：http://kdd.ics.uci.edu/databases/kddcup99/kdd

《web安全之機器學習入門》第7章樸素貝葉斯模型檢測webshell

N-gram演算法，認為第N個詞只與前面的第N-1個詞相關。例如對於一個句子，I love my country.那麼2-gram得到的詞集為：["I love","love my","my country"]程式碼如下：檢測webshell的第一種方式的思路為，將php w

web安全之機器學習入門——1.環境搭建

onf log adding 隨機數生成自然語言圖像 2.6 大量 cond 前置知識算法和數據的辯證關系：算法和數據是機器學習解決實際問題不可或缺的兩大因素。早期機器學習十分依賴特征提取，隨著發展，人們發現通過增加訓練數據量，讓機器從大量基礎特征中可以自動關聯出潛

機器學習-k-近鄰演算法python實踐【4】

寫在最前面：簡單來說，k-近鄰演算法是用來根據不同的特徵進行分類的一種演算法優點：精度高、對異常值不敏感、無資料輸入假定缺點：計算複雜度高、空間複雜度高適用資料範圍：數值型和標稱型 IDE:Pycharm python版本：3.6 作業系統：macOS Mojave k

機器學習-7（實戰演練k-近鄰演算法）

首先，這裡不討論你如何獲取資料，我們假設這些都已存在我們的庫裡面了，並已經建立好了正確的分類了。這裡我直接截圖我的實驗庫吧：現在我們的任務就是隨便輸入一個經緯度，來看看它屬於哪一個國家先來把我們的讀取任務搞定吧 OK，初步清洗完成，把標籤國家拿出來了，經緯度拿出

機器學習實戰（一）k-近鄰演算法kNN（k-Nearest Neighbor）

目錄 0. 前言簡單案例學習完機器學習實戰的k-近鄰演算法，簡單的做個筆記。文中部分描述屬於個人消化後的理解，僅供參考。如果這篇文章對你有一點小小的幫助，請給個關注喔~我會非常開心的~ 0. 前言 k-近鄰演算法kNN（k-Neare

機器學習實戰（2）—— k-近鄰演算法

老闆：來了，老弟！我：來了來了。老闆：今天你要去看看KNN了，然後我給你安排一個工作！我：好嘞！就是第二章嗎？老闆：對！去吧！可惡的老闆又給我安排任務了！《機器學習實戰》這本書中的第二章為我們介紹了K-近鄰演算法，這是本書中第一個機器學習演算法，它非常有效而且易於

機器學習實戰（一）--k近鄰演算法

機器學習實戰（一）–k近鄰演算法最近在學習機器學習，順便做個記錄，一方面給自己加深印象，另一方面與大家共勉，希望能給大家一些幫助，我也是剛入門的新手，有不對的地方還請多多指教。我用的Python3.5，有些程式碼與書上不太一樣。程式清單2-1 k-近

Python3《機器學習實戰》01：k-近鄰演算法（完整程式碼及註釋）

執行平臺： Windows Python版本： Python3 IDE： Anaconda3 # -*- coding: utf-8 -*- """ Created on Sun Apr 29 20:32:03 2018 @author: Wang

《機器學習實戰》——kNN（k近鄰演算法）

原作者寫的太好了，包括排版都特別整齊(其中有一個錯誤之處就是在約會網站配對效果判定的時候，列表順序不對，導致結果有誤，這裡我已做出修改）執行平臺： Windows Python版本： Python3.x IDE： Sublime text3一簡單k-近鄰演算法本文將

web安全之SQL註入

password 嚴格 add code 數據檢查 star 代碼輸入數據一、如何理解SQL註入？ SQL註入是一種將SQL代碼添加到輸入參數中傳遞到SQL服務器解析並執行的一種×××手法二、SQL註入是怎麽產生的？ WEB開發人員無法保證所有的輸入都已經過

機器學習實戰—第5章：Logistic迴歸中程式清單5-1中的數學推導

如圖中梯度上升法給出的函式程式碼。假設函式為： 1、梯度上升演算法（引數極大似然估計值）：通過檢視《統計學習方法》中的模型引數估計，分類結果為類別0和類別1的概率分別為：則似然函式為：對數似然函式為：最大似然估計求使得對數似然函式取最大值時的引數

常用牛人主頁鏈接（計算機視覺、模式識別、機器學習相關方向,陸續更新。。。。）【轉】

short psu works charles 貝葉斯 learning 數學 ocr 相關轉自：http://blog.csdn.net/goodshot/article/details/53214935 目錄(?)[-] The Kalman

機器學習(四) 分類算法--K近鄰算法 KNN

class 給定 sort sta shape counter 3.5 解釋 sqrt 一、K近鄰算法基礎 KNN------- K近鄰算法--------K-Nearest Neighbors 思想極度簡單應用數學知識少（近乎為零）效果好（缺點？）可以解

《web安全之機器學習入門》第5章K近鄰演算法讀書筆記【上】

相關推薦