1. 程式人生 > >Ember惡意軟體資料集的使用教程

Ember惡意軟體資料集的使用教程

    2018年4月份,網路安全公司Endgame釋出了一款名為EMBER的大型開源資料集。EMBER是一個包含了100多萬種良性和惡意PE檔案(Windows可執行檔案)集合,這是一種常見的惡意軟體隱藏格式。同時,針對該資料集,該公司同時在github上釋出瞭如何使用該資料集的一個教程貼。在該教程的指引下,我嘗試搭建了該專案的執行環境,併成功執行。但是過程中依然遇到了一些問題,現整理問題如下。

1. 執行 

pip install lief==0.83

報錯:找不到lief解決方案:     更新源,即在終端下執行 pip install —upgrade報錯:time out解決方案:     pip --default-timeout=100 install -U lief==0.83
2. 還是找不到lief     原因:lief還沒有加入到python底層庫中,因此搜尋該庫原始檔,直接安裝     解決方案:     google lief python,出來github連結在終端下執行 pip install https:
//github.com/lief-project/packages/raw/lief-master-latest/pylief-0.8.3.dev.zip
3. 執行 python train_ember.py [/path/to/dataset]找不到pqdm
解決方案:     google pqdm github,     在終端下執行 pip install -e git+https://github.com/tqdm/[email protected]#egg=tqdm注:[/path/to/dataset]是解壓後的資料集所在的資料夾(注意:不是單個檔案)路徑,例如,我將資料集解壓後,重新命名為ember_data,並且放在了與train_ember.py同一層的目錄檔案,那麼我就執行 python train_ember.py ember_data/
(下同)4. 上一步安裝完後,出現如下提示
ember 0.1.0 requires lightgbm==2.1.0, which is not installed.
ember 0.1.0 has requirement numpy==1.14.2, but you'll have numpy 1.13.3 which is incompatible.
ember 0.1.0 has requirement pandas==0.22.0, but you'll have pandas 0.20.3 which is incompatible.
ember 0.1.0 has requirement tqdm==4.21.0, but you'll have tqdm 4.23.2 which is incompatible.
原因:已經安裝的包版本不相容
解決重新安裝,採用pip install -v lightgbm==2.1.0pip install -v numpy==1.14.2pip install -v tqdm==4.21.0Conda install pandas=0.22.0
其中pandas採用conda安裝的原因是pip一直time out,後來發現conda安裝真的是快,建議直接用這個安裝。5. 訓練樣本【源說明見下圖】
報錯:unrecognized arguments分析原因:檔案路徑寫錯解決方案:將解壓後的資料集(重新命名為ember_data)放到train_ember.py同一級目錄下,執行python train_ember.py ember_data/最後結果
6. 執行 classify_binaries.py 檔案【源說明見下圖】
[/path/to/model] 是在上一步訓練過程生成的model.txt檔案,在第五步中我將資料集資料夾放到與train_ember.py同級的地方,同樣的,他們也與classify_binaries.py同級那麼,就執行如下程式碼python classify_binaries.py -m ember_data/model.txt【說明】不知道為什麼,model.txt就是看不到,但是通過搜尋可以搜到。不過這不影響用程式碼去找到它。【執行結果】(有錯誤)
顯示沒有二進位制檔案,問題還是找不到我的model.txt檔案這時候用終端進入ember_dataset目錄下,輸入 ll (英文字母第12個字母)可以重新整理所有的檔案,然後關閉資料夾,重新開啟就有了【再次執行】終端回到scripts目錄下     python classify_binaries.py -m ember_data/model.txt還是不行,先跳過此步7. 繼續執行在scripts目錄下(train_ember.py檔案)開啟終端,進入python3環境下import ember ember.create_vectorized_features("ember_dataset/") ember.create_metadata(“ember_dataset/")【說明】ember_dataset/ 是資料集目錄源教程是 /data/ember/ ,這個路徑不是同級下的,因此執行這類程式碼的時候一定要十分注意。
……繼續執行剩下程式碼,都沒有出現問題……8. 隨便放一個exe檔案到指定目錄,檢測它的安全性

源github連結(資料集 + 教程+ 原始碼)https://github.com/endgameinc/ember

相關推薦

Ember惡意軟體資料的使用教程

    2018年4月份,網路安全公司Endgame釋出了一款名為EMBER的大型開源資料集。EMBER是一個包含了100多萬種良性和惡意PE檔案(Windows可執行檔案)集合,這是一種常見的惡意軟體隱藏格式。同時,針對該資料集,該公司同時在github上釋出瞭如何使用該資

曲速未來 揭露:Fortnite遊戲玩家以惡意軟體竊取資料為目標

前言:   區塊鏈安全諮詢公司 曲速未來 訊息:數日前,有安全公司發現詐騙者正在使用針對Fortnite 遊戲玩家的比特幣(BTC)錢包地址的惡意軟體。安全研究人員調查了該遊戲的線上生態系統後,發現“詐騙者”將惡意資料盜竊程式碼隱藏在下載中。 調查顯示,所謂的“免費v-buck”(

Tensorflow學習教程------利用卷積神經網路對mnist資料進行分類_利用訓練好的模型進行分類

#coding:utf-8 import tensorflow as tf from PIL import Image,ImageFilter from tensorflow.examples.tutorials.mnist import input_data def imageprepare(ar

【FastCube.Net教程】如何將資料庫連線到多維資料

通常,OLAP多維資料集中的資料是從資料庫載入的。要使用資料填充多維資料集,需要建立資料來源,多維資料集可以接收以下資料: Database(資料庫)—建立與資料庫的連線; Stream(流)—可以通過網路作為流接收,從檔案開啟或從資料庫下載的多維資料集; Application code

FastCube.Net元件教程(一):多維資料

在本文中將瞭解FastCube.Net庫中包含的元件,元件列表: Cube——從檔案載入多維資料集並用資料填充它的主要元件; CubeGrid——用於顯示多維資料集的所有資料; CubeGridToolbar——是CubeGrid的工具欄; Slice——包含多維資料切片; Slice

TensorFlow入門教程:8:訓練資料之Iris資料

Irises,聞名於世的不只是梵高那副價值超過5000萬美元的鳶尾花,同時還有Iris資料集。 Iris資料集由英國統計學家/生物學家Ronald Fisher在1936年所收集,共包含150條資料,

TensorFlow入門教程:18:Iris資料的線性迴歸訓練

這篇文章使用實際的統計資料來確認對線性迴歸的曲線擬合的效果,Iris資料集中花瓣的長度和寬度之間的關係滿足明顯的線性關係,這裡我們將使用前文多次使用的方式來對Iris資料進行分析。 Iris資料集 四

Tensorflow入門教程(二十九)人臉表情識別(上)人臉表情資料-fer2013

------韋訪 20181102 1、概述 好久沒更新tensorflow的教程了,這這段時間一直在學習機器學習的基礎,但是如果想去找工作,沒有一點實際的應用可能就沒那麼容易聊了,所以,做一下人臉表情識別的例子,其實我最終的目的是想做一個疲勞檢測的例子,這裡就先練練手,

利用資料在水晶報表中顯示影象的 .NET 程式教程

目錄 描述檔案列表步驟Form1.csVB.NET 版 描述 該 C# .NET Windows 程式演示瞭如何建立資料集,並將影象新增到資料集,以及在執行時將資料集傳遞到子報表。 檔案列表 - bin/Debug/Canada.jpg- bin/Debug/Germany.

目標跟蹤資料VOT2016使用教程

話不多說,過程如下。 1、執行toolkit_path.m 2、開啟workspace資料夾,執行workspace_create.m 在執行的過程中,需要我們選擇資料集以及輸入tr

資料入門教程系列之Hadoop環境搭建、軟體準備

本篇文章主要介紹大資料入門教程環境搭建所需要的軟體、環境配置等,為後面的學習做準備。 完成目標: 1、安裝VMware及新建虛擬機器 安裝VMware及新建虛擬機器 2、VMware中安裝centons7 虛擬機器VMware中安裝linux系統CentOS

TCIA資料下載和NBIA DATA Retriever軟體下載及安裝

TCIA (The Cancer Imaging Archive) TCIA是一個包含常見腫瘤(肺癌、前列腺癌等)醫學影象及相應臨床資訊(治療方案細節、基因、病理等)的大規模公用資料庫,其影像模態包括MRI、CT等,影象格式均為DICOM,並且網站內資料在持續增加。所有資料都是由TCIA整理並管

自創資料,用TensorFlow預測股票教程 !(附程式碼)

來源:機器之心 本文長度為4498字,建議閱讀8分鐘 本文非常適合初學者瞭解如何使用TensorFlow構建基本的神經網路。 STATWORX 團隊近日從 Google Finance API

Pytorch tutorials 實戰教程(1)——訓練自己的資料(程式碼詳解)

最開始入坑的時候使用的是caffe,前一段時間換了使用主流框架的keras(Tensorflow as backward),但是keras確實封裝得太好了,一個高階的API對於我這種程式設計渣渣來說反而上手有些不習慣,在寫了一段時間的程式碼以後開始使用py

深度學習入門教程UFLDL學習實驗筆記二:使用向量化對MNIST資料做稀疏自編碼

今天來做UFLDL的第二個實驗,向量化。我們都知道,在matlab裡面基本上如果使用for迴圈,程式是會慢的一逼的(可以說基本就執行不下去)所以在這呢,我們需要對程式進行向量化的處理,所謂向量化就是將matlab裡面所有的for迴圈用矩陣運算的方法實現,在這裡呢,因為之前的實驗我已經是按照向量化的形式編寫的程

Twitter情緒分析全面教程指導--基於實際資料和程式碼實戰

目錄 原文標題:Comprehensive Hands on Guide to Twitter Sentiment Analysis with dataset and code Introduction 自然語言處理(NLP)是當今資

TensorFlow Object Detection API教程——製作自己的資料

""" Usage: # From tensorflow/models/ # Create train data: python generate_tfrecord.py --csv_input=data/train_labels.csv --output_path=train.record

Tensorflow教程學習筆記(一)----將自己的資料轉換成TFRecord

import tensorflow as tf import numpy as np import os import matplotlib.pyplot as plt import skimage.io as io os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' # %%

TensorFlow官方教程學習筆記之2-用於機器學習初學者學習的MNIST資料(MNIST For ML Beginners)

1.資料集 MNIST是機器視覺入門級的資料集 2.演算法 1)核心 迴歸(Regression)演算法: 2)代價函式 交叉熵(cross-entropy): 3)優化 梯度下降法 3.程式碼 # Copyright 2

神經網路 tensorflow教程 2.2 下載MNIST 資料 (自動版)

文章參考:   https://zhuanlan.zhihu.com/p/25934529 環境: 語言 :python3.5(使用 Anaconda3-4.2.0-Windows-x86_64.exe) 作業系統: windos7 建立python 檔案並執行   自