安全資料集和開源工具

阿新 • • 發佈：2019-01-22

由於本人從事安全相關的行業的工作，接觸到很多想用機器學習解決網路安全相關的問題，不可避免的需要用到很多安全相關的開源資料集和工具，這裡記錄一下本人自己用過並感覺不錯的資料集和開源工具。當然，這可能只是安全領域資料集和開源工具極小的一部分，希望能起到拋磚引玉的目的吧，本人後續也會不斷更新。

1. 安全資料集

對於安全資料集，已經有行業從業者不辭辛勞的總結的很完善了，這裡給出兩個我看到的彙總網址：

其中，對於“安全聯盟的曝光臺”，安全聯盟是由知道創宇、騰訊等網際網路企業於2012年發起的第三方公益組織，自成立以來，通過與12321舉報中心、騰訊、搜狗、金山等上百家機構、企業合作，通過發動群眾參與網路治理，安全聯盟已建成國內最大的第三方網路安全資料共享交換平臺，日平均共享資料4500萬次，每日接收網民舉報超5000條，截止目前已擁有超過8.9億條惡意網址、電話資料。這些惡意資料被應用到搜尋引擎、瀏覽器、IM、社交平臺、路由器OS等網際網路終端，每天為網民提供超過30億次惡意風險提醒，極大程度地幫助網民遠離網路詐騙。

這裡麵包羅永珍，我第一次看到感覺如獲至寶，感覺發現了一座金礦，緊接著又有點傻眼，這個金礦應該怎麼挖？我的答案是當然是站在前人的肩膀上，多利用前輩們的智慧啦。個人建議買一本《Web安全之機器學習入門》並下載隨書程式碼，這本書裡面列舉了用機器學習方法解決典型的各種網路安全問題，上面列舉的很多資料集都可以用在這裡面，能幫你迅速上手並判斷是否有深入使用和研究的價值。當然更棒的是，這本書裡也列舉了一些網路安全領域的公開資料集，與上面彙總帖裡的資料集互為補充，能為你在開始一個網路安全領域的機器學習專案提供快速的建模手段。

說完彙總，我也列一下我在機器學習專案裡使用過資料集：

2. 威脅情報

當前安全領域高階持續威脅APT日益氾濫，威脅情報作為應對APT的重要手段也被越來越多的的安全廠商所重視，本人在github上發現了一個比較好的威脅情報資料彙總，網址是：

https://github.com/hslatman/awesome-threat-intelligence

3. 開源掃描器集合

4. 開源軟體集合

Stratosphere Linux IPS (slips) a behavioral-based intrusion detection and prevention system that uses machine learning algorithms to detect malicious behaviors.Learn2banOpen source machine learning DDOS detection toolmalware-detection

Experiments in malware detection and classification using machine learning techniques.Use of machine learning for anomaly detection in netflow dataBotnet Detection using Machine LearningFraud_DetectorFraud Detection using ensemble of Statistical, Network analysis and Machine learning approach.Intrusion Detection With Machine LearningAdaptive Machine Learning for Credit Card Fraud Detectiontime series data analysisopen source and threat intelligenceApache Spot：一個全新的網路安全開源專案Apache Spot 是一個基於網路流量和資料包分析，通過獨特的機器學習方法，發現潛在安全威脅和未知網路攻擊能力的開源方案。目前 Apache Spot 已支援對 Netflow、sflow、DNS、Proxy 的網路流量分析，主要依靠 HDFS、Hive 提供儲存能力，Spark 提供計算能力，基於 LDA 演算法提供無監督式機器學習能力，最終依賴 Jupyter 提供圖形化互動能力。

AIEngine (Artificial Intelligent Engine)

AIEngine is a packet inspection engine with capabilities of learning without any human intervention. AIEngine helps network/security professionals to identify traffic and develop signatures for use them on NIDS, Firewalls, Malware analysis, Traffic classifiers and so on.

網址：https://bitbucket.org/camp0/aiengine/

Passive DNS

PassiveDNS對安全研究非常重要，因為它可以得到以下三方面的答案：該域名曾經繫結過哪些IP、這個IP有沒有其他的域名、該域名最早/最晚什麼時候出現。Passive DNS同時也在SOC的時候起到很大的幫助。通過識別的惡意域名，可以找到其他被惡意破壞的機器。目前有很多網站允許我們訪問它的PassiveDNS系統，例如：Virustotal(https://www.virustotal.com/)、passivetotal(https://www.passivetotal.com)、CIRCL (https://www.circl.lu/services/passive-dns/)。有很多這樣的網站，但是，自己在本地有一個當然會更方便。

更詳細的介紹：http://www.freebuf.com/articles/network/103815.html,以及https://www.farsightsecurity.com/solutions/dnsdb/

更多的開源工具： PassiveDNS::Client, https://github.com/chrislee35/passivedns-client

Vulhub

Vulhub是一個面向大眾的開源漏洞靶場，無需docker知識，簡單執行兩條命令即可編譯、執行一個完整的漏洞靶場映象。

開原始碼：https://github.com/Cherishao/vulhub

安全資料集和開源工具

1. 安全資料集

2. 威脅情報

3. 開源掃描器集合

4. 開源軟體集合

安全資料集和開源工具

機器視覺中常用開源資料集和免費標註工具

基於faster-rcnn的圖片標註和資料集生成自動化工具（資料集格式同pascal voc）

神經網路中訓練資料集、驗證資料集和測試資料集的區別

Citco推出CitcoConnect：一種針對安全資料共享和數字投資的全新獨立解決方案

11.何時需要改變資料集和衡量指標翻譯自吳恩達新書-Machine Learning Yearning

Power BI 資料集和資料重新整理

大資料平臺常見開源工具集錦(強烈推薦收藏)

法國INRIA Data Sets & Images 資料集和影象庫

計算機視覺（影象分類、檢測、分割）資料集和比賽

計算機視覺相關資料集和比賽

C# + ArcEngine讀取檔案地理資料庫fileGDB中的資料集和要素類生成目錄樹

深度學習對話系統理論--資料集和評價指標介紹

Twitter情緒分析全面教程指導--基於實際資料集和程式碼實戰

近日有需要寫點C#程式，有用到Dataset資料集和SQLite資料庫，由於我從來就不擅長記各種程式語言的語法，所以在查閱一堆資料後，留下以下內容備忘：一、SQLite操作，直接貼程式碼，很簡單

刪除sas work邏輯庫中的資料集和巨集

深度學習對話系統理論篇--資料集和評價指標介紹

faster rcnn中VOC資料集的標註工具labelImg的使用

CUHK資料集和Market-1501資料集計算CMC方法的差別

UCI資料集和原始碼

安全資料集和開源工具

1. 安全資料集

2. 威脅情報

3. 開源掃描器集合

4. 開源軟體集合

相關推薦