爬蟲練習--爬取CNNVD相關漏洞

阿新 • • 發佈：2018-11-22

目標

從國家資訊保安漏洞庫（CNNVD）中爬取目標軟體的相關漏洞，統計漏洞型別、危害等級、相關數量等，並進行視覺化。

具體流程

構造URL，根據關鍵詞（如glibc）爬取相關軟體的漏洞資訊，統計其數量和網頁數
構造URL，一個一個網頁的爬取，找到每個具體漏洞的連結，儲存這些連結
根據每個具體漏洞的連結，爬取相關頁面，用正則表示式和BeautifulSoup找到我們需要的連結。

程式碼實現

爬取網頁並儲存到EXCEL檔案中

# -*- coding:utf-8 -*-
import requests
from  bs4 import 
 BeautifulSoup
import traceback
import re
import xlwt
list=['glibc','Microsoft Office Word','Microsoft Internet Explorer']#想要查詢的相關漏洞
num=[] # 存放每個實體對應的漏洞數目
page=[]# 存放每個實體對應的漏洞的頁數
# 根據url爬取網頁
def getHTMLTEXT(url,code="utf-8"):
    kv = {'user-agent': 'Mozilla/5.0'}  # 模擬瀏覽器訪問網站
    try:
        r=requests.get(url,headers=kv,timeout=30 
)
        r.raise_for_status()
        r.encoding=code
        return r.text
    except:
        traceback.print_exc()
        return ""
# 初始網頁
def parsepage(name,url):
    type={}# 存放每個實體中的漏洞型別
    html=getHTMLTEXT(url)
    soup=BeautifulSoup(html,'html.parser')
    #每個型別的數量
    #text=soup.find_all('a',text=re.compile('總條數：')) 

    #num.append(re.findall(r'[0-9,]+',text.__str__()[:][:]))
    #統計當前實體搜尋結果共有多少頁
    value = soup.find_all('input',id="pagecount")
    page.append(re.findall(r'[0-9]+',value.__str__()))
#爬取對應漏洞下所有的網頁
def all_page(name,url,n):
    type=[] #漏洞型別
    level=[] #漏洞危害等級
    name_info=[]#每個漏洞的名稱
    link=[] #每個漏洞的連結
    #迴圈遍歷每個網頁
    for p in range(1,int(n)+1):
        html=getHTMLTEXT(url+str(p))
        soup = BeautifulSoup(html, 'html.parser')
        # 統計每個實體中具體漏洞的連結
        text = soup.find_all('a',attrs={'class':'a_title2'})
        for i in text:
            try:
                href = i.attrs['href']
                if(re.findall(r'.?CNNVD.?',href)):
                    link.append(href)
            except:
                continue
    #對於每一個連結，去爬取連結的頁面
    for i in link:
        html=getHTMLTEXT('http://www.cnnvd.org.cn'+i)
        soup = BeautifulSoup(html, 'html.parser')
        title=soup.find_all('h2',style="")
        for m in title[0]:
            title=m #每個漏洞的具體名稱
        #尋找型別和等級
        text=soup.find_all('a',style="color:#4095cc;cursor:pointer;",href="")
        S=[]
        if len(text):
            for t in text[:2]:
                t=re.findall(r'[\u4E00-\u9FA5]+',str(t)) #匹配漢字
                try:
                    S.append(t[0])
                except:
                    S.append('未評定')
            type.append(S[0])
            level.append(S[1])
            name_info.append(title)
    #將列表資訊寫入EXCEL中
    f = xlwt.Workbook()  # 建立EXCEL工作簿
    sheet1 = f.add_sheet(u'sheet1', cell_overwrite_ok=True)  # 建立sheet
    sheet1.write(0, 0, "漏洞名稱")
    sheet1.write(0, 1, "型別")
    sheet1.write(0, 2, "危害等級")
    for i in range(len(name_info)):
        sheet1.write(i + 1, 0, name_info[i])
        sheet1.write(i + 1, 1, type[i])
        sheet1.write(i + 1, 2, level[i])
    f.save(name+"_result.xls")  #儲存檔案
if __name__=="__main__":
    url='http://www.cnnvd.org.cn/web/vulnerability/queryLds.tag?qcvCname='
    for i in list:
        parsepage(i,url+i)
    for i in range(len(list)):
        turl=url+list[i]+'&pageno='
        all_page(list[i],turl,page[i][0])
    #建立工作簿
    f=xlwt.Workbook()#建立EXCEL工作簿
    sheet1 = f.add_sheet(u'sheet1', cell_overwrite_ok=True)  # 建立sheet
    for i in range(len(num)):
        sheet1.write(i,0,list[i])
        sheet1.write(i,1,num[i])
    f.save("實體總量.xls")

生成的檔案如下所示
這裡寫圖片描述
2. 統計資料

import xlrd
import xlwt
import traceback
def open_excel(path,name):
    type={}
    level={}
    try:
        data=xlrd.open_workbook(path)
        table=data.sheet_by_name(sheet_name=u'sheet1')
        t=table.col_values(1)[1:]
        l=table.col_values(2)[1:]
        #去掉重複值
        t1=set(t)
        l1=set(l)
        #初始化字典
        for i in t1:
            type[i]=0
        for i in l1:
            level[i]=0
        #統計數量
        for i in t:
            type[i]=type[i]+1
        for i in l:
            level[i]=level[i]+1
        f = xlwt.Workbook()  # 建立EXCEL工作簿
        tkeys=list(type.keys())
        sheet1 = f.add_sheet(u'sheet1', cell_overwrite_ok=True)  # 建立sheet
        for i in range(len(tkeys)):
            sheet1.write(i, 0,tkeys[i])
            sheet1.write(i, 1,type[tkeys[i]])
        sheet2=f.add_sheet(u'sheet2',cell_overwrite_ok=True)
        lkeys=list(level.keys())
        for i in range(len(lkeys)):
            sheet2.write(i,0,lkeys[i])
            sheet2.write(i,1,level[lkeys[i]])
        f.save(name+'_sum_up.xls')
    except :
        traceback.print_exc()
        print('Error!')
if __name__=="__main__":
    path=['glibc_result.xls',
        'Microsoft Internet Explorer_result.xls',
         'Microsoft Office Word_result.xls']
    name=['glibc','Microsoft Internet Explorer','Microsoft Office Word']
    for i in range(len(path)):
        open_excel(path[i],name[i])

統計後的資料如下所示
這裡寫圖片描述

結果視覺化

用EXCEL將資料繪圖，實現視覺化，下面給出一例。
這裡寫圖片描述

爬蟲練習--爬取CNNVD相關漏洞

目標從國家資訊保安漏洞庫（CNNVD）中爬取目標軟體的相關漏洞，統計漏洞型別、危害等級、相關數量等，並進行視覺化。具體流程構造URL，根據關鍵詞（如glibc）爬取相關軟體的漏洞資訊，統計其數量和網頁數構造URL，一個一個網頁的爬取，找到每個具體漏洞的連

爬蟲練習-爬取小說

nbsp wait none tor lpar text int pre www # 程序啟動文件 start.py#!/usr/bin/python # -*- coding: utf-8 -*- import os, sys BASEPATH = os.pat

爬蟲練習--爬取股票資料

爬取股票資料步驟從東方財富網找到上市公司的股票程式碼並儲存根據股票程式碼去百度股市通去查詢相關股票的具體資訊並儲存程式碼 #-*- coding:utf-8 -*- import requests from bs4 import Beauti

網路爬蟲定時爬取的相關方法

關於python的定時爬取相關方法：雖然time模組的time.sleep()方法使程式休眠來達到定時任務的目的，這樣也可以，但是總覺得不是那麼的專業，所以就使用如下python的定時任務模組APScheduler：首先安裝相關pip：pip install apscheduler

爬蟲練習 | 爬取貓眼電影Top100

#coding=utf-8 _date_ = '2018/12/9 16:18' import requests import re import json import time def get_one_page(url): headers={ 'User-Agent':'Mozil

Python爬蟲練習——爬取騰訊新聞

在解析後的文字中，使用select選擇器，在文字中選擇指定的元素，通常我們還會使用find()和findall()方法來進行元素選擇。這一步返回的為一個列表，列表內的元素為匹配的元素的HTML原始碼。

初學python3-爬取cnnvd漏洞信息

zip 技術 [0 string linux; sdc 開始時間還需要 2.x 　　因為工作需要cnnvd漏洞信息，以前用著集客搜、八爪魚之類的工具，但對其效果和速度都不滿意。最近開始接觸學習爬蟲，作為初學者，還需要慢慢完善。先記錄下第一個爬蟲。還想著在多進程和IP代理方

python 學習 - 爬蟲入門練習爬取鏈家網二手房資訊

import requests from bs4 import BeautifulSoup import sqlite3 conn = sqlite3.connect("test.db") c = conn.cursor() for num in range(1,101): url = "h

python爬蟲：爬取網站視頻

爬蟲 python python爬取百思不得姐網站視頻：http://www.budejie.com/video/新建一個py文件，代碼如下：#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re,requests import sys

第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號

文章 odin data 模塊 webapi 頭信息 hone 微信 android 第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號封裝模塊 #!/usr/bin/env python # -*- coding: utf-8 -*- impo

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

團隊-張文然-需求分析-python爬蟲分類爬取豆瓣電影信息

工具新的翻頁需求使用 html 頁面應該一個首先要明白爬網頁實際上就是：找到包含我們需要的信息的網址（URL）列表通過 HTTP 協議把頁面下載回來從頁面的 HTML 中解析出需要的信息找到更多這個的 URL，回到 2 繼續其次還要明白：一個好的列表應該：包含

爬蟲，爬取句子迷《龍族》

chrom ide win true res spa rom request file 踩了很多坑，主要是python2編碼的問題和正則不熟直接上腳本 # -*- coding: gbk -*- import re import urllib2 import time

練習--爬取xici可用代理IP

colspan lsp com pan python print app agent flag 通過爬蟲實現xici可以使用的代理IP 端口主要代碼： #!/usr/bin/env python #coding:utf8 import telnetlib from u

練習-爬取某圖片及查詢IP地址

AI for AR 信息 enc 查詢 ext text 建立爬取某圖片的程序： #圖片爬取全代碼 import requests import os url=‘http://img0.dili360.com/rw9/ga/M01/4A/3D/wKgBy1p6qJ6AL

最最簡單的python爬蟲教程--爬取百度百科案例

python爬蟲；人工智能from bs4 import BeautifulSoupfrom urllib.request import urlopenimport reimport randombase_url = "https://baike.baidu.com"#導入相關的包 his

【Python3 爬蟲】爬取博客園首頁所有文章

表達式技術標記 itl 1.0 headers wow64 ignore windows 首先，我們確定博客園首頁地址為：https://www.cnblogs.com/ 我們打開可以看到有各種各樣的文章在首頁，如下圖：我們以上圖標記的文章為例子吧！打開網頁源碼，搜

Python爬蟲入門 | 爬取豆瓣電影信息

Python 編程語言 web開發這是一個適用於小白的Python爬蟲免費教學課程，只有7節，讓零基礎的你初步了解爬蟲，跟著課程內容能自己爬取資源。看著文章，打開電腦動手實踐，平均45分鐘就能學完一節，如果你願意，今天內你就可以邁入爬蟲的大門啦~好啦，正式開始我們的第二節課《爬取豆瓣電影信息》吧！啦啦哩啦啦，

網絡爬蟲（爬取網站圖片，自動保存本地）

accep RoCE itl mage pytho range @class == title 事先申明一點，這個人品沒有什麽問題，只是朋友發一段python源碼，再這裏分享大家。 1 import requests 2 from lxml import html

Python 爬蟲 ajax爬取馬雲爸爸微博內容

item ber ODB ont 分享 cache cti book 生成 ajax爬取情況有時候我們在用 Requests 抓取頁面的時候，得到的結果可能和在瀏覽器中看到的是不一樣的，在瀏覽器中可以看到正常顯示的頁面數據，但是使用 Requests 得到的結果並沒有，

爬蟲練習--爬取CNNVD相關漏洞

目標

具體流程

程式碼實現

結果視覺化

相關推薦