效能比較：lxml庫,正則表示式，BeautifulSoup ，用資料證明lxml解析器速度快

阿新 • • 發佈：2018-12-18

Beautiful Soup支援的解析器

解析器	使用方法	優勢	劣勢
Python標準庫	`BeautifulSoup(markup, "html.parser")`	Python的內建標準庫、執行速度適中、文件容錯能力強	Python 2.7.3及Python 3.2.2之前的版本文件容錯能力差
lxml HTML解析器	`BeautifulSoup(markup, "lxml")`	速度快、文件容錯能力強	需要安裝C語言庫
lxml XML解析器	`BeautifulSoup(markup, "xml")`	速度快、唯一支援XML的解析器	需要安裝C語言庫
html5lib	`BeautifulSoup(markup, "html5lib")`	最好的容錯性、以瀏覽器的方式解析文件、生成HTML5格式的文件	速度慢、不依賴外部擴充套件

通過以上對比可以看出，lxml解析器有解析HTML和XML的功能，而且速度快，容錯能力強，所以推薦使用它。

為何很多python爬蟲工程師都這樣說呢，下面我用例項來證明

例項：通過爬去糗事百科文字內容中的資訊來比較各解析器的效能，爬取的資訊有：使用者ID，發表的段子文字資訊，好笑數量和評論數量。如圖：

程式碼：

import re
from bs4 import BeautifulSoup
from lxml import etree
import lxml
import time
import requests

headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
                      'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36'
}
def get_lxml(url):
    datas = []
    res = requests.get(url,headers = headers)
    html = etree.HTML(res.text)
    infos = html.xpath('//div[@id="content-left"]/div')
    for info in infos:
        ids = info.xpath('div[1]/a[2]/h2/text()')
        texts_x = info.xpath('a[1]/div[1]/span[1]/text()')
        num_laughs = info.xpath('div[2]/span[1]/i[1]/text()')
        num_comments = info.xpath('// */ i/text()')
        for id,text_x,num_luagh,num_comment in zip(ids,texts_x,num_laughs,num_comments):
            data = {
                'id':id.strip(),
                'text':text_x.strip(),
                'num_luagh':num_luagh,
                'num_comment':num_comment
            }
            datas.append(data)
    #print(datas)



def get_re(url):
    datas=[]
    res = requests.get(url)
    ids = re.findall('<h2>(.*?)</h2>',res.text,re.S)
    texts_x = re.findall('<div class="content">.*?<span>(.*?)</span>',res.text,re.S)
    num_laughs = re.findall('<span class="stats-vote"><i class="number">(.*?)</i> 好笑</span>',res.text,re.S)
    num_comments = re.findall('<i class="number">(\d+)</i> 評論',res.text,re.S)
    for id,text_x,num_luagh,num_comment in zip(ids,texts_x,num_laughs,num_comments):
        data = {
            'id':id.strip(),
            'text':text_x.strip(),
            'num_luagh':num_luagh.strip(),
            'num_comment':num_comment.strip()
        }
        datas.append(data)
    #print(datas)

def get_BeautifulSoup(url):
    datas = []
    res = requests.get(url)
    soup = BeautifulSoup(res.text,'lxml')
    ids = soup.select('div.author.clearfix > a > h2')
    #print(ids)
    texts_x = soup.select('a.contentHerf > div > span')
    #print(texts_x)
    num_laughs = soup.select('div.stats > span.stats-vote > i')
    #print(num_laughs)
    num_comments = soup.select('i')
    #print(num_comments)
    for id,text_x,num_luagh,num_comment in zip(ids,texts_x,num_laughs,num_comments):
        data = {
            'id':id.get_text().strip(),
            'text':text_x.get_text().strip(),
            'num_luagh':num_luagh.get_text().strip(),
            'num_comment':num_comment.get_text().strip()
        }
        datas.append(data)
    #print(datas)


if __name__=='__main__':
    urls = ['https://www.qiushibaike.com/text/page/{}/'.format(str(i)) for i in range(1,14)]
    for name,function in [('lxml',get_lxml),('re',get_re),('BeautifulSoup',get_BeautifulSoup)]:
        start = time.time()
        for url in urls:
            function(url)
            time.sleep(0.2)
        end = time.time()
        print(name,end-start)

執行結果：

資料證明，lxml效能遠遠大於正則表示式和BeautifulSoup。

謝謝您的閱讀！

效能比較：lxml庫,正則表示式，BeautifulSoup ，用資料證明lxml解析器速度快

Beautiful Soup支援的解析器解析器使用方法優勢劣勢 Python標準庫 BeautifulSoup(markup, "html.parse

Re 庫——正則表示式庫

regular expression, regex, RE 正則表示式是用來簡潔表達一組字串的表示式正則表示式的常用操作符操作符說明例項 . 表示任何單個字元

week4：函式之正則表示式

一、正則表示式 string提供的方法是完全匹配引入正則表示式是模糊匹配，內嵌在python中，通過呼叫Re模組來實現二、字元匹配（普通字元，元字元）：普通字元：大多數字符和字母都會和自身匹配 re.findall('alex','yuanalesalexduye') ##

leetcode題庫——正則表示式匹配

題目描述：給定一個字串 (s) 和一個字元模式 (p)。實現支援 '.' 和 '*' 的正則表示式匹配。 '.' 匹配任意單個字元。 '*' 匹配零個或多個前面的元素。匹配應該覆蓋整個字串 (s) ，而不是部分字串。

SQL Server 效能優化實戰系列(一) SQL Server擴充套件函式的基本概念使用SQL Server 擴充套件函式進行效能優化 SQL Server Url正則表示式記憶體常駐完美解決方案

資料庫伺服器主要用於儲存、查詢、檢索企業內部的資訊，因此需要搭配專用的資料庫系統，對伺服器的相容性、可靠性和穩定性等方面都有很高的要求。下面是進行籠統的技術點說明，為的是讓大家有一個整體的概念，如果想深入可以逐個擊破；&n

jmeter教程（八）：關聯及正則表示式提取器

所謂關聯，就在從前面請求的響應中提取資料，給後面的請求使用。而提取資料，則需要用到後置處理器裡的正則表示式提取器。為了演示，我簡單寫了一個java請求，模擬介面的響應資料響應的資料為一個json，這是模擬介面查詢會員列表的資料。time是查詢資料花費的時間，count是查詢出了多少條資料

Python正則表示式：如何使用正則表示式

正則表示式（簡稱RE）本質上可以看作一個小的、高度專業化的程式語言，在Python中可以通過re模組使用它。使用正則表示式，你需要為想要匹配的字串集合指定一套規則，字串集合可以包含英文句子、e-mail地址、TeX命令或者其它任何你希望的字串。然後您能提這樣的問題：“這個字

非貪婪匹配：如何使用正則表示式碰到到第一個匹配到的字串就停止

? 當該字元緊跟在任何一個其他限制符（*,+,?，{n}，{n,}，{n,m}）後面時，匹配模式是非貪婪的。非貪婪模式儘可能少的匹配所搜尋的字串，而預設的貪婪模式則儘可能多的匹配所搜尋的字串。例如，對於字串“oooo”，“o+”將盡可能多的匹配“o”，得到結果[

專案經驗：js 結合正則表示式判斷是否為電話號碼或者手機號碼

function Phone(obj){ var regBox = { regEmail : /^([a-z0 -9_\. -]+)@([\da -z\. -]+)\.([a -z\.]{2,6})$/, //郵箱

python爬蟲系列（1）：使用python3和正則表示式獲取貓眼電影排行榜資料

簡述這次打算寫一個爬蟲系列，一邊也想好好總結鞏固學習的知識，一邊做總結筆記，方便以後回憶。這次我們使用Python3和正則表示式來爬取一個簡單html頁面資訊，就從貓眼電影的排行榜單開始吧。如果讀到這篇文章的是位大神，期望您能不吝賜教，指正錯誤，如果您是小白，咋們可以一同

shell文字過濾程式設計（一）：grep和正則表示式

Linux系統中有很多檔案，比如配置檔案、日誌檔案、使用者檔案等。檔案中都包含了大量的資訊，我們可以使用cat等命令輕鬆將其輸出到螢幕，但如果要從檔案中分析或提取資料，還需要其他工具來實現。而linux正好提供了這些工具：grep、awk、sed等。把這些工具使用好，可以

用正則表示式表示IP，埠和子網掩碼

一、IP地址的正則表示式 1、無任何判斷： /^((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)$/ 2、判斷0.0.0.0不符合IP書寫規範： /^(25[0-5]|2[

正則表示式中的萬用字元

\ 標記下一個字元是特殊字元或文字。例如，"n" 和字元 "n" 匹配。"\n" 則和換行字元匹配。 ^ 匹配輸入的開頭。 $ 匹配輸入的末尾。 * 匹配前一個字元零或多次。例如，"zo*" 與 "z" 或 "zoo" 匹配。 + 匹配前一個字元一次或多次。例如，"zo+"

正則表示式之grep，egrep

正則表示式正則表示式又稱規則表示式，正則就是一串有規律的字串，掌握好正則對於編寫shell指令碼有很大幫助，各種程式語言中都有正則，原理一樣。學好正則表示式，才算真正進入linux。正則三劍客：grep/egrep，sed，awkgrep 過濾指定關鍵詞，e

正則表示式聯練習，電子郵箱

public class TestDemo{ public static void main(String[] args) throws Exception{ String str="[email protected]"; &nb

正則表示式匹配中文，英文字母和數字及_長度詳解

http://www.juapk.com/thread-2472-1-1.html 匹配中文:[\u4e00-\u9fa5] 英文字母:[a-zA-Z] 數字:[0-9] 匹配中文，英文字母和數字及_: ^[\u4e00-\u9fa5_a-zA-Z0-9]+

正則表示式貪婪模式，單詞邊界，多行模式，子表示式（java版）

@Test public void test3(){ //參考部落格：http://blog.csdn.net/gnail_oug/article/details/51260216 /

asp中用正則表示式過濾字元，避免注入攻擊

Pattern 屬性的用法： Function RegExpTest(patrn, strng) Dim regEx ' 建立變數。 Set regEx = New RegExp ' 建立正則表示式。 regEx.Pattern = patrn ' 設定模式。 regEx.IgnoreCase = True

用正則表示式提取img中src資料

分享了正則表示式提取img的src的方法，一起來了解下。要匹配的字串：<img src=image/ad1.gif width="128" height="36"/><img src='image/ad2.gif' width="128" height=

使用正則表示式對xml檔案中資料字典進行整理

在工作中，需要對xml檔案中資料字典進行整理。 SQL> create table t1(text varchar2(4000)); 表已建立。 SQL> insert into t1 values(' <enumeration id

效能比較：lxml庫,正則表示式，BeautifulSoup ，用資料證明lxml解析器速度快

相關推薦