1. 程式人生 > >Python爬蟲系列-BeautifulSoup詳解

Python爬蟲系列-BeautifulSoup詳解

安裝

pip3 install beautifulsoup4

解析庫

解析器 使用方法 優勢 劣勢
Python標準庫 BeautifulSoup(markup,'html,parser') Python的內建標準庫、執行速度適中、文件容錯能力強 Python 2.7.3 or 3.2.2前的版本中文容錯能力差
lxml HTML 解析庫 BeautifulSoup(markup,'lxml') 速度快、文件容錯能力強 需要安裝C語言庫
lxml XML 解析庫 BeautifulSoup(markup,'xml') 速度快、唯一支援XML的解析器 需要安裝C語言庫
html5lib BeautifulSoup(markup,'xml') 最好的容錯性、以瀏覽器的方式解析文件、生成HTML5格式的文件 速度慢、不依賴外部擴充套件