1. 程式人生 > >【Python3 爬蟲學習筆記】解析庫的安裝

【Python3 爬蟲學習筆記】解析庫的安裝

抓取網頁程式碼之後,下一步就是從頁面中提取資訊。提取資訊的方式多種多樣,可以使用正則來提取,但是寫起來相對比較繁瑣。還有許多強大的解析庫,如lxml、Beautiful Soup、pyquery等。此外還提供了非常強大的解析方法,如XPath解析和CSS選擇器解析等,利用它們,我們可以高效便捷地從網頁中提取有效資訊。

一、lxml的安裝

lxml是Python的一個解析庫,支援HTML和XML的解析,支援XPath解析方式,而且解析效率非常高。
1.相關連結

2.安裝

pip3 install lxml

二、Beautiful Soup的安裝

Beautiful Soup是Python的一個HTML或XML的解析庫,我們可以用它來方便地從網頁中提取資料。Beautiful Soup的HTML和XML解析器是依賴lxml庫的,所以在此之前要確保已經成功安裝lxml庫。
pip安裝

pip3 install beautifulsoup4

三、pyquery的安裝

pyquery同樣是一個強大的網頁解析工具,它提供了和jQuery類似的語法來解析HTML文件,支援CSS選擇器,使用非常方便。
pip安裝

pip3 install pyquery

四、tesserocr的安裝

在爬蟲過程中,難免會遇到各種各樣的驗證碼,而大多數驗證碼還是圖形驗證碼,這時候我們可以直接用OCR來識別。

安裝
在Windows下,首先需要下載tesseract,下載地址為:http://digi.bib.uni-mannheim.de/tesseract
下載完成後雙擊,勾選Addition language data選項來安裝OCR識別支援的語言包,這樣OCR邊可以識別多國語言。
接下來,再安裝tesserocr,使用pip安裝:

pip3 install tesserocr pillow