【Python3 爬蟲學習筆記】解析庫的安裝
阿新 • • 發佈:2018-12-09
抓取網頁程式碼之後,下一步就是從頁面中提取資訊。提取資訊的方式多種多樣,可以使用正則來提取,但是寫起來相對比較繁瑣。還有許多強大的解析庫,如lxml、Beautiful Soup、pyquery等。此外還提供了非常強大的解析方法,如XPath解析和CSS選擇器解析等,利用它們,我們可以高效便捷地從網頁中提取有效資訊。
一、lxml的安裝
lxml是Python的一個解析庫,支援HTML和XML的解析,支援XPath解析方式,而且解析效率非常高。
1.相關連結
2.安裝
pip3 install lxml
二、Beautiful Soup的安裝
Beautiful Soup是Python的一個HTML或XML的解析庫,我們可以用它來方便地從網頁中提取資料。Beautiful Soup的HTML和XML解析器是依賴lxml庫的,所以在此之前要確保已經成功安裝lxml庫。
pip安裝
pip3 install beautifulsoup4
三、pyquery的安裝
pyquery同樣是一個強大的網頁解析工具,它提供了和jQuery類似的語法來解析HTML文件,支援CSS選擇器,使用非常方便。
pip安裝
pip3 install pyquery
四、tesserocr的安裝
在爬蟲過程中,難免會遇到各種各樣的驗證碼,而大多數驗證碼還是圖形驗證碼,這時候我們可以直接用OCR來識別。
安裝
在Windows下,首先需要下載tesseract,下載地址為:http://digi.bib.uni-mannheim.de/tesseract。
下載完成後雙擊,勾選Addition language data選項來安裝OCR識別支援的語言包,這樣OCR邊可以識別多國語言。
接下來,再安裝tesserocr,使用pip安裝:
pip3 install tesserocr pillow