Python3爬蟲從零開始:庫的安裝
阿新 • • 發佈:2018-12-15
抓取網頁之後下一步就是從網頁中提取資訊。提取方式有很多種,可以利用正則表示式進行提請,但是相對而言比較麻煩繁瑣。現在有很多強大的解析庫供我們使用,如lxml,Beautiful Soupp,pyquery等。本節對其安裝進行介紹。
lxml的安裝
lxml支援HTML和XML的解析,支援XPath解析方式。
在Windos下直接利用pip安裝,執行命令列命令:
pip3 install lxml
Beautiful Soup的安裝
Beautiful Suop是Python的一個HTML或XML的解析庫,我們可以用它來方便地從網頁中提取資料。它的HTML和XML解析器是依賴於lxml庫的,所以在此之前需要確保已經成功安裝好了lxml庫。
依舊是pip安裝:
pip3 install beautifulsoup4
pyquery的安裝
pyquery提供了和jQuery類似的語法來解析HTML文件,支援CSS選擇器。
pip3 install pyquery
tesserocr的安裝
爬蟲過程中難免遇到各種各樣的驗證碼,而大多數驗證碼還是圖形驗證碼,這時候可以用OCR(Optical Character Recognition)來識別。
tesserocr是Python的一個OCR識別庫,但其實是對tesseract坐的一層Python API封裝,所以它的核心是tesseract。因此,在此之前需要安裝tesseract。
檔名中帶dev的為開發版本,不帶的為穩定版本。這裡我下載了不帶dev的3.05版本。
下載好後勾選上Additional language data(download)選項來安裝OCR識別語言的支援包。其他的一路Next就OK。
最後,安裝tesserocr即可:
pip3 install tesserocr pillow
安裝好的各種庫,最後在python目錄下\Lib\site-packages中可以檢視到。
Mysql的安裝