1. 程式人生 > >Python3爬蟲從零開始:庫的安裝

Python3爬蟲從零開始:庫的安裝

   抓取網頁之後下一步就是從網頁中提取資訊。提取方式有很多種,可以利用正則表示式進行提請,但是相對而言比較麻煩繁瑣。現在有很多強大的解析庫供我們使用,如lxml,Beautiful Soupp,pyquery等。本節對其安裝進行介紹。

lxml的安裝

    lxml支援HTML和XML的解析,支援XPath解析方式。

在Windos下直接利用pip安裝,執行命令列命令:

   pip3 install lxml

Beautiful Soup的安裝

    Beautiful Suop是Python的一個HTML或XML的解析庫,我們可以用它來方便地從網頁中提取資料。它的HTML和XML解析器是依賴於lxml庫的,所以在此之前需要確保已經成功安裝好了lxml庫。

依舊是pip安裝:

pip3 install beautifulsoup4

pyquery的安裝

pyquery提供了和jQuery類似的語法來解析HTML文件,支援CSS選擇器。

pip3 install pyquery

tesserocr的安裝

爬蟲過程中難免遇到各種各樣的驗證碼,而大多數驗證碼還是圖形驗證碼,這時候可以用OCR(Optical Character Recognition)來識別。

tesserocr是Python的一個OCR識別庫,但其實是對tesseract坐的一層Python API封裝,所以它的核心是tesseract。因此,在此之前需要安裝tesseract。

檔名中帶dev的為開發版本,不帶的為穩定版本。這裡我下載了不帶dev的3.05版本。

下載好後勾選上Additional language data(download)選項來安裝OCR識別語言的支援包。其他的一路Next就OK。

最後,安裝tesserocr即可:

pip3 install tesserocr pillow

安裝好的各種庫,最後在python目錄下\Lib\site-packages中可以檢視到。

Mysql的安裝