1. 程式人生 > >Mac os 下 python爬蟲相關的庫和軟體的安裝

Mac os 下 python爬蟲相關的庫和軟體的安裝

  由於最近正在放暑假,所以就自己開始學習python中有關爬蟲的技術,因為發現其中需要安裝許多庫與軟體所以就在這裡記錄一下以避免大家在安裝時遇到一些不必要的坑。

 

一. 相關軟體的安裝:

  1. homebrew:

     homebrew 是mac os系統下的包管理器由於功能齊全所以在這裡比較推薦大家安裝,安裝及使用教程在我的另一篇部落格中,在此附上鍊接 homebrew的安裝。

 

   2. anaconda:anaconda是python下的包管理器,支援建立虛擬環境等功能,個人認為比自帶的pip好用,安裝anaconda可以前往其官網,連結如下:

      https://www.continuum.io/downloads,選擇python3版本的安裝包下載即可。

 

二. 請求庫的安裝

    requests:由於requests是第三方庫,所以需要手動安裝,安裝過程如下。

    1 .相關連結

       Github:https://github.com/requests/requests

       PyPi:https://pypi.python.org/pypi/requests

       官方文件:http://www.python-requests.org

       中文文件:http://docs.python-requests.org/zh_CN/latest

    2. 安裝庫,我們使用conda指令進行安裝,在終端中輸入如下指令即可成功安裝requests庫

 

conda install requests

      

    Selenium:是一個自動化的測試工具,利用它可以驅動瀏覽器執行特定的動作,如過頁面的資料通過JavaScript動態載入則需要使用到它,其安裝過程如下。

    1. 相關連結

      官方網站:http://www.selenium.org

      Github:https://github.com/seleniumHQ/selenium/tree/master/py

      PyPi:https://pypi.python.org/pypi/selenium

      官方文件:http://selenium-python.readthdocs.io

      中文文件:http://selenium-python-zh.readthedocs.io

    2. 安裝庫,我們同樣使用 conda指令進行安裝,在終端中輸入如下指令即可安裝selenium庫

conda install selenium

    

    ChromeDriver:應為selenium需要瀏覽器配合使用,那麼如果預設使用的是chrome瀏覽器,則需要安裝chromeDrvier驅動(版本需要與你使用的chrome的版本相容),其安裝過程如下。

    1. 相關連結

       官方網站:http://sites.google.com/a/chromium.org/chromedriver

       下載地址:  http://chromedriver.storage.googleapis.com/index.html

    2. 安裝chromedriver,由於我們安裝了homebrew包管理器,我們就可以直接使用brew指令進行安裝,在終端中輸入下列程式碼即可進行安裝chromedriver了

 

brew cask install chromedriver

 

     3. 安裝好後,我們可以在程式中進行測試,程式碼如下

from selenium import webdriver

browser = webdriver.Chrome()

          若能正確彈出空白的chrome瀏覽器,則證明配置沒有問題啦!

 

三. 解析庫安裝

   lxml:是python的一個解析庫,用於解析html和xml並且對xpath表示式提供了支援,是一個很基礎的解析庫,安裝方式如下。

   1. 相關連結

      官方網站:http://lxml.de

      Github:https://github.com/lxml/lxml

      PyPI:https://pypi.python.org/pypi/lxml

    2.我們使用conda指令進行安裝,只需在終端中輸入以下程式碼安裝即可

conda install lxml

 

     BeautifulSoup:你沒看錯,它叫美麗湯,它可以解析html和xml並支援多種方式操作網頁中的標籤和屬性,非常強大的解析庫並且官方文件也很友好,安裝方式如下。

     1. 相關連結

        官方文件:https://www.cremmy.com/software/BeautifulSoup/bs4/doc

        中文文件:https://www.cremmy.com/software/BeautifulSoup/bs4/doc.zh

     2. 我們依舊使用conda指令進行安裝,在終端中輸入如下程式碼安裝即可

conda install beautifulsoup4

     3. 安裝好後,我們可以在程式中測試它的解析功能,程式碼如下

from urllib.request import urlopen
from bs4 import BeautifulSoup

if __name__ == "__main__":
    html = urlopen("http://www.cnblogs.com")   #urlopen 獲取html頁面
    bs_obj = BeautifulSoup(html)               #BeauitfulSoup解析後返回
    print(bs_obj.get_text)                     #返回除標籤外的純文字

   

    PyQuery:也是解析工具,提供與jquery(幾年前非常火熱的JavaScript框架)類似的語法解析html同樣也支援css選擇器,安裝方式如下。

    1. 相關連結

       Github:https://github.com/gawel/pyquery

       PyPI:https://pypi.python.org/pypi/pyquery

       官方文件:http://pyquery.readthedocs.io

    2. 我們仍然使用conda指令安裝,但同時也可以使用pip3指令安裝,在終端輸入如下程式碼中的一個安裝即可

#使用 conda安裝
conda install pyquery
#使用 pip3安裝
pip3 install pyquery

  

    tesserocr:可以用來識別驗證碼或者圖片的OCR(光學字元識別)解析庫,它是對python API的封裝,所以安裝它需要先安裝tesseract,它們的安裝方式如下

    1. 相關連結

       tesserocr Github:https://github.com/sirfz/tesserocr

       tesserocr PyPI:https://pypi.python.org/pypi/tesserocr

       tesseract 下載地址:http://digi.bib.uni-mannheim.de/tesserocr

       tesseract Github:https://github.com/tesseract-ocr/tesseract

       tesseract 語言包:https://github.com/tesseract-oct/tessdata

       tesseract 文件:https://github.com/tesseract-ocr/tesseract/wiki/Documentation

 

    2. 我們現需要使用brew指令安裝ImageMagick和tesseract庫,然後再使用conda指令安裝tesserocr庫,在終端中按次序輸入以下程式碼即可

# 安裝ImageMagick
brew install imagemagick
# 安裝 tesseract
brew install tesseract --all-languages
# 安裝 tesserocr
conda install tesserocr

   3. 安裝好後,我們可以在程式中測試它是否能正確執行,程式碼如下

import tesserocr
from PTL import Image

image = Image.open('example.jpeg')
print(tesserocr.image_to_text(image)) #將圖片中的文字轉換為字串

 

好了至此,與python爬蟲相關的基礎庫已經安裝完成了,本文中並未涉及scrapy庫的安裝。因為個人認為還是先不要使用框架自己編寫爬蟲更能提升自己的編碼能力,謝謝大家的閱讀!

&n