1. 程式人生 > >python3 2018分散式爬蟲教程 -1 環境配置

python3 2018分散式爬蟲教程 -1 環境配置

安裝內容:

python3

pycharm

pyton3 2018分散式爬蟲視訊+原始碼下載地址(崔慶才):https://download.csdn.net/download/qymufeng/10842007

1.安裝python3

(1)windows下安裝python3

         下載python3

         官方網址: https://www.python.org/downloads/

         解壓之後,配置環境變數

         執行-cmd  輸入 python 出現以下字樣代表安裝成功

 

(2)linux下載安裝python3

         命令列安裝:

         1)ubuntu安裝python命令

1)安裝基礎庫:
sudo apt-get install -y python3-dev build-essential libssl-dev lib fi-dev libxml2 libxml2-dev libxsltl-dev zlib1g-dev libcurl4-openssl-dev

2)安裝python3:

sudo apt-get install -y python3

提示:安裝指定版本python 如安裝python3.5用一以下命令即可

sudo apt-get install -y python35

3)安裝pip

sudo apt-get install -y python3-pip 

4)測試輸入python 和 pip3 即可

            2)centos安裝python命令

以安裝python3.5為例:
sudo yum install -y https://centos7.iuscommunity .org/ius-release .rpm
sudo yum update
sudo yum install y python35u python35u libs python35u-devel python35u-pip 

 

2.安裝pycharm

            官方下載地址:

http://www.jetbrains.com/pycharm/

3.安裝庫

(1)requests:請求庫

使用pip安裝requests庫命令:

pip3 install requests

requests庫方法介紹:

              方法                                         說明
requests.request() 構造一個請求,支撐一下各方法的基礎方法
requests.get() 獲取HTML網頁的主要方法,對應於HTTP的GET
requests.head() 獲取HTML網頁頭資訊的方法,對應於HTTP的HEAD
requests.post() 向HTML網頁提交POST請求的方法,對應於HTTP的POST
requests.put() 向HTML網頁提交PUT請求的方法,對應於HTTP的PUT
requests.patch() 向HTML網頁提交區域性修改請求,對應於HTTP的PATCH
requests.delete() 向HTML頁面提交刪除請求,對應於HTTP的DELETE

(2)Selenium:是一個自動化測試工具,利用它我們可以驅動瀏覽器執行特定的動作,如點選、下拉等 操作 對於一些 JavaScript 誼染的頁面來說,這種抓取方式非常有效。

安裝命令:

pip3 install selenium 

(3)aiohttp:的 requests 庫是一個阻塞式 HTTP 請求庫,當我們發出一個請求後,程式會一直等待服 器響應,直到得到響應後,程式才會進行下 步處理 其實,這個過程比較耗費時間 如果程式可以在 這個等待過程中做一些其他的事情,如進行請求的排程 響應的處理等,那麼爬取效率一定會大大提高 1.3 解析庫的安裝 19 iohttp 就是這樣一個提供非同步 We 服務的庫,從 Python 本開始 on 中加入了 asy c/awa 關鍵字,使得回撥的寫法更加直觀和人性 aioh即的非同步操作藉助於 asy nc await 關鍵字的寫法變 ’ 得更加簡情,架構更加清晰 使用非同步請求庫進行資料抓取時, 會大大提高效率。

 

pip3 install aiohttp 

 

(4)lxml:解析庫,支援html和xml的解析

安裝命令:

pip3 install lxml

(5)Beautiful Soup:是python的一個 html 和 xml 的解析庫,擁有強大的api

Beautiful Soup解析器是依賴於 lxml 庫的,所以在此之前請確保已經成功安裝 好了 lxml 庫,具體的安裝方式參見上面

安裝命令:

pip3 install beautifulsoup4 

(6)pyquery:pyquery 同樣是 個強大的網頁解析工具,它提供了和 jQuery 類似的語法來解析 HTML 文梢, 支援 css 選擇器,使用非常方便。

安裝命令:

p1p3 install pyquery 

(7)tesserocr:是python 的一個 OCR 識別庫,其實是對 tesseract 做的一層python api 封裝,所以其核心是 tesseract 。因此安裝 tesserocr 之前需要先安裝 tesseract

OCR :即 Optical Character Recognition ,光學字元識別, 是指通過掃描字元,然後通過其形狀將 其翻譯成電子文字的過程。在爬蟲過程中,難免會遇到各種各樣的驗證碼,而大多數驗證碼還是罔形驗證碼,這時候我們 以直接用 OCR 來識別。

安裝命令:

pip3 install tesserocr pillow