1. 程式人生 > >《崔慶才Python3網路爬蟲開發實戰教程》學習筆記(2):常用庫函式的安裝與配置

《崔慶才Python3網路爬蟲開發實戰教程》學習筆記(2):常用庫函式的安裝與配置

python的一大優勢就是庫函式極其豐富,網路爬蟲工具的開發使用也是藉助於這一優勢來完成的。那麼要想用Python3做網路爬蟲的開發需要那些庫函式的支援呢?

與網路爬蟲開發相關的庫大約有6種,分別為:

  1. 請求庫:requests,selenium,ChromeDriver,PhantomJS,aiohttp
  2. 解析庫:lxml,BeautifulSoup,pyqwery,tesserocr
  3. 資料庫:Mysql,MongoDB,Redis
  4. 儲存庫:PyMySQL,PyMongo,redis-py,RedisDump
  5. Web庫:Flask,Tornado
  6. APP爬取相關庫:Charles,mitmproxy,APPium

接下來我就將崔慶才在Python3網路爬蟲實戰案例視訊教程裡提到所有庫函式整理如下,順便說一下,如果你也要這套視訊教程的話,加我WX吧:reborn0502,然後我私信給你百度雲連結,公然放出來不太好~

1.urllib與re

urllib庫提供了一系列可供使用者操控URL的功能。re則是使用正則表示式而必須安裝的庫。這兩個庫是python自帶的,無需額外安裝。直接import urllib,re使用即可。

2.requests

這個庫是做請求時常用的一個庫。安裝方式為:pip install requests

3.selenium

這是一個驅動瀏覽器的庫,主要是用來做自動化測試。我們在做爬蟲的時候,會遇到一些JS渲染的網頁,遇到這種網頁的時候僅僅用requests庫是無法獲取真實的網頁內容。這時我們就需要用selenium庫將網頁的JS內容渲染出來,再進行抓取。

利用它我們還可以用帶來操控瀏覽器,完成一些我們用滑鼠和鍵盤才能完成的點選,輸入等操作。安裝方式為:pip install selenium。

4.phantomjs

這個庫與selenium有著相同的功能,只不過phantomjs沒有介面,可以說是一個無介面瀏覽器。它會在後臺靜默地執行,看不到任何輸出。安裝方式比較特殊,不是用pip工具,而是去官網下載程式包。下載地址是:http://phantomjs.org/download.html

下載完成並解壓之後,將資料夾放入python的安裝目錄,然後將bin目錄下的phantomjs.exe的路徑放入Path環境變數即可。

5.lxml

這個庫提供了Xpath的解析方式,xpath是一種非常高效的網頁解析方式。安裝方式:pip install lxml。

6.beautifulsoup

這個也是一個網頁解析庫,使用起來也是非常的方便,同時它是依賴於lxml的。記得使用beautifulsoup之前安裝好lxml庫。安裝方式:pip install beautifulsoup4記得在後面加上“4”!

7.pyquery

這依然是一個網頁解析庫,它的語法和jquery是完全一致的,如果你有web開發經驗並且使用過jquery的化,用pyquery來解析網頁會非常上手!安裝方式:pip install pyquery

8.pymysql

這是一個儲存庫,可以用來操作MySQL資料庫,用來資料儲存。安裝方式:pip install pymysql

9.pymongo

這是也是一個儲存庫,可以用來操作MongoDB資料庫,用來資料儲存。安裝方式:pip install pymongo

10.redis

這是也是一個儲存庫,可以用來操作redis資料庫,用來資料儲存。這個資料庫用於分散式爬蟲的使用。安裝方式:pip install redis

11.flask

這是一個web庫,做代理的時候會用到這個庫,當我們設定一個web伺服器的時候,用它來設定一些代理的獲取和儲存之類的介面。安裝方式:pip install flask。

12.jango

這是一個web伺服器框架,它提供了一個完整的後臺管理和一些模板,介面,路由之類的功能。我們可以用jango來做一些網站。當我們做分散式爬蟲維護的時候,會用到jango的庫。做一個管理系統,管理分散式爬蟲的主機資訊。安裝方式:pip install jango

13.jupyter

這是一個記事本,功能比較強大,執行在網頁端,可以在進行程式碼的編寫和執行。也支援markdown的編輯模式。安裝方式:pip install jupyter。

安裝完成之後,開啟cmd視窗(無需進入python),輸入jupyter notebook即可使用這個筆記本。