python3 2018分散式爬蟲教程 -1 環境配置
安裝內容:
python3
pycharm
pyton3 2018分散式爬蟲視訊+原始碼下載地址(崔慶才):https://download.csdn.net/download/qymufeng/10842007
1.安裝python3
(1)windows下安裝python3
下載python3
官方網址: https://www.python.org/downloads/
解壓之後,配置環境變數
執行-cmd 輸入 python 出現以下字樣代表安裝成功
(2)linux下載安裝python3
命令列安裝:
1)ubuntu安裝python命令
1)安裝基礎庫: sudo apt-get install -y python3-dev build-essential libssl-dev lib fi-dev libxml2 libxml2-dev libxsltl-dev zlib1g-dev libcurl4-openssl-dev 2)安裝python3: sudo apt-get install -y python3 提示:安裝指定版本python 如安裝python3.5用一以下命令即可 sudo apt-get install -y python35 3)安裝pip sudo apt-get install -y python3-pip 4)測試輸入python 和 pip3 即可
2)centos安裝python命令
以安裝python3.5為例:
sudo yum install -y https://centos7.iuscommunity .org/ius-release .rpm
sudo yum update
sudo yum install y python35u python35u libs python35u-devel python35u-pip
2.安裝pycharm
官方下載地址:
3.安裝庫
(1)requests:請求庫
使用pip安裝requests庫命令:
pip3 install requests
requests庫方法介紹:
方法 | 說明 |
requests.request() | 構造一個請求,支撐一下各方法的基礎方法 |
requests.get() | 獲取HTML網頁的主要方法,對應於HTTP的GET |
requests.head() | 獲取HTML網頁頭資訊的方法,對應於HTTP的HEAD |
requests.post() | 向HTML網頁提交POST請求的方法,對應於HTTP的POST |
requests.put() | 向HTML網頁提交PUT請求的方法,對應於HTTP的PUT |
requests.patch() | 向HTML網頁提交區域性修改請求,對應於HTTP的PATCH |
requests.delete() | 向HTML頁面提交刪除請求,對應於HTTP的DELETE |
(2)Selenium:是一個自動化測試工具,利用它我們可以驅動瀏覽器執行特定的動作,如點選、下拉等 操作 對於一些 JavaScript 誼染的頁面來說,這種抓取方式非常有效。
安裝命令:
pip3 install selenium
(3)aiohttp:的 requests 庫是一個阻塞式 HTTP 請求庫,當我們發出一個請求後,程式會一直等待服 器響應,直到得到響應後,程式才會進行下 步處理 其實,這個過程比較耗費時間 如果程式可以在 這個等待過程中做一些其他的事情,如進行請求的排程 響應的處理等,那麼爬取效率一定會大大提高 1.3 解析庫的安裝 19 iohttp 就是這樣一個提供非同步 We 服務的庫,從 Python 本開始 on 中加入了 asy c/awa 關鍵字,使得回撥的寫法更加直觀和人性 aioh即的非同步操作藉助於 asy nc await 關鍵字的寫法變 ’ 得更加簡情,架構更加清晰 使用非同步請求庫進行資料抓取時, 會大大提高效率。
pip3 install aiohttp
(4)lxml:解析庫,支援html和xml的解析
安裝命令:
pip3 install lxml
(5)Beautiful Soup:是python的一個 html 和 xml 的解析庫,擁有強大的api
Beautiful Soup解析器是依賴於 lxml 庫的,所以在此之前請確保已經成功安裝 好了 lxml 庫,具體的安裝方式參見上面
安裝命令:
pip3 install beautifulsoup4
(6)pyquery:pyquery 同樣是 個強大的網頁解析工具,它提供了和 jQuery 類似的語法來解析 HTML 文梢, 支援 css 選擇器,使用非常方便。
安裝命令:
p1p3 install pyquery
(7)tesserocr:是python 的一個 OCR 識別庫,其實是對 tesseract 做的一層python api 封裝,所以其核心是 tesseract 。因此安裝 tesserocr 之前需要先安裝 tesseract
OCR :即 Optical Character Recognition ,光學字元識別, 是指通過掃描字元,然後通過其形狀將 其翻譯成電子文字的過程。在爬蟲過程中,難免會遇到各種各樣的驗證碼,而大多數驗證碼還是罔形驗證碼,這時候我們 以直接用 OCR 來識別。
安裝命令:
pip3 install tesserocr pillow