1. 程式人生 > >python3學習--開發環境配置

python3學習--開發環境配置

windows下安裝

https://www.python.org/

請求庫安裝

爬蟲可以簡單分為幾步:抓取頁面、分析頁面、儲存資料
在抓取頁面的過程中,我們需要模擬瀏覽器向伺服器傳送請求,所以需要用到一些Python庫來實現HTTP請求操作,用到的第三方庫有requests、Selenium、和aiohttp等

1.requests安裝   pip3 install requests
2.Selenium安裝-自動化測試工具   pip3 install selenium
3.ChromeDriver安裝-驅動chrome瀏覽器完成相應的操作,安裝前需要找到chrome瀏覽器版本,下載對應的chromedriver,將下載後的執行檔案,放入python下的Scripts資料夾下,進入cmd,輸入chromedriver驗證
4.GeckoDriver安裝-驅動火狐瀏覽器完成相應操作
5.還有PhantomJS、aiohttp等

解析庫安裝

抓取網頁程式碼之後,下一步就是從網頁中提取資訊。提取資訊的方式有很多種,可以用正則來提取,但是相對比較繁瑣。這裡有許多強大的解析庫,如lxml、BeautifulSoup、pyquery等此外,還提供了非常強大的解析方法,如XPath解析和CSS選擇器解析等,利用他們,可以高效便捷地從網頁中提取有效資訊

1.lxml的安裝-lxml是Python的一個解析庫,支援HTML和XML解析,支援XPath結息方式,效率非常高
    pip3 install lxml
2.BeautifulSoup的安裝-它是Python的一個HTML和XML的解析庫,可以方便的從網頁中提取資料,它擁有強大的API和多樣的解析方式
    pip3 install beautifulsoup4
3.pyquery-是一個強大的網頁解析工具,提供了和JQuery類似的語法來解析HTML文件,支援CSS選擇器,使用非常方便
    pip3 install pyquery
4.tesserocr的安裝-在爬蟲過程中,會遇到各種各樣的驗證碼,而大多數驗證碼還是圖形驗證碼,這個時候,我們可以直接用OCR(光學字元識別)來識別

儲存庫的安裝

1.pymysql-與mysql互動
    pip3 install pymysql