python3學習--開發環境配置
阿新 • • 發佈:2019-01-08
windows下安裝
https://www.python.org/
請求庫安裝
爬蟲可以簡單分為幾步:抓取頁面、分析頁面、儲存資料
在抓取頁面的過程中,我們需要模擬瀏覽器向伺服器傳送請求,所以需要用到一些Python庫來實現HTTP請求操作,用到的第三方庫有requests、Selenium、和aiohttp等
1.requests安裝 pip3 install requests 2.Selenium安裝-自動化測試工具 pip3 install selenium 3.ChromeDriver安裝-驅動chrome瀏覽器完成相應的操作,安裝前需要找到chrome瀏覽器版本,下載對應的chromedriver,將下載後的執行檔案,放入python下的Scripts資料夾下,進入cmd,輸入chromedriver驗證 4.GeckoDriver安裝-驅動火狐瀏覽器完成相應操作 5.還有PhantomJS、aiohttp等
解析庫安裝
抓取網頁程式碼之後,下一步就是從網頁中提取資訊。提取資訊的方式有很多種,可以用正則來提取,但是相對比較繁瑣。這裡有許多強大的解析庫,如lxml、BeautifulSoup、pyquery等此外,還提供了非常強大的解析方法,如XPath解析和CSS選擇器解析等,利用他們,可以高效便捷地從網頁中提取有效資訊
1.lxml的安裝-lxml是Python的一個解析庫,支援HTML和XML解析,支援XPath結息方式,效率非常高 pip3 install lxml 2.BeautifulSoup的安裝-它是Python的一個HTML和XML的解析庫,可以方便的從網頁中提取資料,它擁有強大的API和多樣的解析方式 pip3 install beautifulsoup4 3.pyquery-是一個強大的網頁解析工具,提供了和JQuery類似的語法來解析HTML文件,支援CSS選擇器,使用非常方便 pip3 install pyquery 4.tesserocr的安裝-在爬蟲過程中,會遇到各種各樣的驗證碼,而大多數驗證碼還是圖形驗證碼,這個時候,我們可以直接用OCR(光學字元識別)來識別
儲存庫的安裝
1.pymysql-與mysql互動
pip3 install pymysql