Python3從零開始爬取今日頭條的新聞【一、開發環境搭建】
首先,安裝好我們爬網所需的開發環境,我的開發環境如下:
- win7 x64中文版
- 本系列演示過程所用到的python環境以及第三方庫:
- python 3.6.5 Anaconda預安裝
- selenium 3.14.0 Anaconda手動安裝
- lxml 4.2.1 Anaconda預安裝的不包含etree,需要解除安裝重灌,見文末方法
- pip 10.0.1 Anaconda預安裝
- PyExecJS Anaconda沒有,需要cmd執行pip安裝
這裡為了方便管理Python裡面的各種外掛的依賴關係,我選擇的是Py整合管理工具Anaconda,就像我們其它語言開發使用Maven、Gradle作為依賴庫版本管理工具一樣,節省自己的時間減少出錯的機率。(當然你很強,也可以自己單獨安裝Python以及本文所用到的各種依賴包,只要不出錯就好)
安裝步驟:
-
win7系統就不用說了,大家都懂的
-
Visuan Studio Code(本系列後續文章內統一簡稱vs code)的安裝也是很easy,下載後一路下一步完成就行
-
Anaconda3.5也是從官網下來安裝包雙擊執行一路下一步,我是預設安裝在C:\ProgramData\Anaconda3,並且在安裝過程中勾選了把這個安裝目錄作為系統Python的安裝目錄,
-
-
但是查了系統環境變數Path,並沒有發現這個在裡面,所以安裝完成後我們在cmd裡面輸入python以及pip,是提示命令找不到的。所以不管了,幹就完了,咱自己手動把以下路徑新增到系統環境變數Path的值裡面:
- C:\ProgramData\Anaconda3\Scripts
- C:\ProgramData\Anaconda3
- 不懂配置環境變數操作的自行du一下~
-
啟動Anaconda:
-
-
可以看到Anaconda裡面已經自動幫我們安裝好了Python3.6.5
-
-
我們在這裡通過anaconda繼續安裝後續爬網所需的selenuim框架(用這個管理工具安裝的好處就是其它必須的相關依賴都會自動安裝,省得自己一個一個去折騰,當然除非這個工具本身找不到你要的外掛)
-
-
繼續安裝使用者在py指令碼中執行js指令碼的外掛:PyExecJS
開啟vs code,然後按鍵:Ctrl + ~ 開啟cmd終端
-
輸入pip install PyExecJS 安裝
-
最後,解除安裝Anaconda預安裝的lxml,手動安裝帶etree的版本,否則執行程式碼會提示etree匯入出錯,有些lxml不包含etree,導致找不到指定模組,我們需要手動安裝一下。
方法有很多,這裡只是其中一種:在網站https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml找到符合當前python3.7版本的64位的whl檔案到本機,然後cmd命令視窗cd到這個whl檔案所在的目錄,執行安裝(先解除安裝之前預安裝的lxml版本再安裝下載的這個):
pip uninstall lxml
pip install lxml-4.2.5-cp37-cp37m-win_amd64.whl
安裝火狐瀏覽器驅動:下載地址
下載後解壓放到python.exe所在目錄,本文中是C:\ProgramData\Anaconda3
至此,我們把本系列操作所需的軟體環境都搞定了,接下來開始我們的爬蟲之旅~
全文完結,後續實現用其它框架來爬蟲新聞資源。敬請期待~