1. 程式人生 > >Python3從零開始爬取今日頭條的新聞【一、開發環境搭建】

Python3從零開始爬取今日頭條的新聞【一、開發環境搭建】

首先,安裝好我們爬網所需的開發環境,我的開發環境如下:
  • win7 x64中文版
  • 本系列演示過程所用到的python環境以及第三方庫:
    • python 3.6.5 Anaconda預安裝
    • selenium 3.14.0 Anaconda手動安裝
    • lxml 4.2.1 Anaconda預安裝的不包含etree,需要解除安裝重灌,見文末方法
    • pip 10.0.1 Anaconda預安裝
    • PyExecJS Anaconda沒有,需要cmd執行pip安裝

這裡為了方便管理Python裡面的各種外掛的依賴關係,我選擇的是Py整合管理工具Anaconda,就像我們其它語言開發使用Maven、Gradle作為依賴庫版本管理工具一樣,節省自己的時間減少出錯的機率。(當然你很強,也可以自己單獨安裝Python以及本文所用到的各種依賴包,只要不出錯就好)

安裝步驟:

  • win7系統就不用說了,大家都懂的

  • Visuan Studio Code(本系列後續文章內統一簡稱vs code)的安裝也是很easy,下載後一路下一步完成就行

  • Anaconda3.5也是從官網下來安裝包雙擊執行一路下一步,我是預設安裝在C:\ProgramData\Anaconda3,並且在安裝過程中勾選了把這個安裝目錄作為系統Python的安裝目錄,

  • 在這裡插入圖片描述

  • 但是查了系統環境變數Path,並沒有發現這個在裡面,所以安裝完成後我們在cmd裡面輸入python以及pip,是提示命令找不到的。所以不管了,幹就完了,咱自己手動把以下路徑新增到系統環境變數Path的值裡面:

    • C:\ProgramData\Anaconda3\Scripts
    • C:\ProgramData\Anaconda3
    • 不懂配置環境變數操作的自行du一下~
  • 啟動Anaconda:

  • 在這裡插入圖片描述

  • 可以看到Anaconda裡面已經自動幫我們安裝好了Python3.6.5

  • 在這裡插入圖片描述

  • 我們在這裡通過anaconda繼續安裝後續爬網所需的selenuim框架(用這個管理工具安裝的好處就是其它必須的相關依賴都會自動安裝,省得自己一個一個去折騰,當然除非這個工具本身找不到你要的外掛)

  • 在這裡插入圖片描述

  • 繼續安裝使用者在py指令碼中執行js指令碼的外掛:PyExecJS

    開啟vs code,然後按鍵:Ctrl + ~ 開啟cmd終端
    在這裡插入圖片描述

  • 輸入pip install PyExecJS 安裝

  • 最後,解除安裝Anaconda預安裝的lxml,手動安裝帶etree的版本,否則執行程式碼會提示etree匯入出錯,有些lxml不包含etree,導致找不到指定模組,我們需要手動安裝一下。
    方法有很多,這裡只是其中一種:在網站https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml找到符合當前python3.7版本的64位的whl檔案到本機,然後cmd命令視窗cd到這個whl檔案所在的目錄,執行安裝(先解除安裝之前預安裝的lxml版本再安裝下載的這個):
    pip uninstall lxml
    pip install lxml-4.2.5-cp37-cp37m-win_amd64.whl

安裝火狐瀏覽器驅動:下載地址
下載後解壓放到python.exe所在目錄,本文中是C:\ProgramData\Anaconda3

至此,我們把本系列操作所需的軟體環境都搞定了,接下來開始我們的爬蟲之旅~

全文完結,後續實現用其它框架來爬蟲新聞資源。敬請期待~

參考資料: