1. 程式人生 > >python抓取去哪網當天的酒店資訊

python抓取去哪網當天的酒店資訊

searchHotel

python抓取去哪網當天的酒店資訊

. 主要內容

環境準備 

selenium 使用 

資料抓取

程式碼地址


環境準備

安裝selenium 
sudo pip install selenium

selenium2.x 呼叫高版本瀏覽器會出現不相容問題,呼叫低版本瀏覽器正常 selenium3.x 呼叫瀏覽器必須下載一個類似不定的檔案,比如firefox的geckodriver,chrome的chromedriver 各個瀏覽器的補丁下載地址


安裝 BeautifulSoup 
sudo pip install BeautifulSoup

selenium 使用

注意事項:

from selenium import webdriver 
dr = webdriver.Firefox()

如果執行報錯,提示geckodriver(或者其他瀏覽器對應的補丁)必須在‘PATH’,新增對應的路徑到環境變數中,重啟,如果還報錯,改用下列寫法

dr = webdriver.Firefox(execute_path=r"/Users/software/chromedriver.exe"

資料抓取

  1. 搜尋功能,在搜尋框中輸入時間地點,點選搜尋按鈕
  2. 獲取一頁完整資料。由於去哪網一個頁面資料分為兩次載入,第一次載入15條,這時需要將頁面拉到底部,完成第二次資料載入
  3. 獲取一頁完整且經過渲染的HTML文件,使用BeautifulSoup將其中的酒店資訊提取出來進行儲存
  4. 解析完成,點選下一頁,繼續抽取資料