Python爬蟲實戰之爬取鏈家廣州房價_04鏈家的模擬登入(記錄)

阿新 • • 發佈：2019-01-16

問題引入

開始鏈家爬蟲的時候，瞭解到需要實現模擬登入，不登入不能爬取三個月之內的資料，目前暫未驗證這個說法是否正確，這一小節記錄一下利用瀏覽器(IE11)的開發者工具去分析模擬登入網站(鏈家)的內部邏輯過程，花了一個週末的時間，部分問題暫未解決。

思路介紹

利用瀏覽器(IE11)的開發者工具，啟用網路流量捕獲，在除錯之前，先做一些配置上的準備工作：清除舊的cookie和快取，禁用跳轉後清除日誌(Firefox在開發工具的Settings設定中勾上啟用持續日誌)。

鏈家的模擬登入_01清除瀏覽器快取和Cookie

鏈家的模擬登入_02禁用跳轉後清除日誌

首先簡要介紹一下模擬登入網站的基本邏輯，模擬網站登入需要知道，要向什麼url地址，傳送什麼樣的資料，GET請求還是POST請求。GET請求從伺服器請求資料，不需要post data，但是經常需要在url後面加上對應的query parameter，類似?para1=value1&para2=value2之類的形式，本質上有點類似於post data。POST請求需要提供對應的post data，對應工具中的Request Body。而剩下的，是設定傳送請求時的相關引數，包括user-agent等，對應工具中的Request Headers。提交請求後，網站伺服器返回Response Headers和Response Body。其中，還經常涉及到cookie資訊，在傳送前，準備好，傳送給伺服器，伺服器返回的資訊中，往往也包含更新後的cookie值。

總結一下，主要關注點：Request Headers、Request Body、Response Headers、Response Body、Cookie。

開啟IE11後，調出工具，切換到網路介面，開啟鏈家，過濾HTML請求，可以看到，頁面跳轉到http://gz.lianjia.com/，伺服器返回的Response Headers裡面設定了一些cookie，如lianjia_ssid和lianjia_uuid。

鏈家的模擬登入_03開啟www.lianjia.com

鏈家的模擬登入_04開啟gz.lianjia.com

點選登入，然後輸入使用者名稱和密碼，正常登入。

找到登入網站所涉及的最核心的地址，對於此，我們可以通過搜尋在哪裡傳送了我們的密碼。可以看到，和我們密碼相關的url地址為

https://passport.lianjia.com/cas/login。即以後如果寫程式碼，所要訪問的url地址，就是這個地址了。

鏈家的模擬登入_05登入postdata

分析所提交的資料(post data)中的引數和值，這就是模擬網站登入的核心資料了，是在寫程式碼時，對於url=https://passport.lianjia.com/cas/login提交POST請求時，要傳送的一些引數和值。

username=XXXXXXXXXXX
password=XXXXXXXXXX
verifycode=
service=http%3A%2F%2Fgz.lianjia.com%2F
isajax=true
code=
lt=LT-99999 
-9HQFRxGdmePMdsCSnTeH9h2ne26uQbnWqN2

鏈家的模擬登入_06lt值

分析Cookie，在最核心的地址https://passport.lianjia.com/cas/login的Request Headers中，lianjia_ssid、lianjia_uuid和JSESSIONID，其中lianjia_ssid、lianjia_uuid通過先訪問其他頁面獲取，現在接著去找名為JSESSIONID的Cookie，是從哪裡來的，所以，能想到的，就是先去搜索JSESSIONID，搜尋出來的第一個url地址是https://passport.lianjia.com/cas/prelogin/loginTicket?。很明顯，其就是我們所期望的，因為其中的JSESSIONID是通過Set-Cookie所獲得的，是訪問伺服器的某個地址https://passport.lianjia.com/cas/prelogin/loginTicket?，然後伺服器所返回的Cookie值。

鏈家的模擬登入_07登入Cookie

鏈家的模擬登入_08JSESSIONID

而對於模擬登入網站中，所涉及的其他Cookie、其他引數的值，可參考上述的邏輯，去一點點分析，找到最終的某個值的來源，然後才能用程式模擬。

總結模擬登入鏈家的基本流程

至此，對於想要模擬登入鏈家的內部邏輯過程，基本上清楚了。

待解決問題

在通過Python實現的時候，利用如上的流程，發現實際上行不通，登入失敗。這裡提出幾個未解決的問題。

如何驗證模擬登入網站已成功了呢？

按理，在通過最後一步訪問地址為https://passport.lianjia.com/cas/login時，帶上賬號、密碼、提取的lt值，已獲取JSESSIONID值的情況下，通過返回的html程式碼或cookie值，是可以判斷模擬登入網站已成功的，然而在進一步分析資料來源的時候，發現有一個lianjia_token在登入後的頁面經常出現，不知在模擬登入過程中是否需要用到？是否需要獲取到lianjia_token才算成功？也不知是如何得到的？和JS指令碼是否有關係？

鏈家的模擬登入_09登入成功html

鏈家的模擬登入_10登入成功Cookie

鏈家的模擬登入_11lianjia_token

微信公眾號「資料分析」，分享資料科學家的自我修養，既然遇見，不如一起成長。

資料分析

Python爬蟲實戰之爬取鏈家廣州房價_04鏈家的模擬登入(記錄)

問題引入

思路介紹

總結模擬登入鏈家的基本流程

待解決問題

Python爬蟲實戰之爬取鏈家廣州房價_04鏈家的模擬登入(記錄)

Python爬蟲實戰之爬取B站番劇資訊(詳細過程)

python 爬蟲實戰4 爬取淘寶MM照片

Python 爬蟲入門之爬取妹子圖

python爬蟲學習之爬取全國各省市縣級城市郵政編碼

python爬蟲入門之爬取小說.md

python爬蟲例項之爬取智聯招聘資料

[python3.6]爬蟲實戰之爬取淘女郎圖片

Python爬蟲實戰(3)-爬取豆瓣音樂Top250資料(超詳細)

python3 爬蟲實戰之爬取網易新聞APP端

Python爬蟲實戰之抓取淘寶MM照片（一）

python 爬蟲實戰專案--爬取京東商品資訊（價格、優惠、排名、好評率等）

python爬蟲系列之爬取百度文庫（一）

Python爬蟲實戰(6)-爬取QQ空間好友說說並生成詞雲(超詳細)

python爬蟲練習之爬取豆瓣讀書所有標籤下的書籍資訊

Python爬蟲項目--爬取鏈家熱門城市新房

Python的scrapy之爬取鏈家網房價資訊並儲存到本地

Python的scrapy之爬取鏈家網房價信息並保存到本地

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

Python3[爬蟲實戰] scrapy爬取汽車之家全站連結存json檔案

Python爬蟲實戰之爬取鏈家廣州房價_04鏈家的模擬登入(記錄)

問題引入

思路介紹

總結模擬登入鏈家的基本流程

待解決問題

相關推薦