對爬取中國裁判文書網的分析
相信做爬蟲的小夥伴們遇到‘中國裁判文書網’,就感覺無從下手。沒關係,救星來了,幫你快速理清爬蟲思路。
一.工具:谷歌瀏覽器
二.要爬取的內容:所有案件的決定書的詳細內容。例:
但右鍵檢視‘網頁原始碼’,卻什麼內容都沒有。
三.裁判文書網分析:
1.該網站是動態網站,(原始碼裡面有用的資訊都沒有)–>網頁原始碼是否含script標籤,list={’’:’’}–>列表頁是否有專門的json介面->經發現:列表頁有json介面。
2.研究json介面,發現引數vl5x,guid是隨機字串,其餘的引數都是固定的。所以需要分析出這兩個引數的來源,以及引數值是怎麼設定的。
3.引數來源一般有以下幾個:
①某一個url(一般不需要看Img/css/js,可能會在 網站的url/json的url),它的響應頭Set-Cookie裡面可能含有這些引數。注意:將網站的cookie從瀏覽器中全部清空(瀏覽器的更多工具->清除瀏覽資料)。因為cookie會有過期時間,如果cookie沒有過期,伺服器是不會將cookie放在set—cookie中返回。
②從json介面返回的json資料中,可能含有後續請求的引數,翻頁引數中很常見;
③js加密得到的引數:文書網,工商資訊網,美團網,抖音,知乎;
a.簡單的js加密,可以直接使用python語言還原出來;
b.在python中執行js程式碼,execjs(windows)直接調js,不用還原。pypv8(Linux)直接可以呼叫js檔案中的函式。
c.非常異常複雜的js加密,考慮APP端的資訊爬取;(一般APP端的爬取比windows的稍簡單)
**********先來分析vl5x引數