【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（2）

阿新 • • 發佈：2019-01-16

上次挖了一個坑，今天終於填上了，還記得之前我們做的拉勾爬蟲嗎？那時我們實現了一頁的爬取，今天讓我們再接再厲，實現多頁爬取，順便實現職位和公司的關鍵詞搜尋功能。

之前的內容就不再介紹了，不熟悉的請一定要去看之前的文章，程式碼是在之前的基礎上修改的

開始

還是回到我們熟悉的頁面，這裡，我們熟練的打開了Newwork標籤，我們點下一頁，看會出來什麼結果

果然還是跳出來一個頁面，但是貌似。。網址一樣，我開啟看一下

和之前不一樣也！

一樣的網址，結果不一樣的結果，這怎麼可能！！小夥伴是不是也和我一樣，一臉懵B!

別急，我們繼續看看別的資訊
在preview我們看到了Pageno.2 說明確實不是同樣的內容

我們繼續看header，貌似發現了不起的東西。

這個pn不就是pageno的簡寫嗎？（什麼，你怎麼不知道有這個縮寫？）我們可以再開啟一個網頁看看，事實證明，我是對的。

好的，我們現在知道頁碼資訊在這裡了，那要怎麼把這個資訊附加上呢？？

Get or Post??

我們知道網頁有兩種方式傳輸資料，get和post，get是把需要傳輸的資料寫到URL上，使用者可以直觀看見，就是我們之前一直使用的（比如搜尋城市，工作經驗，學歷什麼的）。post是通過HTTP post機制，將表單內各個欄位與其內容放置在HTML HEADER內一起傳送到ACTION屬性所指的URL地址。使用者看不到這個過程。

scrapy實現post

看來我們得想辦法用scrapy實現post了。
如果你還記得我們之前講request的時候講了request是可以輕鬆實現post的，那scrapy有request嗎？毫無疑問是有的。我們在文件中找到了一個叫FormRequest的物件，它能實現post功能，並給出了例子

我們在我們的之前程式碼中的class中加入一個start_requests函式

def start_requests(self):
        return [scrapy.http.FormRequest('http://www.lagou.com/jobs/positionAjax.json?px=new&city=%E5%8C%97%E4%BA%AC' 
,
                                        formdata={'pn':'2'},callback=self.parse)]

執行一下，出錯了，才發現，原來目前拉勾的json結構改了，中間加了一個positionResult

修改程式碼：

        jcontent = jdict["content"]
        jposresult = jcontent["positionResult"]
        jresult = jposresult["result"]

再執行一下，和第2頁的一致，說明成功了

這裡再說下，如果你在關鍵詞裡搜尋，你會發現連結也不會變化，說明什麼？？說明也是用的post，比如我搜索大資料，可以看到kd變成了大資料，所以我們也可以構造特定關鍵詞的爬蟲了。

實現自動翻頁

我們只要能控制pn就行了，我們新增一個變數curpage讓它執行一次自加1，然後我們還是用之前的yield的方法

if self.curpage <= self.totalPageCount:
    self.curpage += 1
yield scrapy.http.FormRequest('http://www.lagou.com/jobs/positionAjax.json?px=new&city=%E5%8C%97%E4%BA%AC',                                        formdata={'pn':str(self.curpage)},callback=self.parse)

要說明的是，之前json檔案裡是有個totalPageCount屬性的，目前沒了！所以不能直接從json檔案中獲取頁數資訊了，怎麼辦呢？如果你要細心觀察就可以發現有個totalCount屬性，你做實驗可以發現，每頁都是15個，頁數就是totalCount/15取整，如果頁數大於30，只顯示30頁。

  self.totalPageCount = jposresult['totalCount'] /15;
        if  self.totalPageCount > 30:
            self.totalPageCount = 30;

這裡我們爬所有北京有關“大資料”的工作

 formdata={'pn':str(self.curpage),'kd':'大資料'}

好了大工告成！享受你的成果吧！！

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（2）

開始

看看Header

Get or Post??

scrapy實現post

實現自動翻頁

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（2）

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（1）

scrapy抓取拉勾網職位資訊（一）——scrapy初識及lagou爬蟲專案建立

scrapy抓取拉勾網職位資訊（四）——對欄位進行提取

Python 爬蟲-模擬登入知乎-爬取拉勾網職位資訊

Scrapy爬取拉勾網職位資訊

Python scrapy 爬取拉勾網招聘資訊

爬蟲學習之17：爬取拉勾網網招聘資訊（非同步載入+Cookie模擬登陸）

python爬蟲: 爬取拉勾網職位並分析

【圖文詳解】HDFS基本原理

【JDBC詳解】連線池與分頁

通過終端命令列進行WebDav伺服器配置，實現使用PUT進行檔案上傳【圖文詳解】

【H.264/AVC視訊編解碼技術詳解】十二、解析H.264碼流的巨集塊結構（上）

【爬蟲相關】爬蟲爬取拉勾網的安卓招聘資訊

scrapy抓取拉勾網職位信息（一）——scrapy初識及lagou爬蟲項目建立

python 爬蟲2-正則表達式抓取拉勾網職位信息

ruby 爬蟲爬取拉鉤網職位信息，產生詞雲報告

Python爬蟲：爬取拉勾網資料分析崗位資料

python 爬蟲爬取所有上市公司公告資訊（一）

scrapy爬取拉勾網python職位+Mysql+視覺化

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（2）

開始

看看Header

Get or Post??

scrapy實現post

實現自動翻頁

相關推薦