Scrapy爬取拉勾網職位資訊

阿新 • • 發佈：2019-01-21

很多網站都用了一種叫做Ajax（非同步載入）的技術，通常我們會發現這種網頁，打開了，先給你看上面一部分東西，然後剩下的東西再慢慢載入，也就是區域性載入。所以你可以看到很多網頁，瀏覽器中的網址沒變，但是資料照樣是可以更新的。這對我們正確爬取資料造成了一定影響，我們必須要分析出正確的目標地址才能成功爬取資訊。

這裡寫圖片描述

一、目標地址

通過上篇檔案的介紹，以上面的目標地址，我們可以很輕鬆搭建一個爬蟲框架。

我的蜘蛛檔案程式碼：

# -*- coding: utf-8 -*-
import scrapy


class PositionSpider(scrapy.Spider):
    name = "position" 

    # allowed_domains = ["lagou.com/zhaopin/"]
    start_urls = ['http://lagou.com/zhaopin//']

    def parse(self, response):
        file =  open("lagou.html", 'w')
        file.write(response.body)
        file.close()
        print response.body

然後開啟lagou.html檔案，發現頁面有點low啊，沒關係，能看出一些資訊就好。
這裡寫圖片描述

這裡的職位資訊和上面圖片中顯示的職位是一致的，我們就這樣簡單抓取了嗎？是的，其實首頁是可以按照前面的方式抓取，但是這裡不是我們要抓取的資料。我們要抓取特定條件下的職位資訊。

這裡我們首先開啟開發者工具。

這裡寫圖片描述

所以很容易想到這裡是通過javascript的ajax技術傳送的網路請求事件。

在網路面板下我們嘗試在過濾器中輸入json，對請求進行過濾下。
這裡寫圖片描述

我們發現了2個資源感覺特別像，其中有個名字直接有position，我們點選右鍵，在新標籤頁開啟看看。

我們點選open link in new tab。

這裡寫圖片描述

gj=應屆畢業生&xl=大專&jd=成長型&hy=移動網際網路&px=new&city=上海

通過修改這些引數，我們就可以獲取不同的職位資訊。

注意：這裡的構造還比較簡單，有時候，有些網址的構造遠比這個複雜，經常會出現一些你不知道什麼意思的id=什麼的，這個時候，可能這個id的可能值可能就在別的檔案中，你可能還得找一遍，也可能就在網頁原始碼中的某個地方。

還有一種情況，可能會出現time=什麼的，這就是時間戳，這時候，需要用time函式構造。總之，要具體情況具體分析。

import time
time.time()

二、編寫爬蟲

1、爬第一頁

我們來看下返回的json資料結構：

這裡寫圖片描述

我們對照這裡的層級關係，編寫解析json資料的程式碼。

首先引入json模組：

import json

蜘蛛檔案程式碼：

# -*- coding: utf-8 -*-
# coding=utf-8
import json

import scrapy


class PositionSpider(scrapy.Spider):
    name = "position"
    # allowed_domains = ["lagou.com/zhaopin/"]
    start_urls = ['https://www.lagou.com/jobs/positionAjax.json?px=new&city=%E6%9D%AD%E5%B7%9E&district=%E8%A5%BF%E6%B9%96%E5%8C%BA&needAddtionalResult=false']

    def parse(self, response):
        # print response.body
        jdict = json.loads(response.body)
        jcontent = jdict["content"]
        jposresult = jcontent["positionResult"]
        jresult = jposresult["result"]
        for each in jresult:
            print each['city']
            print each['companyFullName']
            print each['companySize']
            print each['positionName']
            print each['secondType']
            print each['salary']
            print ''

執行下看看效果：

這裡寫圖片描述

2、爬取更多頁

我們可以爬取第一頁的資料了，接下來再來看這個請求的具體情況：

這裡寫圖片描述

通過瀏覽器的工具提供的資訊可以看出，這是一個表單方式提交引數的post請求。下面我們就要模擬這種請求方式。

重寫Spider的start_requests方法，並使用FormRequest設定post請求，並且我們可以修改xrang的範圍，下載指定範圍內頁面的資料。程式碼如下：

# -*- coding: utf-8 -*-
import json

import scrapy


class PositionSpider(scrapy.Spider):
    name = "position"
    # allowed_domains = ["lagou.com/zhaopin/"]
    start_urls = [
        'https://www.lagou.com/jobs/positionAjax.json?px=new&city=%E6%9D%AD%E5%B7%9E&district=%E8%A5%BF%E6%B9%96%E5%8C%BA&needAddtionalResult=false']

    city = u'杭州'

    district = u'西湖區'

    url = 'https://www.lagou.com/jobs/positionAjax.json'

    def start_requests(self):
        for num in xrange(1, 5):
            form_data = {'pn': str(num), 'city': self.city, 'district': self.district}
            headers = {
                'Host': 'www.jycinema.com',
                'Content-Type': 'application/x-www-form-urlencoded;charset=UTF-8',
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
            }
            yield scrapy.FormRequest(self.url, formdata=form_data, callback=self.parse)
        # requests = []
        # for num in xrange(1, 5):
        #     requests.append(scrapy.FormRequest(self.url, method='post', formdata={'pn': str(num), 'city': self.city,'district':self.district},  callback=self.parse))
        # return requests

    def parse(self, response):
        # print response.body
        jdict = json.loads(response.body)
        jcontent = jdict["content"]
        jposresult = jcontent["positionResult"]
        jresult = jposresult["result"]

        for each in jresult:
            print each['city']
            print each['companyFullName']
            print each['companySize']
            print each['positionName']
            print each['secondType']
            print each['salary']
            print ''

執行程式我們可以成功的抓取1-4頁的所有職位資訊。

這裡不提供資料的截圖了，因為這裡資料是經常變化的。如果你自己去測試一下，肯定和我的資料是不一樣的。

3、自動翻頁

# -*- coding: utf-8 -*-
# coding=utf-8
import json

import scrapy


class PositionSpider(scrapy.Spider):
    name = "position"
    # allowed_domains = ["lagou.com/zhaopin/"]
    start_urls = [
        'https://www.lagou.com/jobs/positionAjax.json']

    totalPageCount = 0
    curpage = 1

    city = u'杭州'

    district = u'西湖區'

    url = 'https://www.lagou.com/jobs/positionAjax.json'

    # 設定下載延時
    # download_delay = 10

    def start_requests(self):
        # for num in xrange(1, 3):
        #     form_data = {'pn': str(num), 'city': self.city, 'district': self.district}
        #     headers = {
        #         'Host': 'www.jycinema.com',
        #         'Content-Type': 'application/x-www-form-urlencoded;charset=UTF-8',
        #         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
        #     }
        #     yield scrapy.FormRequest(self.url, formdata=form_data, callback=self.parse)
        # requests = []
        # for num in xrange(1, 5):
        #     requests.append(scrapy.FormRequest(self.url, method='post', formdata={'pn': str(num), 'city': self.city,'district':self.district},  callback=self.parse))
        # return requests
        return [scrapy.FormRequest(self.url,formdata={'pn': str(self.curpage), 'city': self.city,'district':self.district},
                                   callback=self.parse)]

    def parse(self, response):
        # print response.body
        # print response.body.decode('utf-8')
        print str(self.curpage) + "page"
        jdict = json.loads(response.body)
        jcontent = jdict['content']
        jposresult = jcontent["positionResult"]
        pageSize = jcontent["pageSize"]
        jresult = jposresult["result"]
        self.totalPageCount = jposresult['totalCount'] / pageSize + 1;
        for each in jresult:
            print each['city']
            print each['companyFullName']
            print each['companySize']
            print each['positionName']
            print each['secondType']
            print each['salary']
            print ''
        if self.curpage <= self.totalPageCount:
            self.curpage += 1
            yield scrapy.http.FormRequest(self.url, formdata={'pn': str(self.curpage), 'city': self.city,'district': self.district},
                                          callback=self.parse)

最後如果要儲存資料，請參考上篇文章。

這裡針對反爬蟲也做了一點策略，例如使用USER AGENT池，通過下面方式可以檢視請求所使用的user agent。

這裡寫圖片描述

當shell載入後，您將得到一個包含response資料的本地 response 變數以及request變數。輸入 response.body 將輸出response的包體，輸出 request.headers 可以看到request的包頭。

這裡寫圖片描述

應對反爬蟲策略：

設定download_delay
禁止cookies
使用user agent池
使用IP池
分散式爬取

此工程原始碼已上傳github，點此檢視。

Scrapy爬取拉勾網職位資訊

一、目標地址

二、編寫爬蟲

1、爬第一頁

2、爬取更多頁

3、自動翻頁

Scrapy爬取拉勾網職位資訊

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（1）

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（2）

scrapy抓取拉勾網職位資訊（一）——scrapy初識及lagou爬蟲專案建立

scrapy抓取拉勾網職位資訊（四）——對欄位進行提取

Python scrapy 爬取拉勾網招聘資訊

Python 爬蟲-模擬登入知乎-爬取拉勾網職位資訊

scrapy爬取拉勾網python職位+Mysql+視覺化

用python爬取拉勾網招聘資訊並以CSV檔案儲存

HttpClient爬取拉勾網招聘資訊

scrapy抓取拉勾網職位信息（一）——scrapy初識及lagou爬蟲項目建立

Python爬取拉勾網招聘資訊存入資料庫

Python爬取拉勾網招聘資訊

Python爬取拉勾網招聘資訊並可視化分析

python爬蟲: 爬取拉勾網職位並分析

【爬蟲相關】爬蟲爬取拉勾網的安卓招聘資訊

爬取拉勾網資訊，翻頁爬取

python 爬蟲2-正則表達式抓取拉勾網職位信息

ruby 爬蟲爬取拉鉤網職位信息，產生詞雲報告

selelinum+PhantomJS 爬取拉鉤網職位

Scrapy爬取拉勾網職位資訊

一、目標地址

二、編寫爬蟲

1、爬第一頁

2、爬取更多頁

3、自動翻頁

相關推薦