【Scrapy】CrawlSpider 單頁面Ajax爬取

阿新 • • 發佈：2019-02-08

專案目標

爬取拉勾網職位列表基本資訊+職位描述

專案思考

拉勾網的招聘崗位列表，這是Ajax非同步載入的。

我想把崗位列表所顯示的資訊爬取下來，同時還需要崗位的工作詳情。

爬取流程就是一開始就不斷獲取職位列表的json，然後從json中提取對應的職位詳情頁，再進去爬取其職位描述。

使用Scrapy的scrapy.Spider基礎爬蟲模板很簡單就可以實現，直接過載編寫parse方法，再加上個回撥方法就可以。

但如何使用CrawlSpider做到類似的功能？

對於獲取json的網址，rules規則沒什麼用，而CrawlSpider中的parse是不能被過載的。

第一步，重寫start_request():

crawlspider繼承基類是spider，所以它的開始入口也是start_request(),然後預設回撥parse。注意回撥parse這個不能改。
第二步，重寫parse_start_url()

start_request()->parse()->_parse_response()->parse_start_url()

如果設定了callback就會呼叫parse_start_url()方法，rules中的回撥。

因為rules在本次專案中沒有作用，所以我們需要過載parse_start_url()作為我們的回撥方法。

在parse_start_url()中，需要獲取職位的詳情頁，發起request，設定回撥方法。
不斷髮起下一頁的職位列表請求。
第三步，編寫解析職位描述的detail_parse()

注意的時，這裡最後在parse_start_url()中使用response.meta傳遞item到detail_parse()來進行資料儲存。

因為如果在parse_start_url()就把職位列表的資訊儲存下來的話，因為Scrapy程式排程的關係，在插入資料庫的時候，item中的資料不一定同步，插入資料庫會報一些錯。
注意request要帶上有cookie的header，不然會被重定向到login頁面

專案程式碼

# -*- coding: utf-8 -*-
import json
import random
import time
from datetime import datetime

import scrapy
from scrapy import FormRequest
from scrapy.spiders import CrawlSpider, Rule


from utils.common import get_md5
from items import LagouJobItemLoader, LagouItem


class LagouSpider(CrawlSpider):
    name = 'lagou'
    allowed_domains = ['www.lagou.com']
    start_urls = ['https://www.lagou.com/jobs/positionAjax.json?']

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
        'Content-Type': 'application/x-www-form-urlencoded; set=UTF-8',
        'Cookie': 'JSESSIONID=ABAAABAAAGFABEF2A9F526EEAF8A4D5979C9C91C470D916; user_trace_token=20181108222228-77038827-4d01-4f91-8b3a-55a0cccaf9d6; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1541686949; _ga=GA1.2.1567223367.1541686949; _gid=GA1.2.489493353.1541686949; LGUID=20181108222230-b9c05f9e-e361-11e8-9314-525400f775ce; TG-TRACK-CODE=search_code; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1541777035; LGRID=20181109232414-8446b9ff-e433-11e8-94aa-525400f775ce; SEARCH_ID=e89119713fd54563ad1b598a8c7e631a',
        'Referer': 'https://www.lagou.com/jobs/list_Python?labelWords=&fromSearch=true&suginput=1',
        'Host': 'www.lagou.com',
        'Origin': 'https: // www.lagou.com',
        'X-Anit-Forge-Code': 0,
        'X-Anit-Forge-Token': None,
        'X-Requested-With': 'XMLHttpRequest'
    }

    page = 1

    def start_requests(self):
        for url in self.start_urls:
            yield FormRequest(url, headers=self.headers,
                              formdata={
                                  'first': 'true',
                                  'pn': str(self.page),
                                  'kd': 'Python',
                                  'city': '深圳'

                              }, callback=self.parse,
                              dont_filter=True
                              )

    def parse_start_url(self, response):

        data = json.loads(response.body.decode('utf-8'))
        result = data['content']['positionResult']['result']
        totalCount = data['content']['positionResult']['totalCount']
        resultSize = data['content']['positionResult']['resultSize']

        for each in result:
            item = LagouItem()
            item['url'] = 'https://www.lagou.com/jobs/{}.html'.format(each['positionId'])
            res = scrapy.Request(url=item['url'], headers=self.headers, callback=self.detail_parse)
            res.meta['item'] = item
            res.meta['each'] = each
            yield res

            time.sleep(0.1)

        time.sleep(random.randint(1, 5))

        if int(resultSize):
            self.allpage = int(totalCount) / int(resultSize) + 1
            if self.page < self.allpage:
                self.page += 1
                yield FormRequest(self.start_urls[0], headers=self.headers,
                                  formdata={
                                      'first': 'false',
                                      'pn': str(self.page),
                                      'kd': 'Python',
                                      'city': '深圳'
                                  }, callback=self.parse
                                  )

    def detail_parse(self, response):

        item = response.meta['item']
        des = response.css('.job_bt div p::text').extract()
        item['description'] = ",".join(des)

        each = response.meta['each']
        item['url_obj_id'] = get_md5(item['url'])
        item['city'] = each['city']
        item['company_full_name'] = each['companyFullName']
        item['company_size'] = each['companySize']
        item['district'] = each['district']
        item['education'] = each['education']
        item['linestaion'] = each['linestaion']
        item['position_name'] = each['positionName']
        item['job_nature'] = each['jobNature']
        item['salary'] = each['salary']
        item['create_time'] = each['createTime']
        item['work_year'] = each['workYear']
        item["crawl_time"] = datetime.now()

        yield item

【Scrapy】CrawlSpider 單頁面Ajax爬取

專案目標爬取拉勾網職位列表基本資訊+職位描述專案思考拉勾網的招聘崗位列表，這是Ajax非同步載入的。我想把崗位列表所顯示的資訊爬取下來，同時還需要崗位的工作詳情。爬取流程就是一開始就不斷獲取職位列表的json，然後從json中提取對應的職位詳情頁，再進

【爬蟲】002 python3 +beautifulsoup4 +requests 爬取靜態頁面

bgcolor img err 預覽政府 bold 技術貴的頁面元素實驗環境: win7 python3.5 bs4 0.0.1 requests 2.19 實驗日期：2018-08-07 爬取網站：http://www.xhsd.cn/ 現在的網站大多有復雜

【Python】Requests+正則表示式爬取貓眼電影TOP100

1.先獲取到一個頁面，狀態碼200是成功返回 def get_one_page(url): # 獲取一個頁面 try: response = requests.get(url) if response.status_cod

Python爬蟲入門【8】：蜂鳥網圖片爬取之三

蜂鳥網圖片--囉嗦兩句前面的教程內容量都比較大，今天寫一個相對簡單的，爬取的還是蜂鳥，依舊採用aiohttp 希望你喜歡爬取頁

Python爬蟲入門教程【7】：蜂鳥網圖片爬取之二

蜂鳥網圖片--簡介今天玩點新鮮的，使用一個新庫 aiohttp ，利用它提高咱爬蟲的爬取速度。安裝模組常規套路 pip ins

Python爬蟲【實戰篇】百度貼吧爬取頁面存到本地

先上程式碼 import requests class TiebaSpider: def __init__(self, tieba_name): self.tieba_name = tieba_name self.url_temp = " htt

【2017-05-21】WebForm跨頁面傳值取值、C#服務端跳轉頁面、 Button的OnClientClick屬性、Js中getAttribute和超鏈接點擊彈出警示框。

代碼 height delet update size 內存客戶 bar win 一、跨頁面傳值和取值： 1、QueryString - url傳值，地址傳值優缺點：不占用服務器內存；保密性差，傳遞長度有限。通過跳轉頁面路徑進行傳值，方式： href="地址?ke

【BZOJ4825】[Hnoi2017]單旋線段樹+set

http src end 發生升序 root getc sin 技能【BZOJ4825】[Hnoi2017]單旋 Description H 國是一個熱愛寫代碼的國家，那裏的人們很小去學校學習寫各種各樣的數據結構。伸展樹（splay）是一種數據結構，因為代碼好寫

【JSP】配置錯誤頁面

panel jsp頁面 version cati 調試 view nal dex -type 1，使用JSP方式如果配置是Jsp時，需要把isErrorPage設置為true，以及設置 <%@ page language="Java" contentType

【轉載】表單中 Readonly 和 Disabled 的區別

作用 .net 單元 ont 應該表單元 als 利用取數今天寫代碼，遇到表單提交的問題，某個字段在不同的情況下，要傳遞不同的值進行賦值，試過一些方法都有些問題，後來請教前端同學，使用 disabled 這個屬性終於搞定了問題，查到一篇講解 readonly 和 di

【scrapy】流程大致分析

下一個跟著數據定義 gin war 自定義輸出 -s 結果 Scrapy流程分析 Scrapy 是一個重型爬蟲框架。主要分為5部分:引擎(Engine)、調度器(Scheduler)(這個不太熟悉)、下載器(Downloader) 、爬蟲(Spider)、管道（I

【轉】STC51單片機下載程序的時候不要在VCC端接DHT11

target 兼容正常後來 bsp 運行引導程序 clas 使用今天使用51單片機學習板調試DHT11濕度傳感器，下載程序的時候把DHT11燒掉了。一開始我使用杜邦線把DHT11的VCC引腳接到學習板上的VCC端，GND接GND，數據端口接51單片機的P0.0

【Day41】Python之路——AJAX

跨域訪問 ref success ica json 設置 ati closed one 什麽是AJAX AJAX = Asynchronous JavaScript and XML（異步的 JavaScript 和 XML）。優點: 　　不重新加載整個頁面的情況下，可以與

【scrapy】scrapy-redis 全國建築市場基本信息采集

redis callback ids super call connect info turn 一個簡介環境: python3.6 　　 scrapy 1.5 使用scrapy-redis 開發的分布式采集demo。一次簡單的例子,供初學者參考(覺得有更好的方式

【MFC】-006 單選框

【MFC】-006 單選框【MFC】-006 單選框 1、由來 2、實現 3、多個單選框分組 1、由來單選框用於在UI上進行多選一的操作。 2、實現在UI上

request.getParameter(“引數名”) 中文亂碼解決方法【新手設定問題】【JSP】-表單傳值問題：為什麼設定UTF-8之後還是亂碼？

request.getParameter(“引數名”) 中文亂碼解決方法【新手設定問題】【JSP】-表單傳值問題：為什麼設定UTF-8之後還是亂碼？問題：jsp讀取的value值亂碼；設定UTF-8之後還是亂碼…… 備註：本文是轉載的，題目上增加關鍵詞方便查詢

【前端】表單事件新增

HTML： <form id="myForm"> <div class="form-group"> <label>Site Name</label> <input type="text" class="form-cont

【Python3爬蟲】使用Fidder實現APP爬取

telerik tail 實現鏈接端口號 dpi () vco 軟件之前爬取都是網頁上的數據，今天要來說一下怎麽借助Fidder來爬取手機APP上的數據。一、環境配置 1、Fidder的安裝和配置沒有安裝Fidder軟件的可以進入這個網址下載，然後就是傻瓜式的

【解決】php實現頁面登入註冊功能並實現跳轉

目錄如下：思路是不通過資料庫等操作實現頁面（頁面比較簡陋，請笑納）關於register功能 html頁面必要的表單功能在頭部寫上寫上條件判斷 if ($_SERVER['REQUEST_METHOD'] === 'POST') { login();

【解決】php實現頁面登錄註冊功能並實現跳轉

apple osi posit cti 轉化 put glob log lin 目錄如下：思路是不通過數據庫等操作實現頁面（頁面比較簡陋，請笑納）關於register功能 html頁面必要的表單功能在頭部寫上寫上條件判斷 if ($_SERVER[‘REQU

【Scrapy】CrawlSpider 單頁面Ajax爬取

專案目標

專案思考

專案程式碼

相關推薦