scrapy-boss直聘

阿新 • • 發佈：2018-10-18

ssm 解決 arc cep mac os x head mic exception gin

　　Hi,大家好。有段時間沒來更新scrapy爬取實例信息了,前2天同事說爬取拉勾,boss直聘等網站信息比較困難。昨天下午開始著手爬取boss直聘內Python爬蟲的信息,比想象中的簡單很多。

需要解決的問題:

　　boss直聘網的信息是大部分以靜態加載和少許動態加載方式顯示網站。

　　1.靜態加載:公司的具體信息和崗位職責(1_1)

　　2.動態加載:首頁搜索框,搜索python爬蟲(1_2)

解決的思路:

　　1.靜態加載:常規爬取信息(簡單)

　　2.動態加載:selenium(簡單)

技術分享圖片

　　　　　　　　　　　　　　　　　　圖(1_1)

技術分享圖片

　　　　　　　　　　　　　　　　　　圖(1_2)

老規矩,給各位爬取結果的圖,大家也可以去嘗試一下:

技術分享圖片

(三)開始正題

3_1.需要提取的信息:items.py

import scrapy

class BossItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    #pass
    job_title = scrapy.Field()
    salary    = scrapy.Field()
    address   = scrapy.Field()
    job_time  = scrapy.Field()
    education  
= scrapy.Field()
    company   = scrapy.Field()
    company_info= scrapy.Field()
    detail_text = scrapy.Field()

3_2.設置代理:middlewares.py

class BossSpiderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the spider middleware does not modify the 

    # passed objects.

    def __init__(self,ip=‘‘):
        self.ip = ip
    def process_request(self,request,spider):
        print(‘http://10.240.252.16:911‘)
        request.meta[‘proxy‘]= ‘http://10.240.252.16:911‘

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_spider_input(self, response, spider):
        # Called for each response that goes through the spider
        # middleware and into the spider.

        # Should return None or raise an exception.
        return None

    def process_spider_output(self, response, result, spider):
        # Called with the results returned from the Spider, after
        # it has processed the response.

        # Must return an iterable of Request, dict or Item objects.
        for i in result:
            yield i

    def process_spider_exception(self, response, exception, spider):
        # Called when a spider or process_spider_input() method
        # (from other spider middleware) raises an exception.

        # Should return either None or an iterable of Response, dict
        # or Item objects.
        pass

    def process_start_requests(self, start_requests, spider):
        # Called with the start requests of the spider, and works
        # similarly to the process_spider_output() method, except
        # that it doesn’t have a response associated.

        # Must return only requests (not items).
        for r in start_requests:
            yield r

    def spider_opened(self, spider):
        spider.logger.info(‘Spider opened: %s‘ % spider.name)


class BossDownloaderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_request(self, request, spider):
        # Called for each request that goes through the downloader
        # middleware.

        # Must either:
        # - return None: continue processing this request
        # - or return a Response object
        # - or return a Request object
        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called
        return None

    def process_response(self, request, response, spider):
        # Called with the response returned from the downloader.

        # Must either;
        # - return a Response object
        # - return a Request object
        # - or raise IgnoreRequest
        return response

    def process_exception(self, request, exception, spider):
        # Called when a download handler or a process_request()
        # (from other downloader middleware) raises an exception.

        # Must either:
        # - return None: continue processing this exception
        # - return a Response object: stops process_exception() chain
        # - return a Request object: stops process_exception() chain
        pass

    def spider_opened(self, spider):
        spider.logger.info(‘Spider opened: %s‘ % spider.name)

3_3.下載數據(存儲到mongodb):pipelines.py

import scrapy
import pymongo
from scrapy.item import Item

class BossPipeline(object):
    def process_item(self, item, spider):
        return item

class MongoDBPipeline(object):    #存儲到mongodb中
    @classmethod
    def from_crawler(cls,crawler):
        cls.DB_URL = crawler.settings.get("MONGO_DB_URL",‘mongodb://localhost:27017/‘)
        cls.DB_NAME = crawler.settings.get("MONGO_DB_NAME",‘scrapy_data‘)
        return cls()

    def open_spider(self,spider):
        self.client = pymongo.MongoClient(self.DB_URL)
        self.db     = self.client[self.DB_NAME]

    def close_spider(self,spider):
        self.client.close()

    def process_item(self,item,spider):
        collection = self.db[spider.name]
        post = dict(item) if isinstance(item,Item) else item
        collection.insert(post)

        return item

3_4.settings.py

MONGO_DB_URL = ‘mongodb://localhost:27017/‘
MONGO_DB_NAME = ‘boss_detail‘

USER_AGENT ={       #設置瀏覽器的User_agent
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
    "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
}

FEED_EXPORT_FIELDS = [‘job_title‘,‘salary‘,‘address‘,‘job_time‘,‘education‘,‘company‘,‘company_info‘]

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)
CONCURRENT_REQUESTS = 10

# See also autothrottle settings and docs
DOWNLOAD_DELAY = 0.5

# Disable cookies (enabled by default)
COOKIES_ENABLED = False

DOWNLOADER_MIDDLEWARES = {
    #‘Boss.middlewares.BossDownloaderMiddleware‘: 543,
    ‘scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware‘:543,
    ‘Boss.middlewares.BossSpiderMiddleware‘:123,
}

ITEM_PIPELINES = {
    ‘scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware‘:1,
    ‘Boss.pipelines.MongoDBPipeline‘: 300,
}

3_5.spider/boss.py

#-*- coding:utf-8 -*-
import time
from selenium import webdriver
import pdb
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys    import Keys
from lxml import etree
import re
from bs4 import BeautifulSoup
import scrapy
from Boss.items import BossItem
from Boss.settings import USER_AGENT
from scrapy.linkextractors import LinkExtractor

chrome_options = Options()
driver = webdriver.Chrome()

class BossSpider(scrapy.Spider):
    name = ‘boss‘
    allowed_domains = [‘www.zhipin.com‘]
    start_urls = [‘http://www.zhipin.com/‘]

    headers = {
        ‘Accept‘: ‘application/json, text/javascript, */*; q=0.01‘,
        ‘Accept-Encoding‘: ‘gzip, deflate‘,
        ‘Accept-Language‘: ‘zh-CN,zh;q=0.9‘,
        ‘Connection‘: ‘keep-alive‘,
        ‘Content-Length‘: ‘11‘,
        ‘Content-Type‘: ‘application/x-www-form-urlencoded; charset=UTF-8‘,
        ‘Host‘: ‘www.zhipin.com‘,
        ‘Origin‘: ‘www.zhipin.com‘,
        ‘Referer‘: ‘http://www.zhipin.com/‘,
        ‘User-Agent‘: USER_AGENT,
        ‘X-Requested-With‘: ‘XMLHttpRequest‘,
    }

    def start_requests(self):
        driver.get(
            self.start_urls[0]
            )
        time.sleep(3)

        #搜索python爬蟲
        driver.find_element_by_name(‘query‘).send_keys(u‘python爬蟲‘)
        time.sleep(3)
        driver.find_element_by_class_name(‘btn-search‘).click()
        time.sleep(3)

        new_url = driver.current_url.encode(‘utf8‘) #獲取跳轉之後的url
        yield scrapy.Request(new_url)

    def parse(self, response):
        #提取網頁鏈接url
        links = LinkExtractor(restrict_css="div.info-primary>h3>a")
        link = links.extract_links(response)
        for each_link in link:
            yield scrapy.Request(each_link.url,callback=self.job_detail)


    def job_detail(self,response):
        spiderItem = BossItem()
        #想要提取的信息
        spiderItem[‘job_title‘]     = response.css(‘div.job-primary.detail-box div.name h1::text‘).extract()[0]
        spiderItem[‘salary‘]        = response.css(‘div.job-primary.detail-box span.badge ::text‘).extract()[0]
        spiderItem[‘address‘]       = response.css(‘div.job-primary.detail-box p::text‘).extract()[0]
        spiderItem[‘job_time‘]      = response.css(‘div.job-primary.detail-box p::text‘).extract()[1]
        spiderItem[‘education‘]     = response.css(‘div.job-primary.detail-box p::text‘).extract()[2]
        spiderItem[‘company‘]       = response.css(‘div.job-primary.detail-box div.info-company h3.name a::text‘).extract()[0]
        spiderItem[‘company_info‘]  = response.css(‘div.job-primary.detail-box div.info-company>p::text‘).extract()[0]

        detail = response.css(‘div.job-sec div.text ::text‘).extract()
        details = ‘‘.join(detail)      #將列表內所有字符串提取成一個整的字符串
        spiderItem[‘detail_text‘]   = details

        print spiderItem
        yield spiderItem

scrapy-boss直聘

ssm 解決 arc cep mac os x head mic exception gin 　　Hi,大家好。有段時間沒來更新scrapy爬取實例信息了,前2天同事說爬取拉勾,boss直聘等網站信息比較困難。昨天下午開始著手爬取boss直聘內Python爬蟲的信息,比想象

python3 + scrapy 抓取boss直聘崗位

前言：本文為記錄工程實現過程，會引用其他文章，如果又不清晰的地方可以檢視原文章。本文主旨在於記錄，所以部分作者瞭解的部分可能不會介紹而直接操作，如果有疑問請留言或者直接使用搜索引擎。引用： windows安裝scrapy 建立第一個scrapy工程一、安裝scrapy 管理員模式開啟power

爬蟲進階：Scrapy抓取boss直聘、拉勾心得經驗

關於使用Scrapy的體會，最明顯的感受就是這種模板化、工程化的腳手架體系，可以說是拿來即可開箱便用，大多僅需按一定的規則套路配置，剩下的就是專注於編寫跟爬蟲業務有關的程式碼。絕大多數的反反爬蟲策略，大多有以下幾種：忽略robots.txt協議新增隨機請求

Python的scrapy之爬取boss直聘

在我們的專案中，單單分析一個51job網站的工作職位可能爬取結果不太理想，所以我又爬取了boss直聘網的工作，不過boss直聘的網站一次只能展示300個職位，所以我們一次也只能爬取300個職位。 jobbossspider.py: # -*- coding: utf-8 -*- import

Python的scrapy之爬取boss直聘網站

在我們的專案中，單單分析一個51job網站的工作職位可能爬取結果不太理想，所以我又爬取了boss直聘網的工作，不過boss直聘的網站一次只能展示300個職位，所以我們一次也只能爬取300個職位。 jobbossspider.py: # -*- coding: utf-8 -*- import scrapy

Boss直聘scrapy爬蟲

爬取boss直聘熱門崗位資訊，原始碼如下 -- coding: utf-8 -- import scrapy from Boss.items import BossItem from scrapy import Request from copy im

使用VUE模仿BOSS直聘APP

調試接口本地的人使用 .... sage 文檔在線 ons 一、碎碎念：偶爾在群裏看到一個小夥伴說：最近面試的人好多都說用vue做過一個餓了麽。當時有種莫名想笑。為何不知道創新一下？於是想寫個DEMO演練一下。那去模仿誰呢？還是BOSS直聘(跟我沒關系，不是

簡易python爬蟲爬取boss直聘職位，並寫入excel

python爬蟲寫入excel1，默認城市是杭州，代碼如下#! -*-coding:utf-8 -*-from urllib import request, parsefrom bs4 import BeautifulSoupimport datetimeimport xlwt starttime = dat

BOSS直聘走進復旦，與95後分享招聘大資料

上海2018年11月14日電 /美通社/ -- 日前，在復旦大學“生涯領航，指引未來”生涯活動月系列講座上，網際網路人力資源服務平臺BOSS直聘研究院院長常濛受邀為同學們帶來《第一份工作應該如何“選風口”》的資料分享。在交流互動環節，這些“95後”學子們爭相提問，“我有一個問題，如果我入

Boss直聘微簡歷（個人例項）本人找實習工作中，歡迎聯絡

我的問答回答會展示在微簡歷下方已回答問題 17 個個人情況個人工作的規劃想先在杭州長期發展，找一份前端工作，想在中小企業共同發展，來施展才華。工作再忙，也得逛逛CSDN，學習新的知識，充實自我。實習過後，希望能轉正，能留在單位，為單位出一份力婚姻狀況未婚

python--boss直聘資料視覺化

python 資料視覺化本文中主要使用matplotlib和Pandas對資料進行視覺化資料來源：爬取的BOOS直聘資料分析資料資料展示本文中針對以上資料，對salary,company_info，work_time,education這幾個資訊進行資料視覺化，做出

從零學習Fluter(六):Flutter仿boss直聘v1.0重構

今天繼續學習flutter，覺得這個優秀的東西，許多方面還需要完善，作為一個後來者，要多向別人學習。俗話說，“學無先後，達者為師”。今天呢，我又重新把flutter_boss這個專案程式碼從頭到腳看了一遍，並進行重構。廢話不多說，展示出來分享給大家。本專案原始碼已上傳GitHub，文末給出地址。一

BOSS直聘網站資料分析崗位資訊爬取

感謝BOSS直聘上比較可靠的招聘資訊，讓我們有機會對資料分析崗位進行簡單的爬取與分析。語言：Python3 目錄一、資訊爬取二、資料分析 2.1 資料解析 2.2 資料分析 2.2.1 資料清洗

Pyhton抓取BOSS直聘職位描述和資料清洗，很簡單沒有那麼難

一、抓取詳細的職位描述資訊詳情頁分析 Python學習資料或者需要程式碼、視訊加Python學習群：960410445 在詳情頁中，比較重要的就是職位描述和工作地址這兩個由於在頁面程式碼中崗位職責和任職要求是在一個 div 中的，所以在抓的時候就不太好分，

智聯,拉鉤,boss直聘,三款網際網路招聘應用競品分析

近年來在移動網際網路浪潮的衝擊下，憑藉更好的使用者體驗和新穎的盈利模式，拉勾網和Boss直聘脫穎而出，成為了網際網路垂直招聘模式中的佼佼者。雖然前程無憂和智聯招聘兩大傳統招聘巨頭也受到影響，在尋求轉型中，但依然牢牢佔據了市場近六成份額。思維導圖競品選擇市場分析市場趨勢從近年營

爬蟲之抓取 Boss直聘資料到 Excel 中

宣告：此部落格爬取的資料只為學習爬蟲使用，絕非廣告程式介紹檔案目錄 ├── Zhipin_spider ＃資料夾 │ ├── spider_main.py # 排程器。是

騰訊研究院&BOSS直聘：2017年全球人工智慧人才白皮書

在人工智慧領域方面，美國、中國、日本和英國是全球最領先的四大國家，以色列和加拿大也重點規劃。英國在AI“道德和合法化”方面做的最好，而日本在機器人應用AI領域領先。美國是全球當之無愧的AI技術領導者，也擁有全球最多的AI初創公司。中國的AI發展則已經納入政策重點扶持物件，中國政府希望在2030年在AI技術

IOS 高仿boss直聘---優雅使用UIButton與UIScrollView打造滑動標籤

設計初衷：本工具主要來自俺個人練手小專案，仿boss直聘。文末有原始碼地址先來看設計的效果：分析： 1.控制元件選擇分析：頂部為3個標籤並且每個標籤都有點選事件，控制元件的選擇上有很多種。一

“鼓上蚤”帶你實戰之Boss直聘爬蟲

1 . 前言2 . 資料需求3 . 分析頁面1前言目前來說，在網際網路招聘界有一個“蓬勃生長”的“招聘小巨頭”，也就是我們這期被爬的第一“男豬腳”----Boss直聘logo.png，為什麼說它是小巨頭呢，也是因為其成立於2014年，短短兩三年的時間，憑藉其“讓Boss主動找你”的職業

[python爬蟲]爬取boss直聘並且存到Mysql資料庫裡

導包 import chardet,re,json,pymysql from urllib import request,parse from piaot import * Mysql def sql(sql_z): # 開啟資料庫連線

scrapy-boss直聘

相關推薦