python3 + scrapy 抓取boss直聘崗位

阿新 • • 發佈：2018-11-04

前言：本文為記錄工程實現過程，會引用其他文章，如果又不清晰的地方可以檢視原文章。本文主旨在於記錄，所以部分作者瞭解的部分可能不會介紹而直接操作，如果有疑問請留言或者直接使用搜索引擎。

引用：

一、安裝scrapy

管理員模式開啟power shell，輸入

pip install scrapy

ps：此步之前，需要先行安裝pip，具體請自行搜尋。

二、到某路徑下建立scrapy工程

scrapy startproject boss

三、開啟工程目錄

cd boss

四、建立爬蟲

scrapy genspider bosszhipin www.zhipin.com

五、將爬蟲工程匯入pycharm，修改setting.py

將 ROBOTSTXT_OBEY = True

改為 ROBOTSTXT_OBEY = False

六、編寫bosszhipin.py和run.py

# -*- coding: utf-8 -*-
import scrapy


class BosszhipinSpider(scrapy.Spider):
    name = 'bosszhipin'
    allowed_domains  
= ['www.zhipin.com']
    start_urls = ['https://www.zhipin.com/c101270100-p100101/?page=1&ka=page-1']

    def parse(self, response):
        print(response.text)

run.py放在專案根目錄

from scrapy.cmdline import execute
execute(['scrapy','crawl','bosszhipin'])

執行出現錯誤

2018-11-04 13:03:36 [scrapy.core.engine] INFO: Spider opened
 
2018-11-04 13:03:36 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-11-04 13:03:36 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-11-04 13:03:37 [scrapy.core.engine] DEBUG: Crawled (403) <GET https://www.zhipin.com/c101270100-p100101/?page=1&ka=page-1> (referer: None)
2018-11-04 13:03:37 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <403 https://www.zhipin.com/c101270100-p100101/?page=1&ka=page-1>: HTTP status code is not handled or not allowed
2018-11-04 13:03:37 [scrapy.core.engine] INFO: Closing spider (finished)

連結被關閉，應該是被反爬了，修改中介軟體來修改headers

middlewares.py 中加入

class UserAgentMiddleware(object):

    def __init__(self, user_agent_list):
        self.user_agent = user_agent_list

    @classmethod
    def from_crawler(cls, crawler, *args, **kwargs):
        # 獲取配置檔案中的 MY_USER_AGENT 欄位
        middleware = cls(crawler.settings.get('MY_USER_AGENT'))
        return middleware

    def process_request(self, request, spider):
        # 隨機選擇一個 user-agent
        request.headers['user-agent'] = random.choice(self.user_agent)

在setting中啟用中介軟體和MY_USER_AGENT的值

USER_AGENT = 'boss (+http://www.yourdomain.com)'
...
DOWNLOADER_MIDDLEWARES = {
   'boss.middlewares.BossDownloaderMiddleware': 543,
}

(以上程式碼預設有實現，只是被註釋了，建議先啟用試試能不能用，不能用再找解決方法)

再次執行run.py，可以獲取頁面html資訊。

第一階段全部程式碼，後期準備加上MongoDB，因為看不出來爬文字直接輸出有什麼卵用。。。

# -*- coding: utf-8 -*-
import scrapy


class BosszhipinSpider(scrapy.Spider):
    name = 'bosszhipin'
    allowed_domains = ['www.zhipin.com']
    start_urls = ['https://www.zhipin.com/c101270100-p100101/?page=1&ka=page-1']

    def parse(self, response):
        # print(response.text)

        job_node_table = response.xpath("//*[@id=\"main\"]/div/div[2]/ul")
        job_node_list = job_node_table.xpath("./li")
        for job_node in job_node_list:
            enterprise_node = job_node.xpath("./div/div[2]/div/h3/a")
            salary_node = job_node.xpath("./div/div[1]/h3/a/span")
            requirement_node = job_node.xpath("./div/div[1]/p")
            time_node = job_node.xpath("./div/div[3]/p")

            enterprise = enterprise_node.xpath('string(.)')
            salary = salary_node.xpath('string(.)')
            requirement = requirement_node.xpath('string(.)')
            time = time_node.xpath('string(.)')


            print("企業", enterprise.extract_first().strip())
            print("薪資", salary.extract_first().strip())
            print("要求", requirement.extract_first().strip())
            print("更新", time.extract_first().strip())
            print()

python3 + scrapy 抓取boss直聘崗位

前言：本文為記錄工程實現過程，會引用其他文章，如果又不清晰的地方可以檢視原文章。本文主旨在於記錄，所以部分作者瞭解的部分可能不會介紹而直接操作，如果有疑問請留言或者直接使用搜索引擎。引用： windows安裝scrapy 建立第一個scrapy工程一、安裝scrapy 管理員模式開啟power

爬蟲進階：Scrapy抓取boss直聘、拉勾心得經驗

關於使用Scrapy的體會，最明顯的感受就是這種模板化、工程化的腳手架體系，可以說是拿來即可開箱便用，大多僅需按一定的規則套路配置，剩下的就是專注於編寫跟爬蟲業務有關的程式碼。絕大多數的反反爬蟲策略，大多有以下幾種：忽略robots.txt協議新增隨機請求

Pyhton抓取BOSS直聘職位描述和資料清洗，很簡單沒有那麼難

一、抓取詳細的職位描述資訊詳情頁分析 Python學習資料或者需要程式碼、視訊加Python學習群：960410445 在詳情頁中，比較重要的就是職位描述和工作地址這兩個由於在頁面程式碼中崗位職責和任職要求是在一個 div 中的，所以在抓的時候就不太好分，

爬蟲之抓取 Boss直聘資料到 Excel 中

宣告：此部落格爬取的資料只為學習爬蟲使用，絕非廣告程式介紹檔案目錄 ├── Zhipin_spider ＃資料夾 │ ├── spider_main.py # 排程器。是

Python的scrapy之爬取boss直聘

在我們的專案中，單單分析一個51job網站的工作職位可能爬取結果不太理想，所以我又爬取了boss直聘網的工作，不過boss直聘的網站一次只能展示300個職位，所以我們一次也只能爬取300個職位。 jobbossspider.py: # -*- coding: utf-8 -*- import

Python的scrapy之爬取boss直聘網站

在我們的專案中，單單分析一個51job網站的工作職位可能爬取結果不太理想，所以我又爬取了boss直聘網的工作，不過boss直聘的網站一次只能展示300個職位，所以我們一次也只能爬取300個職位。 jobbossspider.py: # -*- coding: utf-8 -*- import scrapy

簡易python爬蟲爬取boss直聘職位，並寫入excel

python爬蟲寫入excel1，默認城市是杭州，代碼如下#! -*-coding:utf-8 -*-from urllib import request, parsefrom bs4 import BeautifulSoupimport datetimeimport xlwt starttime = dat

[python爬蟲]爬取boss直聘並且存到Mysql資料庫裡

導包 import chardet,re,json,pymysql from urllib import request,parse from piaot import * Mysql def sql(sql_z): # 開啟資料庫連線

python爬取boss直聘原始碼

說明：登入boss直聘、獲取推薦牛人資訊、篩選牛人，然後進行溝通，目前只能做到溝通，還不能進行繼續交流。圖片驗證碼目前只能將驗證碼圖片儲存到本地，通過圖片管理器開啟之後手工輸入。一次登入後，可在會話失效前多次執行牛人推薦溝通 import requests from

BOSS直聘網站資料分析崗位資訊爬取

感謝BOSS直聘上比較可靠的招聘資訊，讓我們有機會對資料分析崗位進行簡單的爬取與分析。語言：Python3 目錄一、資訊爬取二、資料分析 2.1 資料解析 2.2 資料分析 2.2.1 資料清洗

scrapy-boss直聘

ssm 解決 arc cep mac os x head mic exception gin 　　Hi,大家好。有段時間沒來更新scrapy爬取實例信息了,前2天同事說爬取拉勾,boss直聘等網站信息比較困難。昨天下午開始著手爬取boss直聘內Python爬蟲的信息,比想象

Boss直聘scrapy爬蟲

爬取boss直聘熱門崗位資訊，原始碼如下 -- coding: utf-8 -- import scrapy from Boss.items import BossItem from scrapy import Request from copy im

pyspider爬蟲框架之boss直聘招聘資訊爬取

需求需求： 1、遍歷首頁所有職位分類 2、點選進入職位分類詳情頁，按照地區抓取，職位名稱，月薪，經驗年限要求，學歷要求，招聘公司，所屬行業，輪次，人數（規模），釋出時間 3、點選進入職位詳情頁，抓取該職位的技能標籤。程式碼程式碼有註釋

boss直聘的反爬取和隨機代理

from bs4 import BeautifulSoup import requests import ip_proxy from urllib import parse headers = { 'User-Agent': 'Mozilla/5.

一個站點的誕生02--用Scrapy抓取數據

項目 selector 默認安裝找不到 shang foo 術語替換產生假設想抓數據，就須要有爬蟲程序，業內叫crawler或者spider。有各種語言版本號的開源爬蟲。c++, Java, php，在github上搜一下，以"spider c++"為k

Scrapy抓取Quotes to Scrape

same iss ict -a json 一個個 doc common lang # 爬蟲主程序quotes.py # -*- coding: utf-8 -*- import scrapy from quotetutorial.items import QuoteIte

scrapy抓取免費代理IP

代理爬蟲 python scrapy 1、創建項目scrapy startproject getProxy2、創建spider文件，抓取www.proxy360.cn www.xicidaili.com兩個代理網站內容cd項目的spiders模塊下執行scrapy genspider pro

Scrapy抓取動態網頁

都是搜索華盛頓 etime 觀察 review llb 得到我們動態網頁指幾種可能： 1）需要用戶交互，如常見的登錄操作； 2）網頁通過JS/ AJAX動態生成，如一個html裏有<div id="test"></div>，通過JS生成&l

使用VUE模仿BOSS直聘APP

調試接口本地的人使用 .... sage 文檔在線 ons 一、碎碎念：偶爾在群裏看到一個小夥伴說：最近面試的人好多都說用vue做過一個餓了麽。當時有種莫名想笑。為何不知道創新一下？於是想寫個DEMO演練一下。那去模仿誰呢？還是BOSS直聘(跟我沒關系，不是

Scrapy抓取起點中文網排行榜

pro 起點 type [1] -m += 描述頁面名稱項目名稱：qidian 項目描述：利用scrapy抓取七點中文網的“完本榜”總榜的500本小說，抓取內容包括：小說名稱，作者，類別，然後保存為CSV文件目標URL：https://www.qidian.com/

python3 + scrapy 抓取boss直聘崗位

相關推薦