1. 程式人生 > >“鼓上蚤”帶你實戰之Boss直聘爬蟲

“鼓上蚤”帶你實戰之Boss直聘爬蟲

1 . 前言

2 . 資料需求

3 . 分析頁面

1前言

目前來說,在網際網路招聘界有一個“蓬勃生長”的“招聘小巨頭”,也就是我們這期被爬的第一“男豬腳”----Boss直聘logo.png

,為什麼說它是小巨頭呢,也是因為其成立於2014年,短短兩三年的時間,憑藉其“讓Boss主動找你”的職業推薦理念獲得廣大使用者的青睞,目前也是穩穩立足於“網際網路招聘三巨頭”之一,於是我們憑藉著我們誰熱門我爬誰的理念,我們把目標對準了它。

2資料需求

第二步我們來了解一下我們希望爬下來哪些資料,首先進入篩選頁面


篩選頁.png

我們希望能夠做到資料引數大概是以下這樣

id area_info  position_type company_info position_info new_or_hot

也就是我們可以這五個引數來確定一個職位列表,分別是地區資訊、職位要求、公司要求,排序要求、崗位分類,我們依靠這五個大的引數集合確定一個列表。

接下來我們來看看詳情頁的內容


詳情頁.png

我們可以確定的每個職位資訊包括以下幾個方面

釋出時間 釋出人 職位公司 職位資訊(職位名稱 職位薪資 職位要求 工作職責 職位標籤 )

3分析頁面

開啟Firefox的Web控制檯,我們先看看列表頁的獲取


篩選頁分析.png

我們可以看到關於搜尋欄的地方,不同條件會跳轉去GET請求一個新的頁面,我們具體看看引數


引數1.png
我們可以看到有四個主要的引數
query:查詢
scity:城市編號
industry:行業編號
position:職業標號

我們下面再看看不同選項有什麼影響


篩選頁分析1.png

我們可以看到不同城市對應的cXXXXXX是不同的,也就是城市碼不同,並且在細化的話a後面是路,b後面是區,h後面都是一樣的,也就是北京的城市碼,我們來看看引數


引數2.png

包含

query:查詢條件
ka:具體選項

我們再來看看多個選項後的結果

https://www.zhipin.com/c101010100-p100109/
e_105-d_204-y_5-a_雙井-b_朝陽區-h_101010100-t_801
/?query=python&ka=sel-degree-204

e、d、y後面都是之前我們選的結果,最後ka之後的結果是我們上次選的,也就能夠得到我們這次想要的結果了,好,到這裡我們就把篩選頁分析完了,我們接下來分析一下詳情頁


詳情頁分析.png

我們發現詳情頁就是一個普通的GET查詢,而具體的ID就是通過篩選頁得到的

好,我們分析就到這裡了,藉由這些分析結果我們就可以來開始編我們的程式碼了,以及觀察後面大規模爬取的結果來看看是否有一些反爬策略。
具體實戰程式碼可以關注我的github:flea-鼓上蚤系列

歡迎加我微信以及微信群,我們一起來探討爬蟲方面的資訊


微信圖片_20180527142309.jpg微信圖片_20180527142819.jpg

相關推薦

實戰Boss爬蟲

1 . 前言2 . 資料需求3 . 分析頁面1前言目前來說,在網際網路招聘界有一個“蓬勃生長”的“招聘小巨頭”,也就是我們這期被爬的第一“男豬腳”----Boss直聘logo.png,為什麼說它是小巨頭呢,也是因為其成立於2014年,短短兩三年的時間,憑藉其“讓Boss主動找你”的職業

pyspider爬蟲框架boss招聘資訊爬取

需求 需求: 1、 遍歷首頁所有職位分類 2、 點選進入職位分類詳情頁,按照地區抓取,職位名稱,月薪,經驗年限要求,學歷要求,招聘公司,所屬行業,輪次,人數(規模),釋出時間 3、 點選進入職位詳情頁,抓取該職位的技能標籤。 程式碼 程式碼有註釋

DartDiao重要概念

核心內容 最基礎的Dart程式 Dart一些重要的概念 KeyWord(關鍵字) Variable(變數) Final&&Const Dart的內建型別 最基礎的Dart程式 先看一個最基礎的Dart程式 void log(Object

從什麼都不懂開始(三) 實踐Branch操作

本篇將介紹一下Git中經常需要操作到的東西,以及專案中運用到的場景,會稍微帶一點基礎知識,筆者覺得阮一峰老師的Git入門講的非常到位了,我就不班門弄斧了,就講一下專案中遇到的一些情況。若是Git大牛就可以點選返回或者關閉啦~ 此文多圖預警~用流量的童鞋注意哦。

手把手實戰下Spring的七種事務傳播行為

目錄 一、什麼是事務傳播行為? 二、事務的7種傳播行為 三、7種傳播行為實戰 本文介紹Spring的七種事務傳播行為並通過程式碼演示下。 一、什麼是事務傳播行為? 事務傳播行為(propag

機器學習基礎——實戰樸素貝葉斯模型文字分類

本文始發於個人公眾號:TechFlow 上一篇文章當中我們介紹了樸素貝葉斯模型的基本原理。 樸素貝葉斯的核心本質是假設樣本當中的變數服從某個分佈,從而利用條件概率計算出樣本屬於某個類別的概率。一般來說一個樣本往往會含有許多特徵,這些特徵之間很有可能是有相關性的。為了簡化模型,樸素貝葉斯模型假設這些變數是獨

Python的scrapy爬取boss

在我們的專案中,單單分析一個51job網站的工作職位可能爬取結果不太理想,所以我又爬取了boss直聘網的工作,不過boss直聘的網站一次只能展示300個職位,所以我們一次也只能爬取300個職位。 jobbossspider.py: # -*- coding: utf-8 -*- import

Python的scrapy爬取boss網站

在我們的專案中,單單分析一個51job網站的工作職位可能爬取結果不太理想,所以我又爬取了boss直聘網的工作,不過boss直聘的網站一次只能展示300個職位,所以我們一次也只能爬取300個職位。 jobbossspider.py: # -*- coding: utf-8 -*- import scrapy

蟲師入門Chrome Headless,從此爬蟲0門檻!

爬蟲終結者 Chrome Headless 簡介 自從Google官方釋出了Chrome瀏覽器的無形態模式之後,PhantomJS 維護者 Vitaly Slobodin 隨即在郵件

爬蟲抓取 Boss 資料到 Excel 中

宣告:此部落格爬取的資料只為學習爬蟲使用,絕非廣告 程式介紹 檔案目錄 ├── Zhipin_spider # 資料夾 │ ├── spider_main.py # 排程器。是

BOSS和面試官的一問一答

核心 添加 部分 職業 通過 訪問 proc 位置 還需 崗位描述: 信用卡核心系統功能測試,負責測試計劃制定,測試設計,測試執行,測試進度掌控,自動化工具建設等工作。有責任心,執行力強,工作認真細致,邏輯思維強熟悉linux,oracle或者IBM大型機操作精通功能測試

BossApp“天使投資、VC、PE” 與“A輪、B輪、C輪融資”的關系

完成 價值 專業 正常 積累 計劃 需要 公司 節點 我們經常看到朋友圈裏某某公司獲得了某輪融資,所謂的A輪B輪究竟是個什麽概念呢?今天就跟小夥伴們分享一下A、B、C、D輪融資與天使投資、VC、PE的關系。    天使投資(AI):天使投資所投的是一些非常早期的項目,有些

使用VUE模仿BOSSAPP

調試接口 本地 的人 使用 .... sage 文檔 在線 ons 一、碎碎念: 偶爾在群裏看到一個小夥伴說:最近面試的人好多都說用vue做過一個餓了麽。當時有種莫名想笑。 為何不知道創新一下?於是想寫個DEMO演練一下。那去模仿誰呢?還是BOSS直聘(跟我沒關系,不是

簡易python爬蟲爬取boss職位,並寫入excel

python爬蟲寫入excel1,默認城市是杭州,代碼如下#! -*-coding:utf-8 -*-from urllib import request, parsefrom bs4 import BeautifulSoupimport datetimeimport xlwt starttime = dat

scrapy-boss

ssm 解決 arc cep mac os x head mic exception gin   Hi,大家好。有段時間沒來更新scrapy爬取實例信息了,前2天同事說爬取拉勾,boss直聘等網站信息比較困難。昨天下午開始著手爬取boss直聘內Python爬蟲的信息,比想象

python3 + scrapy 抓取boss崗位

前言:本文為記錄工程實現過程,會引用其他文章,如果又不清晰的地方可以檢視原文章。本文主旨在於記錄,所以部分作者瞭解的部分可能不會介紹而直接操作,如果有疑問請留言或者直接使用搜索引擎。 引用: windows安裝scrapy 建立第一個scrapy工程 一、安裝scrapy 管理員模式開啟power

BOSS走進復旦,與95後分享招聘大資料

上海2018年11月14日電 /美通社/ -- 日前,在復旦大學“生涯領航,指引未來”生涯活動月系列講座上,網際網路人力資源服務平臺BOSS直聘研究院院長常濛受邀為同學們帶來《第一份工作應該如何“選風口”》的資料分享。在交流互動環節,這些“95後”學子們爭相提問,“我有一個問題,如果我入

Boss微簡歷(個人例項)本人找實習工作中,歡迎聯絡

我的問答 回答會展示在微簡歷下方 已回答問題 17 個 個人情況 個人工作的規劃 想先在杭州長期發展,找一份前端工作,想在中小企業共同發展,來施展才華。 工作再忙,也得逛逛CSDN,學習新的知識,充實自我。 實習過後,希望能轉正,能留在單位,為單位出一份力 婚姻狀況 未婚

python--boss資料視覺化

python 資料視覺化 本文中主要使用matplotlib和Pandas對資料進行視覺化 資料來源:爬取的BOOS直聘資料分析資料 資料展示 本文中針對以上資料,對salary,company_info,work_time,education這幾個資訊進行資料視覺化,做出

從零學習Fluter(六):Flutter仿bossv1.0重構

今天繼續學習flutter,覺得這個優秀的東西,許多方面還需要完善,作為一個後來者,要多向別人學習。俗話說,“學無先後,達者為師”。今天呢,我又重新把flutter_boss這個專案程式碼 從頭到腳看了一遍,並進行重構。 廢話不多說,展示出來分享給大家。本專案原始碼已上傳GitHub,文末給出地址。 一