智聯招聘爬蟲原始碼分析(一)

阿新 • • 發佈：2018-11-09

最近一直在關注秋招，雖然還沒輪到我，不過提前準備總是好的。近期聽聞今年秋招形勢嚴峻，為了更好的準備將來的實習、工作，我決定在招聘網站上爬取一些與資料有關的崗位資訊，藉以給自己將來的職業道路選擇提供參考。

一、原理

通過Python的requests庫，向網站伺服器傳送請求，伺服器返回相關網頁的原始碼，再通過正則表示式等方式在網頁原始碼中提取出我們想要的資訊。

二、網頁分析

2.1崗位詳情url

在智聯招聘網站中搜索'大資料'，跳轉到大資料崗位頁面，接下來我們點開開發者選項，重新整理頁面，在Network面板的XHR中發現了這樣一個數據包:

XHR: XHR為向伺服器傳送請求和解析伺服器響應提供了流暢的介面，能夠以非同步方式從伺服器取得更多資訊，意味著使用者單擊後，可以不必重新整理頁面也能取得新資料

在新的頁面開啟後：

這個頁面裡出現的所有的崗位資訊都在裡面了：崗位名稱、公司名稱、薪水、地區、詳情介面的url都在該json裡。但是這些資訊都不是最重要的，我需要崗位要求以及崗位職責的要求。

將該json解析，得到如下結構的json資料：

code的值為HTTP的響應碼，200表示請求成功。而results陣列則是該頁面崗位資訊的資料。點開第一條資料（results的第一個元素）：

頁面中出現的所有資料，以及相關的超連結都在這兒。其中，我們需要的是指向崗位詳情介面的超連結——'positionURL'。點選該連結，進去該崗位資訊詳情頁面：

好了，我們需要的資訊出現了，不過為了簡化頁面分析的操作，以及儘可能地不被反爬，我決定選擇移動適配的頁面。

再開啟開發者選項，在該崗位詳情頁面，重新整理：

在<meta>中找到'mobile-agent'，提取後面的url——'url=//m.zhaopin.com/jobs/CZ745244850J00020982209/'，開啟：

真清爽！

2.2 Xpath定位

XPath即為XML路徑語言（XML Path Language），它是一種用來確定XML文件中某部分位置的語言

分析該網頁的原始碼，尋找我們所需資訊的位置：

崗位名稱、月薪、公司、地區、學歷、年限資訊都在'//*[@id="r_content"]/div[1]/div/div[1]/div[1]/'下。

title = selector.xpath('//*[@id="r_content"]/div[1]/div/div[1]/div[1]/h1/text()')
pay = selector.xpath('//*[@id="r_content"]/div[1]/div/div[1]/div[1]/div[1]/text()')
place = selector.xpath('//*[@id="r_content"]/div[1]/div/div[1]/div[3]/div[1]/span[1]/text()')
campanyName = selector.xpath('//*[@id="r_content"]/div[1]/div/div[1]/div[2]/text()')
edu = selector.xpath('//*[@id="r_content"]/div[1]/div/div[1]/div[3]/div[1]/span[3]/text()')

崗位要求與崗位職責在同一個<div>標籤裡：

也爬出來：

comment = selector.xpath('//*[@id="r_content"]/div[1]/div/article/div/p/text()')

好了，最複雜的部分搞定。

三、JSON資料包地址

我們將前三頁的資料包地址比對一下就能看出問題：

https://fe-api.zhaopin.com/c/i/sou?pageSize=60&cityId=489&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw=%E5%A4%A7%E6%95%B0%E6%8D%AE&kt=3&_v=0.14571817&x-zp-page-request-id=ce8cbb93b9ad4372b4a9e3330358fe7c-1541763191318-555474
https://fe-api.zhaopin.com/c/i/sou?start=60&pageSize=60&cityId=489&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw=%E5%A4%A7%E6%95%B0%E6%8D%AE&kt=3&_v=0.14571817&x-zp-page-request-id=ce8cbb93b9ad4372b4a9e3330358fe7c-1541763191318-555474
https://fe-api.zhaopin.com/c/i/sou?start=120&pageSize=60&cityId=489&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw=%E5%A4%A7%E6%95%B0%E6%8D%AE&kt=3&_v=0.14571817&x-zp-page-request-id=ce8cbb93b9ad4372b4a9e3330358fe7c-1541763191318-555474
https://fe-api.zhaopin.com/c/i/sou?start=180&pageSize=60&cityId=489&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw=%E5%A4%A7%E6%95%B0%E6%8D%AE&kt=3&_v=0.14571817&x-zp-page-request-id=ce8cbb93b9ad4372b4a9e3330358fe7c-1541763191318-555474

1.我們可以看出第一頁的url結構與後面的url結構有明顯的不同。

2.非首頁的url有明顯的規律性。

3.'kw=*&kt'裡的字元為'大資料'的UTF-8編碼。

所以我們對資料包有如下的操作：

if __name__ == '__main__':
key = '大資料'
url = 'https://fe-api.zhaopin.com/c/i/sou?pageSize=60&cityId=489&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw=' + key + '&kt=3&lastUrlQuery=%7B%22pageSize%22:%2260%22,%22jl%22:%22489%22,%22kw%22:%22%E5%A4%A7%E6%95%B0%E6%8D%AE%22,%22kt%22:%223%22%7D'
infoUrl(url)
urls = ['https://fe-api.zhaopin.com/c/i/sou?start={}&pageSize=60&cityId=489&kw='.format(i*60)+key+'&kt=3&lastUrlQuery=%7B%22p%22:{},%22pageSize%22:%2260%22,%22jl%22:%22489%22,%22kw%22:%22java%22,%22kt%22:%223%22%7D'.format(i) for i in range(1,50)]
for url in urls:
infoUrl(url)

四、原始碼結構

1、擷取整個結果介面的JSON資料包，從中提取出各個招聘欄的url。

2、進入招聘詳細資訊頁面，提取移動端url。

3、進入移動端介面，抓取需要的資訊。

五、原始碼

'''''
智聯招聘——爬蟲原始碼————2018.11
'''
import requests
import re
import time
from lxml import etree
import csv
import random
fp = open('智聯招聘.csv','wt',newline='',encoding='UTF-8')
writer = csv.writer(fp)
'''''地區，公司名，學歷，崗位描述，薪資，福利，釋出時間，工作經驗，連結'''
writer.writerow(('職位','公司','地區','學歷','崗位','薪資','福利','工作經驗','連結'))
def info(url):
res = requests.get(url)
u = re.findall('<meta name="mobile-agent" content="format=html5; url=(.*?)" />', res.text)
if len(u) > 0:
u = u[-1]
else:
return
u = 'http:' + u
headers ={
'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36'
}
res = requests.get(u,headers=headers)
selector = etree.HTML(res.text)
# # 崗位名稱
title = selector.xpath('//*[@id="r_content"]/div[1]/div/div[1]/div[1]/h1/text()')
# # 崗位薪資
pay = selector.xpath('//*[@id="r_content"]/div[1]/div/div[1]/div[1]/div[1]/text()')
# # 工作地點
place = selector.xpath('//*[@id="r_content"]/div[1]/div/div[1]/div[3]/div[1]/span[1]/text()')
# # 公司名稱
companyName = selector.xpath('//*[@id="r_content"]/div[1]/div/div[1]/div[2]/text()')
# # 學歷
edu = selector.xpath('//*[@id="r_content"]/div[1]/div/div[1]/div[3]/div[1]/span[3]/text()')
# # 福利
walfare = selector.xpath('//*[@id="r_content"]/div[1]/div/div[3]/span/text()')
# # 工作經驗
siteUrl = res.url
workEx = selector.xpath('//*[@id="r_content"]/div[1]/div/div[1]/div[3]/div[1]/span[2]/text()')
# # 崗位詳細
comment = selector.xpath('//*[@id="r_content"]/div[1]/div/article/div/p/text()')
writer.writerow((title, companyName, place, edu, comment, pay, walfare, workEx, siteUrl))
print(title, companyName, place, edu, comment, pay, walfare, workEx, siteUrl)
def infoUrl(url):
res = requests.get(url)
selector = res.json()
code = selector['code']
if code == 200:
data = selector['data']['results']
for i in data:
href = i['positionURL']
info(href)
time.sleep(random.randrange(1,4))
if __name__ == '__main__':
key = '大資料'
url = 'https://fe-api.zhaopin.com/c/i/sou?pageSize=60&cityId=489&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw=' + key + '&kt=3&lastUrlQuery=%7B%22pageSize%22:%2260%22,%22jl%22:%22489%22,%22kw%22:%22%E5%A4%A7%E6%95%B0%E6%8D%AE%22,%22kt%22:%223%22%7D'
infoUrl(url)
urls = ['https://fe-api.zhaopin.com/c/i/sou?start={}&pageSize=60&cityId=489&kw='.format(i*60)+key+'&kt=3&lastUrlQuery=%7B%22p%22:{},%22pageSize%22:%2260%22,%22jl%22:%22489%22,%22kw%22:%22java%22,%22kt%22:%223%22%7D'.format(i) for i in range(1,50)]
for url in urls:
infoUrl(url)

Ps.因為某些原因，我打算每個月爬取智聯招聘、51job的崗位資訊一次，原始碼、優化都會以部落格的形式寫出來，歡迎關注~

原始碼地址：智聯招聘_爬蟲原始碼

智聯招聘爬蟲原始碼分析(一)

最近一直在關注秋招，雖然還沒輪到我，不過提前準備總是好的。近期聽聞今年秋招形勢嚴峻，為了更好的準備將來的實習、工作，我決定在招聘網站上爬取一些與資料有關的崗位資訊，藉以給自己將來的職業道路選擇提供參考。一、原理 &n

python爬蟲（一）---智聯招聘實戰

智聯校園招聘資料爬取 1 本次實驗只爬取一頁內容，適合入門學習xpath，excel檔案寫入。 2 url =‘https://xiaoyuan.zhaopin.com/full/538/0_0_160000_1_0_0_0_1_0’ 3 結尾會附上全部程式碼大神請繞過本部落格

Beautiful Soup爬蟲——爬取智聯招聘的資訊並存入資料庫

本人目前在校本科萌新…第一次寫有所不足還請見諒前期準備智聯招聘網頁讓我們來搜尋一下python 發現網頁跳轉到這讓我們看一下原始碼發現並沒有我們所需要的資料一開始我不信邪用requests嘗試了一下 import requests header

爬蟲智聯招聘

1，原理　　通過Python的requests庫，向網站伺服器傳送請求，伺服器返回相關網頁的原始碼，再通過正則表示式等方式在網頁原始碼中提取出我們想要的資訊。 2，網頁分析　　通過對網址分析，kw=投資經理和搜尋欄的收縮內容一樣，sf=2001&a

爬蟲二：爬取智聯招聘職位資訊

1. 簡介因為想要找到一個數據分析的工作，能夠了解到市面上現有的職位招聘資訊也會對找工作有所幫助。今天就來爬取一下智聯招聘上資料分析師的招聘資訊，並存入本地的MySQL。 2. 頁面分析 2.1 找到資料來源開啟智聯招聘首頁，選擇資料分析師職位，跳轉進入資料分析師的詳情頁面。我

(轉)python爬蟲例項——爬取智聯招聘資訊

受友人所託，寫了一個爬取智聯招聘資訊的爬蟲，與大家分享。本文將介紹如何實現該爬蟲。目錄網頁分析網頁的組織結構如下：將網頁程式碼儲存為html檔案（檔案見

python爬蟲例項——爬取智聯招聘資訊

受友人所託，寫了一個爬取智聯招聘資訊的爬蟲，與大家分享。本文將介紹如何實現該爬蟲。目錄網頁分析網頁的組織結構如下：將網頁程式碼儲存為html檔案（檔案見最後連結），使用的軟體是Sublime Text，我們所需的內容如下圖所示：

python爬蟲例項之爬取智聯招聘資料

這是作者的處女作，輕點噴。。。。實習在公司時領導要求學習python，python的爬蟲作為入門來說是十分友好的，話不多說，開始進入正題。主要是爬去智聯的崗位資訊進行對比分析出java和python的趨勢，爬取欄位：工作地點，薪資範圍，要求學歷，

Python爬蟲爬取智聯招聘職位資訊

目的：輸入要爬取的職位名稱，五個意向城市，爬取智聯招聘上的該資訊，並列印進表格中 #coding:utf-8 import urllib2 import re import xlwt class ZLZP(object): def __init__(self

【爬蟲入門】【Json】爬取智聯招聘

爬蟲中也會經常會遇到以JSON資料返回內容的網站，這種網站不再需要使用正則表示式匹配文字，直接分析網站是否含有介面返回JSON，如果有，直接使用json.load()對json字串進行解析就可以獲取資料。 # pip install requests:比較流行的第三方請求庫 #https

智聯招聘VSBOSS直聘VS拉勾競品分析

第一次寫競品分析作為練習和學習，過程比較生疏，本來還想站在功能點二——簡歷方向分析，但是感覺自己的表達方式，把圖片堆疊太過於凌亂，就沒做分析了，下次練習時會考慮到競品分析的可讀性，直觀性來寫。整個競品分析比較淺，缺乏對於頁面互動達到功能點的層級關係和點選步數之類問題的分析

Python爬蟲之五：抓取智聯招聘基礎版

對於每個上班族來說，總要經歷幾次換工作，如何在網上挑到心儀的工作？如何提前為心儀工作的面試做準備？今天我們來抓取智聯招聘的招聘資訊，助你換工作成功！執行平臺： Windows Python版本： Python3.6 IDE： Sublime Te

利用python分析2018智聯招聘全國各個城市的職位數排名

新年快到了,工作了一年你,躺在床上,退下一身的疲怠,是否也曾嚮往去到一個新的城市工作和生活呢? 那中國除了公認的北上廣深工作機會最多以外,還有那些城市也相對不錯呢? 這時候我們可能會開啟招聘網站開始選擇城市然後來了解這個城市的職位情況. 那

requests使用ip代理時單ip和多ip設定方式，智聯招聘小爬蟲封裝

reqeusts庫，在使用ip代理時，單ip代理和多ip代理的寫法不同（目前測試通過，如有錯誤，請評論指正）單ip代理模式省去headers等 import requests proxy = { 'HTTPS': '162.105.30.

python3 爬蟲爬取智聯招聘崗位資訊

這套程式基於python3 ，使用requests和re正則表示式，只需要將程式儲存為.py檔案後，即可將抓取到的資料儲存到指定路徑的Excel檔案中。程式在終端中啟動，啟動命令： #python3 檔名.py 關鍵字城市 python3 zhilian.p

NSQ原始碼分析(一)——nsqd的初始化及啟動流程

nsq原始碼地址：https://github.com/nsqio/nsq 版本1.1.0 NSQ原始碼分析系列是我通過閱讀nsq的原始碼及結合網上的相關文章整理而成，由於在網上沒有找到很詳細和完整的文章，故自己親自整理了一份。如果有錯誤的地方，還請指正，希望這系列的文章給您帶來

CTS 原始碼分析(一) --CTS概況

1、什麼是CTS？ Compatibility Test Suite 相容性測試套件說白了，就是一套工具。一套軟體組成的測試工具。 2、哪裡有這套工具？ &nb

手把手帶你抓取智聯招聘的“資料分析師”崗位！

前言很多網友在後臺跟我留言，是否可以分享一些爬蟲相關的文章，我便提供了我以前寫過的爬蟲文章的連結（如下連結所示），大家如果感興趣的話也可以去看一看哦。在本文中，我將以智聯招聘為例，分享一下如何抓取近5000條的資料分析崗資訊。往期爬蟲連結上海歷史天氣和空氣質量資料獲取（Pyth

Django rest framework 的認證流程(原始碼分析一)

一、基本流程舉例: urlpatterns = [ url(r'^admin/', admin.site.urls), url(r'^users/', views.HostView.as_view()), ] urls

go原始碼分析(一) 通過除錯看go程式初始化過程

參考資料：Go 1.5 原始碼剖析（書籤版）.pdf 編寫go語言test.go package main import ( "fmt" ) func main(){ fmt.Println("Hello World") } 帶除錯的編譯程式碼 go build -

智聯招聘爬蟲原始碼分析(一)

一、原理

二、網頁分析

2.1崗位詳情url

2.2 Xpath定位

三、JSON資料包地址

四、原始碼結構

五、原始碼

相關推薦