Python拉勾網資料採集與視覺化

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

Python中文社群

Python中文開發者的

精神部落

640?wx_fmt=jpeg

全文簡介

本文是先採集拉勾網上面的資料，採集的是Python崗位的資料，然後用Python進行視覺化。主要涉及的是爬蟲&資料視覺化的知識。

爬蟲部分

先用Python來抓取拉勾網上面的資料，採用的是簡單好用的requests模組。主要注意的地方是，拉勾網屬於動態網頁，所以會用到瀏覽器的F12開發者工具進行抓包。抓包以後會發現，其實網頁是一個POST的形式，所以要提交資料，提交的資料如下圖：

640?wx_fmt=jpeg

真實網址是：

https://www.lagou.com/jobs/positionAjax.jsonneedAddtionalResult=false&isSchoolJob=0

在上圖也可以輕鬆發現：kd是查詢關鍵詞，pn是頁數，可以實現翻頁。

程式碼實現

import requests # 網路請求
import re
import time
import random
# post的網址
url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&isSchoolJob=0'
# 反爬措施
header = {'Host': 'www.lagou.com',
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36'

,
'Accept': 'application/json, text/javascript, */*; q=0.01',
'Accept-Language': 'zh-CN,en-US;q=0.7,en;q=0.3',
'Accept-Encoding': 'gzip, deflate, br',
'Referer': 'https://www.lagou.com/jobs/list_Python?labelWords=&fromSearch=true&suginput=',
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
'X-Requested-With': 'XMLHttpRequest',
'X-Anit-Forge-Token': 'None',
'X-Anit-Forge-Code': '0',
'Content-Length': '26',
'Cookie': 'user_trace_token=20171103191801-9206e24f-9ca2-40ab-95a3-23947c0b972a; _ga=GA1.2.545192972.1509707889; LGUID=20171103191805-a9838dac-c088-11e7-9704-5254005c3644; JSESSIONID=ABAAABAACDBABJB2EE720304E451B2CEFA1723CE83F19CC; _gat=1; LGSID=20171228225143-9edb51dd-ebde-11e7-b670-525400f775ce; PRE_UTM=; PRE_HOST=www.baidu.com; PRE_SITE=https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DKkJPgBHAnny1nUKaLpx2oDfUXv9ItIF3kBAWM2-fDNu%26ck%3D3065.1.126.376.140.374.139.129%26shh%3Dwww.baidu.com%26sht%3Dmonline_3_dg%26wd%3D%26eqid%3Db0ec59d100013c7f000000055a4504f6; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2F; LGRID=20171228225224-b6cc7abd-ebde-11e7-9f67-5254005c3644; index_location_city=%E5%85%A8%E5%9B%BD; TG-TRACK-CODE=index_search; SEARCH_ID=3ec21cea985a4a5fa2ab279d868560c8',
'Connection': 'keep-alive',
'Pragma': 'no-cache',
'Cache-Control': 'no-cache'}
for n in range(30):
# 要提交的資料
form = {'first':'false',
'kd':'Python',
'pn':str(n)}
time.sleep(random.randint(2,5))
# 提交資料
html = requests.post(url,data=form,headers = header)
# 提取資料
data = re.findall('{"companyId":.*?,"positionName":"(.*?)","workYear":"(.*?)","education":"(.*?)","jobNature":"(.*?)","financeStage":"(.*?)","companyLogo":".*?","industryField":".*?","city":"(.*?)","salary":"(.*?)","positionId":.*?,"positionAdvantage":"(.*?)","companyShortName":"(.*?)","district"',html.text)
# 轉換成資料框
data = pd.DataFrame(data)
# 儲存在本地
data.to_csv(r'D:\Windows 7 Documents\Desktop\My\LaGouDataMatlab.csv',header = False, index = False, mode = 'a+')

注意：抓取資料的時候不要爬取太快，除非你有其他的反爬措施，比如更換IP等，另外不需登入，我在程式碼加入了time模組，用於限制爬取速度。

資料視覺化

下載下來的資料長成這個樣子：

640?wx_fmt=jpeg

注意標題（也就是列明）是我自己新增的。

匯入模組並配置繪圖風格

import pandas as pd # 資料框操作
import numpy as np
import matplotlib.pyplot as plt # 繪圖
import jieba # 分詞
from wordcloud importWordCloud# 詞雲視覺化
import matplotlib as mpl # 配置字型
from pyecharts importGeo# 地理圖
mpl.rcParams["font.sans-serif"] = ["Microsoft YaHei"]
# 配置繪圖風格
plt.rcParams["axes.labelsize"] = 16.
plt.rcParams["xtick.labelsize"] = 14.
plt.rcParams["ytick.labelsize"] = 14.
plt.rcParams["legend.fontsize"] = 12.
plt.rcParams["figure.figsize"] = [15., 15.]

注意：匯入模組的時候其他都容易解決，除了wordcloud這個模組，這個模組我建議大家手動安裝，如果pip安裝的話，會提示你缺少C++14.0之類的錯誤，導致安裝不上。手動下載whl檔案就可以順利安裝了。

資料預覽

# 匯入資料
data = pd.read_csv('D:\\Windows 7 Documents\\Desktop\\My\\LaGouDataPython.csv',encoding='gbk') # 匯入資料
data.head()

640?wx_fmt=jpeg

read_csv路徑不要帶有中文

data.tail()

640?wx_fmt=jpeg

學歷要求

data['學歷要求'].value_counts().plot(kind='barh',rot=0)
plt.show()

640?wx_fmt=jpeg

工作經驗

data['工作經驗'].value_counts().plot(kind='bar',rot=0,color='b')
plt.show()

640?wx_fmt=jpeg

Python熱門崗位

final = ''
stopwords = ['PYTHON','python','Python','工程師','（','）','/'] # 停止詞
for n in range(data.shape[0]):
seg_list = list(jieba.cut(data['崗位職稱'][n]))
for seg in seg_list:
if seg notin stopwords:
final = final + seg + ' '
# final 得到的詞彙

640?wx_fmt=jpeg

工作地點

data['工作地點'].value_counts().plot(kind='pie',autopct='%1.2f%%',explode = np.linspace(0,1.5,25))
plt.show()

640?wx_fmt=jpeg

工作地理圖

# 提取資料框
data2 = list(map(lambda x:(data['工作地點'][x],eval(re.split('k|K',data['工資'][x])[0])*1000),range(len(data))))
# 提取價格資訊
data3 = pd.DataFrame(data2)
# 轉化成Geo需要的格式
data4 = list(map(lambda x:(data3.groupby(0).mean()[1].index[x],data3.groupby(0).mean()[1].values[x]),range(len(data3.groupby(0)))))
# 地理位置展示
geo = Geo("全國Python工資佈局", "製作人:挖掘機小王子", title_color="#fff", title_pos="left", width=1200, height=600,
background_color='#404a59')
attr, value = geo.cast(data4)
geo.add("", attr, value, type="heatmap", is_visualmap=True, visual_range=[0, 300], visual_text_color='#fff')
# 中國地圖Python工資，此分佈是最低薪資
geo

640?wx_fmt=jpeg

本文作者

❈

挖掘機小王子，資料分析愛好者。

部落格：zhihu.com/people/WaJueJiPrince

❈

Python拉勾網資料採集與視覺化

Python拉勾網資料採集與視覺化

拉鉤網資料分析與視覺化

python爬取拉勾網資料並進行資料視覺化

Python爬蟲：爬取拉勾網資料分析崗位資料

python爬取拉勾網資料儲存到mysql資料庫

Python爬取拉勾網資料(破解反爬蟲機制)

7.1 python拉勾網實戰並儲存到mongodb

python3 利用requests爬取拉勾網資料

angularjs仿拉勾網webapp總結與記錄

Python+pandas+matplotlib資料分析與視覺化案例（附原始碼）

Python高階資料處理與視覺化

python抓取網頁資料處理後視覺化

3-6 用 Pandas 進行資料預處理：資料清洗與視覺化（版本：py3）

智聯Python相關職位的資料分析及視覺化-Pandas&Matplotlib篇 python

Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記 4 —— 資料探索與視覺化、發現規律

探索性資料分析與視覺化

讀取CSV檔案進行簡單的資料處理與視覺化分析

python資料分析新手入門課程學習——（二）探索分析與視覺化（來源：慕課網）

詳解如何pyhton批量採集拉勾網java招聘資訊資料

python爬取拉勾網網際網路大資料職業情況

Python拉勾網資料採集與視覺化

相關推薦