python獲取無憂網的招聘資料

阿新 • • 發佈：2018-11-01

工作前的閒聊

又到了家裡催找工作的時候

我的天,就想窩在家多鑽研一下程式都不行的

然後,爬爬51job的招聘資訊吧,主要是不想自己一頁頁去翻,怪麻煩的

作為一個戀家的人,而且自己有臺車子不開怪可惜的,鑑於廣州限行,就暫不考慮,有需要再看看吧

注:以下內容在作者這邊的請求頭中是有cookie值的,但大家如果需要用的話,就請使用自己的cookie值吧,程式碼中就不貼上去了

介面分析

搜尋關鍵字:"python"

工作地區: "江門" + "中山" + "珠海" + "佛山"

https://search.51job.com/list/031500%252C030700%252C030500%252C030600,000000,0000,00,9,99,python,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=

網址是這麼一串東西,

不難看出:

031500就是江門, 030700就是中山, 030500就是珠海, 030600就是佛山

%252C是他們中間的連線符

然後還有後面的python , 以及.html?前的那個數字是頁數

剩下那些引數其實都不太需要,但還是留著吧

頁面爬取

介面基本分析完,先把網頁文字拔下來看看長啥樣

import requests

url = r"https://search.51job.com/list/031500%252C030700%252C030500%252C030600,000000,0000,00,9,99,python,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare="

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}

resp = requests.get(url, headers=headers)

with open("51job.html", "w", encoding="utf-8") as f:
    f.write(resp.content.decode(resp.encoding))

儲存到的html檔案點開看看,然後發現,很多是亂碼,主要還是因為這個response.encoding不太給力,不過沒關係,拿到第一手網頁程式碼,可以到head標籤中的meta標籤中查詢charset屬性,這裡找到是gbk,然後把response.encoding改成"gbk"即可

修改之後再執行一次,走你 !

這就可以了,然後看看拿到的頁面有沒有我們需要的內容

頁面分析

在網頁審查元素可以看到我們想要的是id為resultList的div下的類屬性為el的div

在我們儲存的網頁程式碼中查詢關鍵字,可以看到我們需要的資訊是存在的

資訊等的都十分齊全

解析與提取頁面資料

接下來就是解析,用的是xpath , 初步解析,要求先是取到以下內容

div下的p標籤下的span標籤下的a標籤的href值和文字內容,"職位名稱"(a標籤裡的href連結方便後續爬取職位詳情)

div下的class=t2的span標籤的文字內容,"所屬公司"

div下的class=t3的span標籤的文字內容,"上班地點"

div下的class=t4的span標籤的文字內容,"工資待遇"

div下的class=t5的span標籤的文字內容,"釋出時間"

from lxml import etree
content = resp.content.decode("gbk")

tree = etree.HTML(content)

div_list = tree.xpath('//div[@id="resultList"]/div[@class="el"]')

for div in div_list:
    try:
        position = div.xpath('./p/span/a/text()')[0].strip()
        href = div.xpath('./p/span/a/@href')[0].strip()
        company = div.xpath('./span[@class="t2"]/a/text()')[0].strip()
        city = div.xpath('./span[@class="t3"]/text()')[0].strip()
        treatment = div.xpath('./span[@class="t4"]/text()')[0].strip()
        publish_time = div.xpath('./span[@class="t5"]/text()')[0].strip()
    except:
        continue

資料的儲存

還有什麼格式的文件比類excel文件看起來舒服的呢,所以這裡採用numpy模組對資料進行處理並儲存到本地

import numpy as np

# 這是在for迴圈之前的
arr = np.array(["職位", "連結", "公司", "城市", "待遇", "釋出時間"])

# 這是在for迴圈裡取得資料之後的(try結構外)
    arr_tmp = np.array([position, href, company, city, treatment, publish_time])
    arr = np.vstack((arr, arr_tmp))

# 這是在for迴圈之後的
np.savetxt("work.csv", arr, fmt="%s", delimiter=",")

這是後就能看到目錄下生成了以個csv檔案

開啟檢視,正是我們想要的內容

接下來可以大量地獲取了

正式爬取資料

從網頁可以直觀看到有10頁的資料,所以直接用迴圈取獲取即可

整體程式碼如下

import requests
from lxml import etree
import numpy as np


arr = np.array(["職位", "連結", "公司", "城市", "待遇", "釋出時間"])

url_head = r"https://search.51job.com/list/031500%252C030700%252C030500%252C030600,000000,0000,00,9,99,python,2,"

url_tail = r".html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare="

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}
for page in range(10):
    url = url_head + str(page + 1) + url_tail
    resp = requests.get(url, headers=headers)
    content = resp.content.decode("gbk")
    tree = etree.HTML(content)
    div_list = tree.xpath('//div[@id="resultList"]/div[@class="el"]')
    for div in div_list:
        try:
            position = div.xpath('./p/span/a/text()')[0].strip()
            href = div.xpath('./p/span/a/@href')[0].strip()
            company = div.xpath('./span[@class="t2"]/a/text()')[0].strip()
            city = div.xpath('./span[@class="t3"]/text()')[0].strip()
            treatment = div.xpath('./span[@class="t4"]/text()')[0].strip()
            publish_time = div.xpath('./span[@class="t5"]/text()')[0].strip()
        except:
            continue
        arr_tmp = np.array([position, href, company, city, treatment, publish_time])
        arr = np.vstack((arr, arr_tmp))

np.savetxt("work.csv", arr, fmt="%s", delimiter=",")

爬取完畢之後檢查csv檔案,正式我們想要的內容並且條數是基本接近的(有小部分取不到屬正常情況)

python獲取無憂網的招聘資料

工作前的閒聊又到了家裡催找工作的時候我的天,就想窩在家多鑽研一下程式都不行的然後,爬爬51job的招聘資訊吧,主要是不想自己一頁頁去翻,怪麻煩的作為一個戀家的人,而且自己有臺車子不開怪可惜的,鑑於廣州限行,就暫不考慮,有需要再看看吧注:以下內容在作者這邊的請求頭中是有c

R語言爬取前程無憂網招聘職位

資料的獲取是資料探勘的第一步，如果沒有資料何談資料探勘？有時候在做演算法測試的時候，一個好的資料集也是演算法實驗成功的前提保障。當然我們可以去網上下載大型資料網站整理好的，專業的資料，但是自己動手爬取資料是不是更愜意呢？說到這裡，給大家推薦一些常用的大型資料集： (1)、Mov

一個簡單Python爬蟲例項（爬取的是前程無憂網的部分招聘資訊）

從今天開始學習爬蟲，展示我的第一個例項（用的是Python3寫的，Python2需要加個編碼方式吧，或許還有其他的不相容的地方吧，我就不知道了），把這分享給大家，希望對大家有一些幫助 import urllib,re import urllib.request import xlwt #開啟網頁

風火程式設計--python獲取單隻股票實時資料和歷史資料

獲取股票資料這本來是專門為我的一個單一選股模型提供資料的類, 因此封裝的只是模型中需要的資料. 如有其它需求可以自己擴充套件. 積分多的可以下載檔案, 沒積分的直接複製下面的程式碼是一樣的. 程式碼不復雜, 一看就懂. 歡迎加qq或微信(77245741)共同探討. # cod

爬蟲：用python獲取oanda的歷史利率資料

import time import requests import pandas as pd main_url='https://fx1.oanda.com/mod_perl/user/interestrates.pl?' last_url='currency=AUD&am

Python實習面試之網易資料分析師筆試

可能是我之前複習的有點偏，網易資料分析實習生的筆試題目做起來有些吃力，一共是20個選擇題和3個簡答題，選擇題主要是考察數值分析、概率論、資料結構。其他的內容幾乎沒有涉及。印象比較深的是幾個題是關於均值問題、找零錢問題、還有個鋪地板問題。總體來看主要考察的是概率論。簡答題主要是

拉勾網招聘資料分析

背景大資料概念越來越火爆，很多學生開始學習大資料，社會人士也蠢蠢欲動準備轉行，對這個新興職業充滿期待。在感性背後，我們來理性看待下目前的資料探勘崗位需求，如果您確定要進入資料探勘行業，您要學習哪些知識。本文主要探索的話題為: 資料探勘崗位市場需求量資料

Python 獲取動態載入的頁面資料

這種動態載入的頁面，一般資料會在Network的 JS或者 XHR 類目裡。所以我們要使用開發者工具輔助。一：開啟開發者工具，看這一頁的 XHR裡沒有任何檔案，然後點選“載入更多”按鈕，看它給我們返回什麼資訊。返回了一個新的檔案,右鍵這個檔案，Open i

100%教會爬取全國保險業務員微訊號碼和拉勾網招聘資料

下方兩幅圖是最近爬取某保險網站和拉勾的招聘資料，大家隨意感受一下截圖部分保險業務員微信二維碼截圖部分拉勾網爬取資訊本文主要講爬取某保險網站所有賣保險的人的微訊號，個人網站，所在地區、所屬保險公司等資訊，程式碼已上傳到QQ群（627714866）開發環境：烏班圖、pycharm

關於前程無憂以‘資料分析’為關鍵詞的招聘資訊的資料分析

背景：作為個數據分析小菜鳥，深知知行合一的重要性。基於本人目前要在杭州尋找一份資料分析的初階工作的現實考量，故決定採用前程無憂上關鍵詞‘資料分析’和地點設定在杭州上的招聘資訊作為此次資料分析的資料來源來進行實操，同時也為了能讓自己更好的瞭解目前杭州關於資料分析崗

通過python基於netconf協議獲取網路中網元的配置資料，助力企業網路控制自動化輕鬆實現！

摘要：在當今資訊化時代，大多數企業都需要網路支撐企業的ICT執行，提升企業執行效率，針對企業網路中的網元裝置（包括交換機，路由器，防火牆等），很多企業希望根據自身的業務特點定製網路管理，比如可以實現網路的執行狀態視覺化，網路配置自動化等，如下就以華為的NE40E網元為例，說明如何通過python基於netco

通過python對本局域網進行ARP掃描獲取MAC

org 廣播 proto The 信息 pri pop def arp掃描 #!/usr/local/bin/python3 """ 對本局域網進行ARP掃描 ARP (Address Resolution Protocol,ARP); 以太網MAC地址識別(如下): 主

python 獲取指定資料夾下所以檔案

reportPath =資料夾路徑 listdir=以一個list返回資料夾下所以檔案 dirs = os.listdir(reportPath)print(dirs) def __get_report(self): """獲取最新測試報告""" dirs = os.listdir(repo

python爬天氣網歷史資料

#爬取天氣網氣象資料____聶拉木 from urllib.request import urlopen from bs4 import BeautifulSoup import re import pandas as pd ## 生成爬取網址由於氣象網資料的網站連結地址比較特殊，採用

有哪些網站值得用python爬蟲獲取很有價值的資料

^___^一個程式設計師的淘寶店：點選開啟連結，助你快速學習python技術的一臂之力，不喜歡看廣告的請忽略這條！ 0、IT桔子和36Kr在專欄文章中（http://zhuanlan.zhihu.com/p/20714713），抓取IT橘子和36Kr的各公司的投融資資料

使用python獲取整月每一天的系統監控資料生成報表

1.安裝阿里開源監控工具tsar tsar官方網站 wget -O tsar.zip https://github.com/alibaba/tsar/archive/master.zip --no-check-certificate unzip tsar.zip cd tsar m

不是要我教你怎麼去除馬賽克嗎？Python去馬！看片無憂！

該專案使用深度完全卷積神經網路（deep fully convolutional neural network），參照了英偉達在今年4月前釋出的一篇論文。當然，英偉達原文的目的可不是用來做羞羞的事情，而是為了復原畫面被單色條帶遮擋的問

用Python獲取好看聽書網中的《星期五有鬼》有聲小說

本人Python新手一個，最近迷上了喜馬拉雅FM裡牛大寶的有聲小說，聽說小說《星期五有鬼》比較好聽，就在喜馬拉雅FM裡搜了下，結果發現大寶的《星期五有鬼》下架了，又不想線上聽，就想下載下來聽，結果發現好多網站只能在線聽。無奈經過多方搜尋，在好看聽書網找到了一個可以下載的連結，遂想到了用Py

用python爬取拉勾網招聘資訊並以CSV檔案儲存

爬取拉勾網招聘資訊 1、在網頁原始碼中搜索資訊，並沒有搜到，判斷網頁資訊使用Ajax來實現的 2、檢視網頁中所需的資料資訊，返回的是JSON資料； 3、條件為北京+資料分析師的公司一共40087家，而實際拉勾網展示的資料只有 15條/頁 * 30頁 = 450條，所以需要判斷

python獲取無憂網的招聘資料

工作前的閒聊

介面分析

頁面爬取

頁面分析

解析與提取頁面資料

資料的儲存

正式爬取資料

相關推薦