【ML專案】基於網路爬蟲和資料探勘演算法的web招聘資料分析（一）——資料獲取與處理

阿新 • • 發佈：2019-02-01

前言

這個專案是在學校做的，主要是想對各大招聘網站的招聘資料進行分析，沒準能從中發現什麼，這個專案週期有些長，以至於在專案快要結束時發現網上已經有了一些相關的專案，我後續會把相關的專案材料放在我的GitHub上面，連結為：https://github.com/roguesir ，專案主要分為以下幾項：資料獲取與處理、探索性資料分析、資料探勘演算法建模等，這篇blog先介紹資料獲取與處理。

資料獲取

系統環境

Mac OS系統，python3.6

網站分析

各個招聘網站的結構不同，進行正則匹配的方式也不同，本專案供爬取了前程無憂、智聯招聘、拉勾網等多家招聘網站的web資料，以51job為例進行介紹：
前程無憂的招聘頁面如下圖所示，專案最終想要得到的資料包括崗位名稱、工作地點、薪資待遇、崗位介紹、公司性質等資訊，實際上需要兩次爬取頁面，第一次爬取搜尋頁面獲得URL，第二次通過URL爬取相關資訊。第一次使用Python的urllib和requests庫實現，第二次使用Python的BeautifulSoup庫實現。
這裡寫圖片描述

崗位詳情介紹

爬蟲編寫

起初的爬蟲程式碼設定如下

# -*- coding:utf-8 -*-
from bs4 import BeautifulSoup
import sys
import importlib
importlib.reload(sys)

def get_html_page(lst,html):
    res = requests.get(html)
    res.encoding = 'gbk'
    soup = BeautifulSoup(res.text, 'html.parser')
    for job in soup.select('.tHjob' 
):
        position = job.select('h1')[0]['title']
        print(position)
        lst.append(position)
        location = job.select('.lname')[0].text
        lst.append(location)
        salary = job.select('strong')[0].text
        lst.append(salary)
        companyname = job.select('a')[0]['title']
        if 
 len(companyname) > 0:
            lst.append(companyname)
        property = job.select('.ltype')[0].text
        lst.append(property)
    for comp in soup.select('.tCompany_main'):
        experience = comp.select('.sp4')[0].text
        lst.append(experience)
        education = comp.select('.sp4')[1].text
        lst.append(education)
        number = comp.select('.sp4')[2].text
        lst.append(number)
        introduce = comp.select('.tmsg')[0].text
        lst.append(introduce)
    return lst

def write_txt(content):
    with open('raw-cs-info1.txt','a') as f:
        for item in content:
            f.write(item+'\n')

def main():
    print('running main')
    for url in open('web-mis-url1-1.txt'):
        print(url)
        lst = []
        content = get_html_page(lst, url)
        write_txt(content)
    print('Finished!')

main()

後來發現對於個別網頁，這樣跑會掛掉，有的匹配不成功就會出問題，於是將程式碼做了修改：

try:
    for job in soup.select('.tHjob'):
        position = job.select('h1')[0]['title']
        print(position)
        if len(position)<1:   
            lst.append(discribe[0])
        else:
            lst.append('null')
except:
    lst.append('null')

上面的程式碼實現了對出現問題的匹配進行異常捕獲，出現異常的匹配直接在文字中寫入null，而不會中斷程式，對每個屬性進行設定，最終只需要對文字中的null進行處理就OK了。

資料處理

基本預處理

爬蟲爬下來的資料基本上還算乾淨，只有個別的匹配出現失誤，這可能由於網站html標籤不規則導致，這個問題在爬取前程無憂時候出現了，在智聯招聘等網站沒有出現。

# coding=utf-8
import re

with open('new098.txt','a') as f:
    for line in open('cs-job-discribe.txt'):
        new_line = line.replace('<br>','')
        new_line = re.sub(r'<.+>','',line)
        new_line = re.sub(r'[0-9][0-9]\-[0-9][0-9].+','',new_line)
        f.write(new_line)
        '''
        if len(new_line)==1:
            new_line = re.sub(r'\s',',',new_line)  # 將樣本中的\空格\t\v\n\f等用','替換
        f.write(new_line)
        '''

網頁html中本身帶有的\空格\v\f\t\n等，寫入文件會顯示，因此需要進行預處理，把爬取下來的資料規範化。

資料重複問題：

由於專案是從不同的招聘網站上爬取資料，存在同一條招聘資訊出現多次的情況，需要進行去重處理，另外，全部資訊儲存在cs-info.xlsx檔案中，另將每個屬性的資料儲存在txt檔案中，其中存在大量重複資料需要進行去重處理。

總結

在此過程中出現的一些問題進行說明：
（1）編碼問題：在設定了utf-8編碼的情況下，爬取儲存的資料仍然會出現亂碼現象，需要設定html.decode=’gbk’才能解決。
（2）使用時也嘗試了用requests和urllib庫實現匹配提取，這個用在崗位描述資訊匹配上比較好，程式碼如下：

import re
import requests
import urllib

res = requests.get(html)
res.encoding = 'gbk'
try:
    a = urllib.urlopen(html) 
    html = a.read()
    html = html.decode('gbk')

    reg = re.compile(r'<div class="bmsg job_msg inbox.*?<br>(.*?)<div class="mt10">',re.S)
    discribe = re.findall(reg,html)
    print discribe[0]
    # print(discribe)
    lst.append(discribe[0])
except:
    lst.append('null')

【ML專案】基於網路爬蟲和資料探勘演算法的web招聘資料分析（一）——資料獲取與處理

前言這個專案是在學校做的，主要是想對各大招聘網站的招聘資料進行分析，沒準能從中發現什麼，這個專案週期有些長，以至於在專案快要結束時發現網上已經有了一些相關的專案，我後續會把相關的專案材料放在我的GitHub上面，連結為：https://github.com/

專案實戰——基於計算機視覺的物體位姿定位及機械臂矯正（一）

專案實戰——基於計算機視覺的物體位姿定位及機械臂矯正（一）思路經過這幾天的資料查詢，我逐步有了思路，現整理如下：抓取物品定為牛奶盒，主要優勢在於，質量輕、體積小、稜角分明，便於識別抓取；工作環境設定在傳送帶上，人工隨機將牛奶盒以不同方向隨機放入；在攝

【Oracle 叢集】ORACLE DATABASE 11G RAC 知識圖文詳細教程之叢集概念介紹（一）

白寧超 2015年7月16日概述：寫下本文件的初衷和動力，來源於上篇的《oracle基本操作手冊》。oracle基本操作手冊是作者研一假期對oracle基礎知識學習的彙總。然後形成體系的總結，一則進行回顧複習，另則便於查詢使用。本圖文文件亦源於此。閱讀Oracle RAC安裝與使用教程前，筆者先

【個人專案】基於scrapy-redis的股票分散式爬蟲實現及其股票預測演算法研究

前言都說做計算機的，專案實踐是最能帶給人成長的。之前學習了很多的大資料和AI的知識，但是從來沒有自己做過一個既包含大資料又包含AI的專案。後來就決定做了個大資料+AI的分散式爬蟲系統。下面筆者會講述整個專案的架構，以及所用到技術點的些許介紹。專案介紹這個專

【Python專案】基於文字情感分析的電商評論重排序（以京東為例）（附程式碼）

一、背景隨著網際網路的普及，網路購物已經成了人們購物的首選。使用者只需在電商平臺搜尋商品名，便可得到成百上千條商品資訊。商品資訊的排序演算法很複雜，但總的說來基本上都是根據與搜尋關鍵詞的關聯度和商品的人氣或商家排名來排序最終對使用者進行展示的。而好評率即是排

【數字影象】C++8位和24位BMP點陣圖的平滑、銳化、二值化處理，以及24位真彩圖的灰度化

BMP標頭檔案： #ifndef BMP_H//前處理器 #define BMP_H typedef unsigned char BYTE; typedef unsigned short WORD; typedef unsigned int DWORD; typedef

【Android 網路資料解析實現一個簡單的新聞例項（一）】

一般安卓在學到非同步任務AsyncTask之後都會有個安卓小專案的任務。得到（荔枝新聞，茶百科等）新聞網路介面來解析網路圖片或文字到ListView元件上顯示。其中要使用到的知識大概有：獲取網路資料（HttpUtil），解析網路資料（NewsParse），防止因

【轉】OpenLayers專案分析（五）資料解析以GML為例

前面也提到過，OpenLayers設計是符合標準的，有良好的框架結構和實現機制，非常值得學習。OpenLayers支援的格式比較多，有XML、GML、GeoJSON、GeoRSS、JSON、KML、WFS等。這回主要以GML為例來看OpenLayers 資料的解析過程。　　

【xingorg1-ui】基於vue3.0從0-1搭建元件庫（一）環境配置與目錄規劃

npm地址 github原始碼開篇-環境配置環境配置：使用vue-cli搭建專案框架，需要用vue3的話，得先把vue-cli的版本升級到vue-cli@5以上 npm install -g @vue/cli 官網相關說明：配置預選項：後來後悔自己加上Lin

【Java】【Flume】Flume-NG啟動過程源代碼分析（一）

code extends fix tar top 依據 oid article gif 從bin/flume 這個shell腳本能夠看到Flume的起始於org.apache.flume.node.Application類，這是flume的main函數所在。　　m

【雷電】源代碼分析（一）-- 進入遊戲開始界面

模式 show 源代碼下載 popu 按鍵事件 file fcm md5 顯示轉載請註明出處：http://blog.csdn.net/oyangyufu/article/details/24941949 源代碼下載：http://download.csdn.n

【彩彩只能變身隊】用戶需求分析（一）—— 調查問卷

ali avi 麻煩求學 tiff 提交在線課程作業調查 3月8日的課堂上各組進行了初步的課題宣講，我們及時地得到了老師和同學們的反饋和建議，在此基礎上我們認真思考了我們的課題涉及的各種問題，以老師為對象設計了我們的調查問卷。問卷的連接：https://www

【彩彩只能變身隊】用戶需求分析（一）—— 調查結果

ket 中國技術分享文件 RKE 網站設計軟件期待功能目錄　　1. 引言　　1.1. 編寫目的　　　　1.2.項目背景　　　　1.3. 項目範圍　　　　　　2.用戶需求分析　　　　2.1. 調查問卷(User Survey) 　　　

【藍橋杯】第六屆國賽C語言B組 2.完美正方形（dfs）

spa else img IT bool break main LG fill 如果一些邊長互不相同的正方形，可以恰好拼出一個更大的正方形，則稱其為完美正方形。歷史上，人們花了很久才找到了若幹完美正方形。比如：如下邊長的22個正方形2 3 4 6 7 8 12 13 14

【Network Architecture】Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning（轉） Feature Extractor[Inception v4]

文章來源： https://www.cnblogs.com/shouhuxianjian/p/7786760.html Feature Extractor[Inception v4] 0. 背景隨著何凱明等人提出的ResNet v1，google這邊坐

【ML專案】基於網路爬蟲和資料探勘演算法的web招聘資料分析（一）——資料獲取與處理

前言

資料獲取

系統環境

網站分析

爬蟲編寫

資料處理

基本預處理

資料重複問題：

總結

【ML專案】基於網路爬蟲和資料探勘演算法的web招聘資料分析（一）——資料獲取與處理

專案實戰——基於計算機視覺的物體位姿定位及機械臂矯正（一）

【Oracle 叢集】ORACLE DATABASE 11G RAC 知識圖文詳細教程之叢集概念介紹（一）

【個人專案】基於scrapy-redis的股票分散式爬蟲實現及其股票預測演算法研究

【Python專案】基於文字情感分析的電商評論重排序（以京東為例）（附程式碼）

【數字影象】C++8位和24位BMP點陣圖的平滑、銳化、二值化處理，以及24位真彩圖的灰度化

【Android 網路資料解析實現一個簡單的新聞例項（一）】

【轉】OpenLayers專案分析（五）資料解析以GML為例

【xingorg1-ui】基於vue3.0從0-1搭建元件庫（一）環境配置與目錄規劃

【Java】【Flume】Flume-NG啟動過程源代碼分析（一）

【雷電】源代碼分析（一）-- 進入遊戲開始界面

【彩彩只能變身隊】用戶需求分析（一）—— 調查問卷

【彩彩只能變身隊】用戶需求分析（一）—— 調查結果

【藍橋杯】第六屆國賽C語言B組 2.完美正方形（dfs）

【Network Architecture】Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning（轉） Feature Extractor[Inception v4]

【十大經典資料探勘演算法】EM

【機器學習】資料探勘演算法——關聯規則（一），相關概念，評價指標

【機器學習】資料探勘演算法——關聯規則（二），挖掘過程，Aprioir演算法

【安卓本卓】Android系統原始碼篇之（一）原始碼獲取、原始碼目錄結構及原始碼閱讀工具簡介

【原創】java-NIO（一）阻塞IO與非阻塞IO--轉載請註明出處

【ML專案】基於網路爬蟲和資料探勘演算法的web招聘資料分析（一）——資料獲取與處理

前言

資料獲取

系統環境

網站分析

爬蟲編寫

資料處理

基本預處理

資料重複問題：

總結

相關推薦