爬取拉鉤崗位資訊生成圖表和詞雲

阿新 • • 發佈：2018-11-17

1.環境準備

py版本：python3.6.7

需要使用的包列表檔案： requirements.txt

certifi==2018.10.15
chardet==3.0.4
cycler==0.10.0
idna==2.7
jieba==0.39
kiwisolver==1.0.1
matplotlib==3.0.1
numpy==1.15.4
pandas==0.23.4
Pillow==5.3.0
pyparsing==2.3.0
python-dateutil==2.7.5
pytz==2018.7
requests==2.20.1
scipy==1.1.0
six==1.11.0
urllib3 
==1.24.1
wordcloud==1.5.0

製作詞雲的圖片一張：cloud.jpg

建立一個目錄：JobPostion 用來存放爬取的csv檔案格式的資料

用來解決詞雲中的亂碼的字型檔案 Arial Unicode MS.ttf

2.爬取拉勾資料程式碼

#!/usr/bin/python
# -*- coding: utf-8 -*-
# @Time    : 2018/11/16/016 21:44
# @Author  : BenjaminYang
# @FileName: lagou.py
# @Software: PyCharm 

# @Blog    ：http://cnblogs.com/benjamin77

import requests
import math
import time
import pandas as pd

def get_json(url, num):
   '''從網頁獲取JSON,使用POST請求,加上頭部資訊'''
   headers = {
       'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36 
',
       'Host': 'www.lagou.com',
       'Referer':'https://www.lagou.com/jobs/list_python%E5%BC%80%E5%8F%91?labelWords=&;fromSearch=true&suginput=',
       'X-Anit-Forge-Code': '0',
       'X-Anit-Forge-Token': 'None',
      'X-Requested-With': 'XMLHttpRequest'
   }


   data = {
       'first': 'true',
       'pn': num,
       'kd': '運維工程師'}
   res = requests.post(url, headers=headers, data=data)
   res.raise_for_status()
   res.encoding = 'utf-8'
   # 得到包含職位資訊的字典
   page = res.json()
   return page

def get_page_num(count):
    '''通過崗位總數與除以每頁顯示數15，如果超過17頁就顯示17頁，不超過就顯示計算的頁數'''
    res=math.ceil(count/15)
    if res >17:
        return 17
    else:
        return res

def get_page_info(jobs_list):
    page_info_list = []
    for i in jobs_list:
        job_info = []
        job_info.append(i['companyFullName'])        # 公司全名
        job_info.append(i['companyShortName'])       # 公司簡稱
        job_info.append(i['companySize'])             # 公司規模
        job_info.append(i['financeStage'])            # 融資階段
        job_info.append(i['district'])                 # 區域
        job_info.append(i['positionName'])            # 職位名稱
        job_info.append(i['workYear'])                 # 工作經驗
        job_info.append(i['education'])                # 學歷要求
        job_info.append(i['salary'])                   # 工資
        job_info.append(i['positionAdvantage'])       # 職位福利
        page_info_list.append(job_info)
    return page_info_list


if __name__=='__main__':
    url='https://www.lagou.com/jobs/positionAjax.json?city=%E6%9D%AD%E5%B7%9E&needAddtionalResult=false'
    page_one=get_json(url,1)#獲取一頁的json資料
    total_count=page_one['content']['positionResult']['totalCount']#崗位總數
    num=get_page_num(total_count)#當前總頁數
    print('職位總數：{},當前總頁數：{}'.format(total_count,num))
    time.sleep(20)
    print(page_one)

    total_info=[]
    for n in range(1,num+1):#獲取每一頁的json資料
        page =get_json(url,n)
        jobs_list=page_one['content']['positionResult']['result']
        page_info=get_page_info(jobs_list)
        total_info+=page_info
        time.sleep(30)
    df=pd.DataFrame(data=total_info,columns=['公司全名','公司簡稱','公司規模','融資階段','區域','職位名稱','工作經驗','學歷要求','工資','職位福利'])
    df.to_csv('./JobPosition/運維工程師.csv',index=False)
    print('已儲存csv檔案')

執行完會在 JobPostion目錄下生成一個 csv檔案

3.繪圖程式碼

#!/usr/bin/python
# -*- coding: utf-8 -*-
# @Time    : 2018/11/17/017 13:39
# @Author  : BenjaminYang
# @FileName: data_analysis.py
# @Software: PyCharm
# @Blog    ：http://cnblogs.com/benjamin77

import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
from wordcloud import WordCloud
from scipy.misc import imread
import jieba
from pylab import mpl


#設定字型樣式
mpl.rcParams['font.family']='sans-serif'
mpl.rcParams['font.sans-serif']='simhei'

# 1.計算薪資，生成直方圖,25%
def get_salary_chart(df):
    df['salary']=df['工資'].str.findall('\d+')
    avg_salary=[]
    for k in df['salary']:
        int_list=[int(n) for n in k]
        # 10k-16k  正常要工資是 10+16/4=14
        avg_wage=int_list[0]+(int_list[1]-int_list[0])/4
        avg_salary.append(avg_wage)
    df['月工資']=avg_salary
    df.to_csv('draft.csv',index=False)

    print('崗位工資比例: \n{}'.format(df['月工資'].describe()))



    plt.xticks(fontsize=12)
    plt.yticks( fontsize=12)
    plt.xlabel('工資(K)', fontsize=14)
    plt.ylabel('次數', fontsize=14)
    plt.hist(df['月工資'],bins=12)
    plt.title(filename+'薪資直方圖', fontsize=14)
    plt.savefig('histogram.jpg')
    plt.show()

    #餅圖
def get_region_chart():
    count=df['區域'].value_counts()
    print(count)
    plt.pie(count,labels=count.keys(),labeldistance=1.4,autopct='%2.1f%%')
    plt.axis('equal')
    plt.title(filename+'崗位區域分佈圖', fontsize=14 )
    plt.legend(loc='upper left',bbox_to_anchor=(-0.1,1))
    plt.savefig('pie_chart.jpg')
    plt.show()

def get_cloud_chart():
    text = ''
    for line in df['職位福利']:
        text += line

    # 5.1 使用jieba模組將字串分割為單詞列表
    cut_text = ' '.join(jieba.cut(text))  # 字串分詞
    cloud = WordCloud(
        font_path='Arial Unicode MS.ttf',
        background_color='white',  # 背景設定成(white)白色
        mask=imread('./cloud.jpg'),  # 設定背景圖
        max_words=1000,
        max_font_size=100
    )

    word_cloud = cloud.generate(cut_text)
    # 5.2 儲存詞雲圖片
    word_cloud.to_file('word_cloud.jpg')
    plt.imshow(word_cloud)
    plt.axis('off')
    plt.show()

if __name__ == '__main__':
    filename='運維工程師'
    f=open('./JobPosition/'+filename+'.csv',encoding='utf-8')
    df=pd.read_csv(f)
    #get_salary_chart(df)
    #get_region_chart()
    get_cloud_chart()

4.效果展示

4.1draft.csv

4.2直方圖

4.3餅圖

4.4詞雲圖

5.填坑記

在生成詞雲的時候，由於沒有將字型檔案 Arial Unicode MS.ttf 放在當前工作目錄中，導致生成詞雲圖片一致失敗且亂碼。

OSError: cannot open resource

解決方法：將ttf字型檔案放在當前工作目錄即可

matplotlib 畫圖亂碼

UserWarning:
findfont: Font family ['sans-serif'] not found.
Falling back to DejaVu Sans
(prop.get_family(), self.defaultFamily[fontext]))

解決方法，複製一個windows字型目錄下的 Arial Unicode MS.ttf 檔案到matlib的包目錄的ttf目錄下

圈起來的部分根據自己環境更改。

通過命令找到 matplotlib的配置目錄

將這個json檔案刪除，他是一個字型的快取檔案，然後重新run指令碼就會生成新的快取檔案。將剛剛複製過去的字型載入到快取檔案裡。

不刪除快取檔案重新生成的話，就會提示上面的報錯找不到那個字型。

爬取拉鉤崗位資訊生成圖表和詞雲

1.環境準備 py版本：python3.6.7 需要使用的包列表檔案： requirements.txt certifi==2018.10.15 chardet==3.0.4 cycler==0.10.0 idna==2.7 jieba==0.39 kiwisolver==1.0.1

python爬取拉鉤網招聘資訊

拉鉤網網址為：https://www.lagou.com/點選F12進入控制檯觀察結構，發現所有的招聘內容都在此json檔案中：注意headers中的請求url以及請求方法：還有表單資料：獲取以上資訊後，基本就可以開始爬取工作，注意，拉鉤網有反爬機制，所以需要使用cookie

根據搜尋內容爬取拉鉤網和招聘網的職位招聘資訊

程式碼：import requests import time import random ip_list = ['117.135.132.107', '121.8.98.196', '194.116.198.212'] #http請求頭資訊 headers={ 'Ac

用Python爬取拉鉤網招聘職位資訊

本文實現自動爬取拉鉤網招聘資訊，並將爬取結果儲存在本地文字中（也可以將資料存入資料庫）使用到的Python模組包（Python3）： 1.urllib.request 2.urllib.parse 3.json 簡單分析： 1.在向伺服器傳送請求，

爬取拉鉤全站的職位信息

localhost http 一個 pipe mongod 分析信息 maximum 生成爬蟲學習到今天也告一段落了,利用一個項目把自己這幾個月的所學的知識來做一次總結項目所需要的知識比較全面,很適合練手, 一程序目的爬取拉鉤全站的職位信息存入mysql和mo

ruby 爬蟲爬取拉鉤網職位信息，產生詞雲報告

content 數據持久化 lag works wid spa 代碼職位要求思路：1.獲取拉勾網搜索到職位的頁數　　 2.調用接口獲取職位id 　　 3.根據職位id訪問頁面，匹配出關鍵字　　 url訪問采用unirest，由於拉鉤反爬蟲，短時間內頻繁訪問會被

selelinum+PhantomJS 爬取拉鉤網職位

one while 對象 bili exe 5.0 設置 expect money 使用selenium+PhantomJS爬取拉鉤網職位信息，保存在csv文件至本地磁盤拉鉤網的職位頁面，點擊下一頁，職位信息加載，但是瀏覽器的url的不變，說明數據不是發送get請求得到的

CrawlSpider爬取拉鉤

CrawlSpider繼承Spider,提供了強大的爬取規則(Rule)供使用填充custom_settings,瀏覽器中的請求頭 from datetime import datetime import scrapy from scrapy.linkextractors import LinkExt

Python 爬取拉鉤

... from urllib import request from urllib import parse from urllib.error import URLError import json import math import pymongo MONGO_URL='localhost'

python爬取拉鉤網資料

import requests import re#引用正則匹配 from bs4 import BeautifulSoup headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) A

爬取拉勾網資訊，翻頁爬取

import requests #這個庫等價於 urllib 和urllib2 import bs4 #作用是用來解析網頁的 import json#主要是一種資料交換格式 import time de

簡單python爬蟲爬取拉鉤網

因為個人需求，爬取了拉鉤網資料探勘相關職位的資料首先先進入到拉鉤的首頁，搜尋資料探勘，得到相關職位的列表，按F12，檢視網路檢視html，可以看到職位列表並不在html所以肯定是通過XHR非同步載入的，再切換到XHR，可以找到4個，點開檢視，可以看到在一個請求中有我們需要的資

Scrapy爬取拉鉤網的爬蟲（爬取整站CrawlSpider）

經過我的測試，拉鉤網是一個不能直接進行爬取的網站，由於我的上一個網站是扒的介面，所以這次我使用的是scrapy的整站爬取，貼上當時的程式碼（程式碼是我買的視訊裡面的，但是當時是不需要登陸就可以爬取的）： class LagouSpider(CrawlSpider):

爬取簡書網30日熱門得到詞雲

這幾天在看《從零開始學python網路爬蟲》，裡面有一章是爬取簡書網7天熱門，不過我在開啟簡述網七天熱門的時候發現壓根就只有一頁（可能連一頁都不到。。。），之後感覺不夠難度就改而選擇爬取30天熱門。 1.連結分析首先，簡書網30天熱門的第一個連結是：https://www.jianshu.

爬取簡書網30日熱門得到詞雲續

前面所使用的jieba分詞中，是自行收集一些不重要的詞進行過濾的，效率不是很高，並且帶有比較大的主觀性（算是優點，也算是缺點）。本次則改為使用中文停用詞表來過濾一些詞語。程式碼相對於上一節來說變化的主要是analysis.py 中的analysis函式。程式碼大致如下： import

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

前言對於爬蟲很不陌生，而爬蟲最為經典的案例就是爬取豆瓣上面的電影資料了，今天小編就介紹一下如果爬取豆瓣上面電影影評，以《我不是藥神》為例。基本環境配置版本：Python3.6 系統：Windows 本人對於Python學習建立了一個小小的學習圈子，為各位提供了

用python爬取拉勾網招聘資訊並以CSV檔案儲存

爬取拉勾網招聘資訊 1、在網頁原始碼中搜索資訊，並沒有搜到，判斷網頁資訊使用Ajax來實現的 2、檢視網頁中所需的資料資訊，返回的是JSON資料； 3、條件為北京+資料分析師的公司一共40087家，而實際拉勾網展示的資料只有 15條/頁 * 30頁 = 450條，所以需要判斷

HttpClient爬取拉勾網招聘資訊

1.匯入jar包 <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>htt

Python爬蟲：爬取拉勾網資料分析崗位資料

1 JSON介紹 JSON（JavaScript Object Notation）已經成為通過HTTP請求在Web瀏覽器和其他應用程式之間傳送資料的標準格式之一。比CSV格式更加靈活。Json資料格式，非常接近於有效的Pyhton程式碼，其特點是：JSON物件所

Python爬取拉勾網招聘資訊存入資料庫

先抓包分析我們想要獲取的資料，很明顯都是動態資料，所以直接到Network下的XHR裡去找，這裡我們找到具體資料後，就要去尋分析求地址與請求資訊了。還有需要提交的表單資訊分析完畢之後，我們就可以開始寫我們的爬蟲專案了。一.編寫Itemitem編寫比較簡單# 拉鉤職位資訊 cl

爬取拉鉤崗位資訊生成圖表和詞雲

1.環境準備

2.爬取拉勾資料程式碼

3.繪圖程式碼

4.效果展示

4.1draft.csv

4.2直方圖

4.3餅圖

4.4詞雲圖

5.填坑記

相關推薦