【爬蟲相關】爬蟲爬取拉勾網的安卓招聘資訊

阿新 • • 發佈：2019-01-10

我爬取了30頁拉勾上安卓的招聘資料告訴你安卓崗位究竟要一個什麼樣的人

我知道沒圖你們是不會看的

如圖：以上是抓取了30頁拉勾上關於招聘安卓相關的內容然後根據詞頻製作出詞雲圖 出現最多的詞是開發經驗

整體流程總共分為2步

1.爬蟲爬取相關的招聘資訊

2.根據獲取到的招聘資訊生成詞雲圖

這裡的爬蟲採用的是scrapy框架編輯器使用的是PyCharm，本次不是針對零基礎，如果對爬蟲感興趣推薦大家看這本我就是看的這本書

先對拉勾網的資料進行分析發現其中連結的規律：

變化的是2 也就是頁數

隨便點進去一個條目又發現了這樣的規律

找到規律後核心程式碼也就是2個正則表示式：

class LagouspiderSpider(scrapy.Spider):
    name = 'lagouspider'
    allowed_domains = ['www.lagou.com']
    start_urls = ['http://www.lagou.com/']

    def start_requests(self):
        for i in range(2,30):
            yield scrapy.Request(url='https://www.lagou.com/zhaopin/Android/'+str(i)+'/?filterOption=3')

    def parse(self, response):
        string = str(response.body)
        # print string
        pattern=r'https://www.lagou.com/jobs.\d*?.html'
        result=re.findall(pattern=pattern,string=string)
        for url in result:
            print url
            yield scrapy.Request(url=url,callback=self.parse_info)

    def parse_info(self,response):
        strZhiwei=response.css('.job_bt div').extract()[0]
        strZhiwei=strZhiwei.encode('utf-8')

        if os.path.exists('lagou.txt'):
            f=open('lagou.txt','ab')
            f.write(strZhiwei)
            f.close()
        else:
            f=open('lagou.txt','wb')
            f.write(strZhiwei)
            f.close()

然後把獲取到的資訊儲存到本地格式是txt格式

然後下載第三方詞雲的庫生成詞雲圖的核心程式碼

# -*- coding: utf-8 -*-
from os import path
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import jieba
import re
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator

d = path.dirname(__file__)

# Read the whole text.
text = open(path.join(d, 'lagou.txt')).read().decode('utf-8')
# read the mask / color image taken from
# hp://jirkavinse.deviantart.com/art/quot-Real-Life-quot-Alice-282261010
alice_coloring = np.array(Image.open(path.join(d, "a.png")))
stopwords = set(STOPWORDS)
stopwords.add("said")
# wc = WordCloud(font_path=font,background_color="white", max_words=2000, mask=alice_coloring,
#                stopwords=stopwords, max_font_size=40, random_state=42, )
# generate word cloud
wc = WordCloud(
                background_color = 'white',    # 設定背景顏色
                mask = alice_coloring,        # 設定背景圖片
                max_words = 7000,            # 設定最大顯示的字數
                font_path = 'AdobeHeitiStd-Regular.otf',# 設定字型格式，如不設定顯示不了中文 

                max_font_size = 95,            # 設定字型最大值
                random_state = 100,            # 設定有多少種隨機生成狀態，即有多少種配色方案
                )

def stop_words(texts):
    words_list = []
    words_list = jieba.cut(texts, cut_all=False)  # 返回的是一個迭代器

    return ' '.join(words_list)  # 注意是空格


text = stop_words(text)


wc.generate(text)

# create coloring from image
image_colors = ImageColorGenerator(alice_coloring)

# show
plt.imshow(wc, interpolation="bilinear")
plt.axis("off")
plt.figure()
# recolor wordcloud and show
# we could also give color_func=image_colors directly in the constructor
plt.imshow(wc.recolor(color_func=image_colors), interpolation="bilinear")
plt.axis("off")
plt.figure()
plt.imshow(alice_coloring, cmap=plt.cm.gray, interpolation="bilinear")
plt.axis("off")
plt.show()
wc.to_file("zq——zjl.jpg")

當然同樣找規律更改相關的連結可以爬取其他崗位的招聘資訊，或者重寫正則表示式獲取其他自己需要的內容

注意：如果請求的次數過多拉勾會有反爬蟲的相關措施，比如封禁ip

解決方案會在下次更新

程式碼下載連結

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（1）

5-14更新注意：目前拉勾網換了json結構，之前是content - result 現在改成了content- positionResult - result,所以大家寫程式碼的時候要特別注意加上

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（2）

上次挖了一個坑，今天終於填上了，還記得之前我們做的拉勾爬蟲嗎？那時我們實現了一頁的爬取，今天讓我們再接再厲，實現多頁爬取，順便實現職位和公司的關鍵詞搜尋功能。之前的內容就不再介紹了，不熟悉的請一定要去看之前的文章，程式碼是在之前的基礎上修改的

【爬蟲相關】爬蟲爬取拉勾網的安卓招聘資訊

我爬取了30頁拉勾上安卓的招聘資料告訴你安卓崗位究竟要一個什麼樣的人我知道沒圖你們是不會看的如圖：以上是抓取了30頁拉勾上關於招聘安卓相關的內容然後根據詞頻製作出詞雲圖出現最多的詞是開發經驗整體流程總共分為2步 1.爬蟲爬取相關的招聘資訊 2.根

Python爬蟲：爬取拉勾網資料分析崗位資料

1 JSON介紹 JSON（JavaScript Object Notation）已經成為通過HTTP請求在Web瀏覽器和其他應用程式之間傳送資料的標準格式之一。比CSV格式更加靈活。Json資料格式，非常接近於有效的Pyhton程式碼，其特點是：JSON物件所

Python 爬蟲入門-爬取拉勾網實戰

這幾天學習了 python 爬蟲的入門知識，也遇到很多坑，開個貼記錄一下基本原理 Python 爬蟲基本要具備以下功能：（參考此回答）向伺服器傳送請求，伺服器響應你的請求。（你可能需要了解：網頁的基本知識）從抓取到的網頁中提取出需要

Python 爬蟲-模擬登入知乎-爬取拉勾網職位資訊

用Python寫爬蟲是很方便的,最近看了xlzd.me的文章，他的文章寫的很到位，提供了很好的思路。因為他的文章部分程式碼省略了。下面是基於他的文章的三個程式碼片段: 基於Python3,Python2的話需要修改下input輸入函式和print的用法。爬取豆瓣電影top250 爬取拉勾網職位資訊模擬

Python爬取拉勾網資料(破解反爬蟲機制)

人生苦短, 我學 Python! 這篇文章主要記錄一下我學習 Python 爬蟲的一個小例子, 是爬取的拉勾網的資料. 1.準備配置 Python 環境什麼的就不說了, 網上教程很多, 自行解決. 2.扒原始碼先開啟拉勾網的網頁. 我們要爬取這部分的資料

python爬蟲: 爬取拉勾網職位並分析

0. 前言本文從拉勾網爬取深圳市資料分析的職位資訊，並以CSV格式儲存至電腦, 之後進行資料清洗, 生成詞雲，進行描述統計和迴歸分析,最終得出結論. 1. 用到的軟體包 Python版本： Python3.6 requests: 下載網

Python爬蟲基礎教程，手把手教你爬取拉勾網！

一、思路分析：在之前寫拉勾網的爬蟲的時候，總是得到下面這個結果（真是頭疼），當你看到下面這個結果的時候，也就意味著被反爬了，因為

用python爬取拉勾網招聘資訊並以CSV檔案儲存

爬取拉勾網招聘資訊 1、在網頁原始碼中搜索資訊，並沒有搜到，判斷網頁資訊使用Ajax來實現的 2、檢視網頁中所需的資料資訊，返回的是JSON資料； 3、條件為北京+資料分析師的公司一共40087家，而實際拉勾網展示的資料只有 15條/頁 * 30頁 = 450條，所以需要判斷

HttpClient爬取拉勾網招聘資訊

1.匯入jar包 <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>htt

python爬取拉勾網之selenium

重點程式碼解釋： 1.呼叫lxml的etree實現xpath方法呼叫，xpath相對正則比較簡單，可以不在使用Beauitfulsoup定位 from lxml import etree 2.介面的可視話與否，對於你的執行資源只能用減少 opt=webdri

python爬取拉勾網網際網路大資料職業情況

爬取拉勾網資訊資料處理製圖所需知識只有一點點（畢竟是個小白）： requests基礎部分 json pyecharts wordcloud 接下來開始敲程式碼了，程式碼分成了3個部分：爬取、製圖、生成詞雲爬取部分：首先要說明的是，拉勾網有反爬

Python爬取拉勾網招聘資訊存入資料庫

先抓包分析我們想要獲取的資料，很明顯都是動態資料，所以直接到Network下的XHR裡去找，這裡我們找到具體資料後，就要去尋分析求地址與請求資訊了。還有需要提交的表單資訊分析完畢之後，我們就可以開始寫我們的爬蟲專案了。一.編寫Itemitem編寫比較簡單# 拉鉤職位資訊 cl

Python爬取拉勾網招聘資訊

此程式碼執行建議Python3，省卻中文編碼的麻煩遇到的幾個問題：（1）拉鉤網的資料是通過js的ajax動態生成，所以不能直接爬取，而是通過post’http://www.lagou.com/jobs/positionAjax.json?needAddt

python爬取拉勾網資料儲存到mysql資料庫

環境:python3 相關包:requests , json , pymysql 思路:1.通過chrome F12找到拉鉤請求介面,分析request的各項引數 2.模擬瀏覽器請求拉鉤介面 3.預設返回的json不是標準格式 ,

Python爬取拉勾網招聘資訊並可視化分析

需求: 1:獲取指定崗位的招聘資訊 2:對公司地區,公司待遇,學歷情況,工作經驗進行簡單分析並可視化展示視覺化分析: 公司地區:柱狀圖,地圖公司待遇:雲圖公司-學歷情況:餅圖公司工作經

Python scrapy 爬取拉勾網招聘資訊

週末折騰了好久，終於成功把拉鉤網的招聘資訊爬取下來了。現在總結一下！環境： windows 8.1 + python 3.5.0 首先使用 scrapy 建立一個專案： E:\mypy> scrapy startproject lgjob 建立後目錄結構：

scrapy爬取拉勾網python職位+Mysql+視覺化

在進行爬取目標網站中為遇到一個問題，爬取5頁資料之後會出錯，設定了每一次請求的隨機超時間10-20->time.sleep(random.randint(10, 20))，同樣會被拉勾網禁止請求資料，可能被輕度判定為爬取，所以可以設定每一次的隨機超時間為20-30秒，就可以解決這個問題。

python3 利用requests爬取拉勾網資料

學習python，瞭解了一點爬蟲的知識，成功的對拉勾網的招聘資訊進行了爬取，將爬取心得記錄下來，和大家一起學習進步。準備工作： python3 requests pandas 谷歌瀏覽器(或者火狐瀏覽器、qq瀏覽器)

【爬蟲相關】爬蟲爬取拉勾網的安卓招聘資訊

當然 同樣找規律 更改相關的連結可以爬取其他崗位 的招聘資訊，或者重寫正則表示式 獲取其他自己需要的內容

相關推薦

當然同樣找規律更改相關的連結可以爬取其他崗位的招聘資訊，或者重寫正則表示式獲取其他自己需要的內容