1. 程式人生 > >用爬蟲分析網際網路大資料行業薪資情況

用爬蟲分析網際網路大資料行業薪資情況

前言:

隨著網際網路大資料行業的日漸興盛,越來越多的人投身其中,也有很多的朋友對此有著濃厚的興趣,想要投身其中。從本期開始我們將分四期帶大家走進網際網路大資料行業,分別瞭解資料探勘&機器學習、資料分析、演算法&深度學習、資料產品經理這四個不同的與大資料相關的職位。

資料來源:

我們未來四期的資料主要來源於拉勾網,目前比較火的招聘網站獵聘、boss直聘、拉勾都有比較多的網際網路職位介紹。我們基於以下幾點原因選擇拉勾:1.薪資大多有直接的範圍,較少為面議 2. 企業數量較全,基本上涵蓋了網際網路相關公司 3.url地址相對比較規整,方便進行批量爬取。資料展示頁面如下:

640?wx_fmt=png

該部分使用Python中Selenium爬取,部分程式碼如下:

  1. whileTrue:

  2. try:

  3. for j in range(15):

  4.                xpath = '//*[@id="s_position_list"]/ul/li['+str(j+1)+']'

  5.                a = driver.find_element_by_xpath(xpath)

  6.                job_desc.append(a.text)

  7.                job_code.append(a.find_element_by_class_name('position_link'

  8.                                ).get_attribute(

    'data-lg-tj-cid'))

  9.            js="var q=document.documentElement.scrollTop=10000"

  10.            driver.execute_script(js)

  11.            driver.find_element_by_class_name('pager_next').click()

  12. except:

  13. break

薪資情況:

我們將從多個角度去了解大家所關注的薪資情況,首先看一下各個城市的機會多少與平均月薪,如下圖(氣泡大小表示職位數量,柱形圖高度表示平均月薪):

640?wx_fmt=png

可以看到,排名第八的武漢職位數量已經是北京的四十分之一了,排名靠後的城市職位數量小於20個。這一定程度體現了資料探勘&機器學習職位在北上廣深杭的集中性,除了五大城市之外,成都、南京、武漢未來也有著無限潛力。

下面看一下不同的工作經驗所對應的職位數量與薪資情況:

640?wx_fmt=png

可以看到拉勾網上大多的工作機會是針對於有工作經驗的求職者。3年、5年工作經驗也成為了兩個比較重要的門檻,薪資會有明顯的提示,這樣說明了企業對於經驗的看重

下面看一企業對於學歷的要求:

640?wx_fmt=png

需要注意的是,拉勾網上的學歷要求為最低要求,實際工作中大家的平均學歷會遠高於圖上所顯示的。

我們來結合城市和經驗看一下不同城市工作經驗的提升對薪資的提升幅度:

640?wx_fmt=png

北京在各個工作經驗層面的薪資均處於全國領先位置,這也表明了帝都網際網路中心的地位。在工作經驗5-10年的對比上,廣州的漲幅落後於其他幾大城市,有在廣州工作的朋友可以與我們分享下,這是否具有一定的現實性。

各大公司拉勾網提供平均月薪:

640?wx_fmt=png

我們選取了在拉勾網上提供職位最多的十五家公司,BAT&TMD均在其中,也包括了搜狗、微博、網易這些知名網際網路公司。出人意料的是提供職位薪資最高的是新浪微博,眾所周知,一個企業內的實際平均薪資情況十分複雜,上述資料也只是其在拉勾網上放出職位的情況,僅供參考。

以上圖表我們使用ggplot繪製,程式碼如下(以公司薪資圖為例):

  1. ggplot(company_com,aes(x=reorder(company,-salary),y=salary,fill=as.character(rep(1:5,each=3))))+

  2.  geom_bar(stat='identity')+

  3.  geom_text(aes(label=round(salary,2),y= salary+1),size=5)+

  4.  theme_wsj()+

  5.  scale_fill_wsj()+

  6.  scale_color_wsj()+

  7.  ggtitle('各類公司拉勾網職位平均月薪(K)')+

  8.  theme(axis.text.x = element_text(size=12),

  9.        axis.text.y = element_blank(),

  10.        plot.title = element_text(hjust=0.5,size=25),

  11.        legend.position='none',

  12.        panel.grid = element_blank(),

  13.        axis.title  = element_blank(),

  14.        axis.text = element_text(face='bold',hjus=0.8,size=10,angle=15)

  15.  )

期望月薪計算:

我們用線性迴歸模型,簡易地幫助大家計算一下所可以期待的薪資情況(資料為月薪,單位為K),我們僅選取了經驗、城市、學歷三個因素,並沒有考慮互動項、高次項等因素,結果僅供參考,實際情況要複雜很多:

640?wx_fmt=png

所需技能&福利:

想要得到不錯的年薪,除了上述一些硬體條件,個人所掌握的實際技能實際上會起到更加重要的作用,我們就來看一下入職資料探勘&機器學習所需掌握的技能:

640?wx_fmt=jpeg

順利入職之後,我們又可以得到什麼樣的福利呢,可以看一下下圖:

640?wx_fmt=jpeg

640?wx_fmt=gif

Python中文社群作為一個去中心化的全球技術社群,以成為全球20萬Python中文開發者的精神部落為願景,目前覆蓋各大主流媒體和協作平臺,與阿里、騰訊、百度、微軟、亞馬遜、開源中國、CSDN等業界知名公司和技術社群建立了廣泛的聯絡,擁有來自十多個國家和地區數萬名登記會員,會員來自以公安部、工信部、清華大學、北京大學、北京郵電大學、中國人民銀行、中科院、中金、華為、BAT、谷歌、微軟等為代表的政府機關、科研單位、金融機構以及海內外知名公司,全平臺近20萬開發者關注。

640?wx_fmt=jpeg

▼ 點選下方閱讀原文免費成為社群會員

相關推薦

爬蟲分析網際網路資料行業薪資情況

前言:隨著網際網路大資料行業的日漸興盛,越來越多的人投身其中,也有很多的朋友對此有著濃厚的興趣,

資料分析:如何從網際網路資料分析行業趨勢

一、前言: 研究行業趨勢是每家公司的硬需求,如手機業者希望瞭解同行有沒有什麼顏色是比較受消費者歡迎的,護膚品公司想要了解什麼成分是被廣泛而且美譽的討論,藉由加入這些概念元素,他們可以讓他們的產品更具吸引力,這種跟風做法其實一直都有,但是傳統人工去看會遇到兩個問題: 1、發現過慢:通常人工可以發現時,這些概念元

人人都適合學習資料分析嗎?什麼樣的人適合資料行業

大資料培訓幾乎成了大資料人才通往職場的必經之路。但是據科多大資料所知,大資料培訓學校並不是隨便招收學員的。那麼,大資料培訓學校招收的都是怎麼樣的人呢? 什麼人適合學習資料分析?   從大資料培訓學校的角度來說,學大資料的學員一般都是專科及以上,具有統計學之類的知識,有一定的基礎的,不然即使你

資料行業前景分析

移動網際網路出現後,移動裝置的很多感測器收集了大量的使用者點選行為資料,已知IPHONE有3個感測器,三星有6個感測器。它們每天產生了大量的點選資料,這些資料被某些公司所有擁有,形成使用者大量行為資料。 電子地圖如高德、百度、Google地圖出現後,其產生了大量的資料流資料,這些資料不同於傳統資

爬取QQ空間3000萬戶,玩玩資料分析

這是我近期使用C#寫的一個QQ空間蜘蛛網爬蟲程式。程式斷斷續續的運行了兩週,目前總共爬了3000萬QQ資料,其中有300萬包含使用者(QQ號,暱稱,空間名稱,頭像,最新一條說說內容,最新說說的發表時間,空間簡介,性別,生日,所在省份,城市)的詳細資料。 目前已經爬到

Apache Spark進行資料處理之Spark GraphX圖資料分析(6)

import org.apache.spark._ import org.apache.spark.graphx._ import org.apache.spark.rdd.RDD import java.util.Calendar // 先匯入邊 val graph = GraphLoader.edgeL

爬蟲分析IMDB TOP250電影數據

tle table close 保存 ins turn com 現在 標示 起因 恰逢諾蘭導演的新片《敦刻爾克》即將在中國上映,作為諾蘭導演的鐵粉,印象中他的很多部電影都進入了IMDB TOP250的榜單,但是具體是多少部呢?他是不是IMDB TOP250 中作品最多的導演

為銀行搭建業務分析資料之間的快速通道

隨著銀行資訊化建設的高速發展與大量業務資料的積累,越來越多的大資料平臺也相繼搭建與發展起來。然而IT的工作變得越來越重,在維護原有資料倉庫、資料分析平臺的同時,也需要支撐大資料平臺的系統建設和應用遷移,還需要給業務部門準備各種資料和分析報表。本文將介紹最有影響力股份制銀行的資管部門如何利用KAP智慧

資料行業的女程式媛:“願未來能朝九晚五,也能浪跡天涯”

大資料行業裡面,大家已經習慣了大資料專案組全是男程式設計師的事實,也給很多未進入大資料行業的女孩子們,無形的壓力和排斥,本文主人公來自科多大資料的一位培訓女學員,主要介紹一個大資料專案上的女程式媛的恣意生活。 十八九歲,精力旺盛,多想談戀愛,結果所有力氣都耗在高考上。二十一二歲,進了理想的大學,

35歲資料行業從業者,如何培養資料核心競爭力

想轉行來大資料行業的人,擔心年齡的問題,在大資料行業中摸爬滾打的人,也擔心瓶頸的問題,我個人以為,只要培訓大資料的核心競爭力,才能讓自己從人群中脫穎而出,也是為了讓自己能得到一定的自由權,自由去選擇心意的工作,自由去激發工作的熱情,自由去平衡工作與生活的節奏。本人在大資料行業從業已久,目前供職於成都

入門資料行業!必備的十基礎

現在由於人工智慧的大熱,這方面的人才稀缺,薪資水平不用說,行業中的NO.1,所以各路人馬紛紛集結網際網路行業,有轉行的,有轉崗的。對於初學者在學習這方面肯定有許多疑問,是什麼疑問呢,我在這裡一 一給你解答。 推薦下小編的大資料學習群;251956502,不管你是小白還是大牛,小編我都歡迎,不定期

遇到資料行業的職業發展瓶頸,你有勇氣去突破?

大資料行業的發展不是一直呈現指數增長的,而且作為身在其中的大資料行業從業者,大家或快或慢的都會遇到職業瓶頸,今天我們就聊聊資料人才的瓶頸有哪些,該如何去突破。   每個人在不同的成長階段都會遇到瓶頸,就拿我自己來說,讀書時代由於沒有找到正確的學習方法,所以我的英語成績一直提升不上來

資料行業薪酬待遇怎麼樣?

大資料發展非常火熱的時候,很多想加入大資料行業的小夥伴,猶豫和困惑最大的問題就是大資料崗位薪資情況,下面我就給大家分析分析 1、資料開發在網際網路崗位薪酬中,排名第二 2、職位量大增,投遞量增長更快 從 2015 年到 2016 年,大資料招聘崗位的數量翻了一番,投遞量增加了近兩倍

一文了解,資料就業薪資怎麼樣?

大資料行業薪資高,是顯而易見的,於此同時,大資料崗位薪資的範圍也是比較寬的,這關係到個人的學歷學科背景,技術掌握情況,當然各個地區的薪資肯定是不同的。本文從三個角度來分析薪資。先從科多大資料的一個大資料開發培訓班來了解初級大資料崗位的薪資情況,對於很多初入大資料行業的人來說,這個比較有參考性,其次從

網際網路資料面試題集錦

原文地址:http://hbase.group/article/89 以下面試題都是群裡小夥伴提供的,現場真題(包含校招題)1.網易大資料面試題 說說專案 Spark哪部分用得好,如何調優 Java哪部分了解比較好 聊聊併發,併發實現方法,volatile關鍵字說說

2018年中國程式設計師調查分析資料就業前景廣闊

       在網際網路行業,程式設計師一直是很受關注的人群。特別對準備步入社會的大學生們來說,從事哪方面的職業是一個很重要的問題,而程式設計師就是一個比較熱門的選擇。我們根據2017年中國程式設計師調查的資料,介紹一下程式設計師的程式語言、薪酬

淺論網際網路資料智慧營銷需要具備的4功能

在當下這個網際網路大資料迅速崛起的時代,大資料智慧營銷就好像是一種新型的電能汽車,按照現在網際網路上發展的速度,雖然還沒有真正的實現全民普及的地位,但是未來的市場當中一定會成為大眾企業的必備營銷渠道。時代永遠處在不斷的進步當中,社會也永遠是處在發展當中,機會永遠是留給有準備的人,所以大資料智慧營

Python 實現一個資料搜尋引擎

搜尋是大資料領域裡常見的需求。Splunk和ELK分別是該領域在非開源和開源領域裡的領導者。本文利用很少的Python程式碼實現了一個基本的資料搜尋功能,試圖讓大家理解大資料搜尋的基本原理。   布隆過濾器 (Bloom Filter)   第一步我們先要實現一個

“實時決策”賦能資料 聚雲位智開啟資料行業新紀元

席捲各行各業、深入社會各個層面的人工智慧,如今正潤物細無聲般滲透大資料應用市場。通過實時資料處理、複雜的AI計算、海量資料平滑擴充套件等革命性技術突破,為大資料行業帶來勃勃生機。 作為大資料平臺軟體產品和解決方案的領先者,備受業界關注的聚雲位智近兩年來不斷加大產品研發投入,致力於為“人工智慧+大

圳鵬資料:大學生如何入行資料行業

國內大資料行業發展的如火如荼,作為網際網路時代新型的產業,大資料行業其實是網際網路和計算機結合的產物,網際網路實現了資料的網路化,計算機實現了資料的數字化,兩者結合賦予了大資料生命力。 對於即將畢業的大學生如何入行大資料行業?成為大資料工程師需要哪些知識呢?圳鵬大資料的工程師為同學們