1. 程式人生 > >都說Python找不到工作?那這些崗位都是什麽?零基礎爬智聯!

都說Python找不到工作?那這些崗位都是什麽?零基礎爬智聯!

com 基礎 零基礎 str ima 分析師 查看 抓包 建立

前言

作為一名準備轉行數據分析的小白,我先接觸到的是網絡爬蟲學習,每次爬蟲運行都有新的bug收獲,通過不斷debug,終於稍微能爬一些數據了,在此想和大家分享一下~

私信小編007即可獲取小編精心準備的PDF十套哦!

技術分享圖片

技術分享圖片

看看最後一頁搜索結果

技術分享圖片

PS:小技巧,在頁面下部跳轉頁面輸入一個很大的數字,比如10000可以跳到最後一頁。

右鍵查看網頁源代碼,CTRL+F搜索關鍵要爬取信息,如下圖紅框內容

技術分享圖片

技術分享圖片

頁面紅框上的 大數據分析師 字樣竟然搜不到!!!

技術分享圖片

可能藏在json文件裏了

那就再試試,搜一下 數據分析師

技術分享圖片

這下總算有了

技術分享圖片

為什麽會這樣呢,經過檢查發現:

技術分享圖片

大和後面的數據分析中間有個<b>標簽,這是什麽意思,嚇得我趕緊百度了一下

技術分享圖片

設置成粗體?exm?好吧 圖上確實是顯示粗體

技術分享圖片

繼續觀察源代碼,發現我想要的信息都在這(下圖紅框),看來不用抓包分析辣~

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

沒時間解釋了,快上車!

好吧,你根本不是司機,開始寫代碼。。。

技術分享圖片

技術分享圖片

以上是設置路徑和為最後數據寫入excel文件做鋪墊

result11=[]

result21=[]

result31=[]

result41=[]

result51=[]

建立五個空的列表放我要抓的最終信息

技術分享圖片

技術分享圖片

裏面沒有中文啊,復制出來訪問看看。

果然一樣!!!

註意到這個url最後有個p=1,這很可能是頁碼,我換成5試試吧

技術分享圖片

技術分享圖片

看上圖,果然是這樣,我試試最後第90頁

技術分享圖片

技術分享圖片

技術分享圖片

range(1,91)循環爬取1~90頁,p="+str(k)是為了構造循環網址(我要把90頁全爬下來)

通過觀察網頁構造選擇正則提取

每次提取一頁中的所有信息不斷循環存在result11~51的列表裏

技術分享圖片

結果如下圖

技術分享圖片

技術分享圖片

一共5221條數據,並不是網頁搜索的12354條,這活生生被吃了一半不止啊!

技術分享圖片

我又運行了一下,果然數量不一樣了,好吧。。。這個問題還有待解決,麻煩各位dalao懂的話留言提醒一下小弟

技術分享圖片

這個<b></b>標簽看著難受,用excel做點後處理

技術分享圖片

查找替換

技術分享圖片

報錯了額

原來我默認的是wps打開,換成office的excel打開之後操作結果如下

技術分享圖片

是不是好多了呢,有機會以後繼續謝謝針對本數據後續的數據分析~

完整代碼如下:

技術分享圖片

代碼運行大概15~20second

都說Python找不到工作?那這些崗位都是什麽?零基礎爬智聯!