玩爬蟲的時候記得偽裝成瀏覽器！這樣就不可能被封了哦！

阿新 • • 發佈：2018-12-26

進群：960410445 即可獲取數十套PDF！

如果我們在頁面上【右擊-顯示網頁原始碼】可以看到豎向有兩千多行的html標籤程式碼，你可以在這裡找到頁面上看到的各個職位的對應文字，比如按【ctrl+F】搜尋“華夏高科”就可以找到它。

玩爬蟲的時候記得偽裝成瀏覽器！這樣就不可能被封了哦！

2. 請求頁面資料

使用阿里雲天池的Notebook或者Anaconda的Jupyter Notebook都可以，編寫以下程式碼，獲取整個頁面的html檔案資料。

url='https://www.zhipin.com/c101190400/h_101190400/?query=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&page=1'
import requests
from bs4 import BeautifulSoup
html=requests.get(url)
print(html.text)

url是複製貼上的瀏覽器地址，在這裡中文部分自動變成了亂碼，不用擔心，一樣可以使用。

執行這個程式碼，會output輸出頁面的標記程式碼，但你仔細看會發覺有什麼不對，好像少了很多，而且會看到這個資訊。

<h3 class="gray">您暫時無法繼續訪問～</h3>
<p>由於您當前網路訪問頁面過於頻繁，可能存在安全風險，我們暫時阻止了您的本次訪問，24小時將自動解除限制。</p>

這表示伺服器識別我們的請求是爬蟲了！

但是如果我們把網址複製到瀏覽器裡，仍然可以正常開啟的。這是為什麼？

Python預設傳送的請求和瀏覽器傳送的請求是有不同的。最主要的不同就是瀏覽器傳送的請求除了http地址之外還包含了看不到的header頭資訊。

3. 認識請求頭 Request header

還是在剛才的Boss直聘工作列表頁面，右擊檢查之後，注意Elements元素面板邊上還有【Network網路】面板，點開看上去如下圖：

玩爬蟲的時候記得偽裝成瀏覽器！這樣就不可能被封了哦！

Network網路面板包含了所有向伺服器發出的請求的資訊，如圖所示，這一行 ?query=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&page=1就是我們程式碼裡面傳送的那個請求，點選它，可以看到它的更多資訊：

玩爬蟲的時候記得偽裝成瀏覽器！這樣就不可能被封了哦！

所以，瀏覽器向伺服器傳送的資訊很多，除了基本的 RequestURL地址，還發送了 RequestHeaders請求頭和 QueryStringParameters查詢字串引數。

QueryStringParameters很簡單，其實就是我們位址列最後 ?問號後面的部分 ?query=人工智慧&page=1。

RequestHeaders請求頭包含了很多資訊，非常複雜，我們這裡不逐個解釋了，你可以稍後自己在Google裡面搜尋到相關教程，這裡只重點解釋其中下面的三個：

User-agent使用者代理欄位，就是你使用的瀏覽器，預設情況Python發出的Request裡面的這個資訊是缺失的，所以伺服器就發現你不是正常瀏覽器而是爬蟲了。
Referer(圖中沒有)來路，就是說這個連結從哪個頁面點選開啟的，有些時候伺服器會檢查你的 request請求是否來自其他正常頁面連結點選而不是爬蟲。
Cookie小甜餅，這個就複雜了，因為這個是每個網站伺服器自己記錄在你的瀏覽器的資訊（是的，他們的伺服器能操縱你的瀏覽器！），所以人家想記錄什麼就記錄什麼，最常見的是記錄你的使用者賬戶名和密碼（一般會只記錄你的編號就好了），這樣你每次向伺服器傳送 request的時候，伺服器就能從 header的 cookie裡面找到你的記錄，知道是你在傳送請求而不是其他人。

玩爬蟲的時候記得偽裝成瀏覽器！這樣就不可能被封了哦！

4. 新增請求頭

我們改進一下程式碼：

url='https://www.zhipin.com/c101190400/h_101190400/?query=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&page=1'
headers={
 'user-agent':'Mozilla/5.0'
}
import requests
from bs4 import BeautifulSoup
html=requests.get(url,headers=headers)
print(html.text)

再次執行，就可以得到完整的頁面資料了。

這裡主要是添加了 headers={...}物件（一對大括號包裹）， headers物件只有一個 user-agent欄位屬性，用冒號隔開它的值 Mozilla/5.0（這裡我們偷懶只留了開頭Mozila火狐瀏覽器的資訊）

5. 迴圈獲取更多內容

改進後獲取10頁共300條招聘資訊：

url='https://www.zhipin.com/c101020100/h_101020100/?query=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&page='
headers={
 'user-agent':'Mozilla/5.0'
}
page=1
hud=['職位名','薪資1','薪資2','職位名','地點','經驗','學歷','公司行業','融資階段','公司人數','釋出日期','釋出人']
print('	'.join(hud))
import requests
from bs4 import BeautifulSoup
import time
for n in range(1,11): 
 html=requests.get(url+str(page),headers=headers)
 page+=1 
 soup = BeautifulSoup(html.text, 'html.parser')
 for item in soup.find_all('div','job-primary'):
 shuchu=[]
 shuchu.append(item.find('div','job-title').string) #職位名
 xinzi=item.find('span','red').string
 xinzi=xinzi.replace('k','')
 xinzi=xinzi.split('-')
 shuchu.append(xinzi[0]) #薪資起始數
 shuchu.append(xinzi[1]) #薪資起始數
 yaoqiu=item.find('p').contents
 shuchu.append(yaoqiu[0].string if len(yaoqiu)>0 else 'None') #地點
 shuchu.append(yaoqiu[2].string if len(yaoqiu)>2 else 'None') #經驗
 shuchu.append(yaoqiu[4].string if len(yaoqiu)>4 else 'None') #學歷
 gongsi=item.find('div','info-company').find('p').contents
 shuchu.append(gongsi[0].string if len(gongsi)>0 else 'None') #公司行業
 shuchu.append(gongsi[2].string if len(gongsi)>2 else 'None') #融資階段
 shuchu.append(gongsi[4].string if len(gongsi)>4 else 'None') #公司人數
 shuchu.append(item.find('div','info-publis').find('p').string.replace('釋出於','')) #釋出日期
 shuchu.append(item.find('div','info-publis').find('h3').contents[3].string) #釋出人
 print('	'.join(shuchu))
 time.sleep(1)

這裡是有了幾個新的知識點：

'-'.join(hud)將列表集合 ['aa','bb','cc']合併成字串 'aa-bb-cc'。我們用拼合成最後輸出 shuchu的內容。
集合.append(a),把a加入到集合最後面，之前是 [b,c]的話就會變成 [b,c,a]。我們用這個辦法逐個的把資料新增到集合的每個單元中。
字串.split('-'),和 join相反，split是把字串切成很多單元，再組成集合，小括號內就是分隔符號，比如 'aa-bb-cc'分割之後就成為 ['aa','bb','cc']。
importtime和 time.sleep(1),每次請求之後停止休息1秒，避免頻繁傳送請求被Boss直聘伺服器遮蔽。如果我們請求的頻率遠超過正常人點選頻率，那麼很可能被伺服器看出是爬蟲，進而不再理睬我們的請求，也不會發送資料給我們。

最終得到的Excel結果如下：

玩爬蟲的時候記得偽裝成瀏覽器！這樣就不可能被封了哦！

下面是利用上一篇文章介紹的Excel資料透視表方法繪製的統計圖：

玩爬蟲的時候記得偽裝成瀏覽器！這樣就不可能被封了哦！

注，300個職位資料規模還很小，而且由於Boss直聘的搜尋問題，其中摻雜了大量的實際與人工智慧無關的職位，我們的分析方法還是很原始很粗糙的，僅供參考。隨著後續學習我們會逐步加深這方面的研究。

6. 後續學習資源

作為一個網際網路或科技企業的你，一定很關注你當前的職位的分佈情況吧，現在可以自己動手從Boss直聘網站的大資料上進行科學分析了！

換一個城市，換一個行業，嘗試更多的可能，從分析圖表中總結規律，推測趨勢。

如果要做更多的練習，還是推薦你花一點時間翻翻Html和Python的知識，不要有太大壓力，用心閱讀就可以，適當的時候可以跟著教程做做程式碼實驗。

Html標籤技術基礎入門：http://www.w3school.com.cn/html/index.asp
Python基礎入門教程：http://www.runoob.com/python/python-tutorial.html
BeautifulSoup中文官方文件：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

以上就是本文的全部內容，希望對大家的學習有所幫助。如果覺得文章不錯，動手轉發支援一下哦！

玩爬蟲的時候記得偽裝成瀏覽器！這樣就不可能被封了哦！

進群：960410445 即可獲取數十套PDF！如果我們在頁面上【右擊-顯示網頁原始碼】可以看到豎向有兩千多行的html標籤程式碼，你可以在這裡找到頁面上看到的各個職位的對應文字，比如按【ctrl+F】搜尋“華夏高科”就可以找到它。

爬資料時？IP老被封？這樣就不會被封了！爬取西刺代理IP並驗證

胡蘿蔔醬最近在爬取知乎使用者資料，然而爬取不了一會，IP就被封了，所以去爬取了西刺代理IP來使用。這裡爬取的是西刺國內高匿IP。我們需要的就是這一串數字。進群：548377875&nbs

產品經理如何與強勢的技術溝通？技術比較有資歷，會以技術無法實現等方面的原因拒絕處理產品提出的需求。你們是否遇到這樣的技術？產品懂技術的話，是不是會好一些，因為可以和技術說“行話”了，並且產品懂技術就不會被忽悠了。

intern 世界自己人做好自己最重要的叠代開發對比不一定制造 PM在YY...作為強勢的技術來回答一下吧。說明白WHY，HOW，WHAT就好了。我想點兩個贊，u can u up，no can no bb 什麽的。微軟的win8之父年輕時候也是一個PM應

c++ try catch 問題（沒有throw就會被刪除，加上/EHa這樣就不會被刪除）

pla 還要得出我們狀態其它編譯錯誤 isa member 以前都是用try{} catch(…){}來捕獲C++中一些意想不到的異常，今天看了Winhack的帖子才知道，這種方法在VC中其實是靠不住的。例如下面的代碼：以前都是用try{} c

大四應屆生用Python實現了遠程監控！壓根就不需要女友開視頻！

肉雞找到 src 視頻分享設置一個 ever 實時使用要求： Sender代碼必須要在一臺有攝像頭的電腦上運行起來。然後把數據編碼，壓縮之後，再傳給另外一個電腦 Reciever作為接受端，沒什麽特別的要求。兩個電腦都必須要按轉好numpy + ope

Python實現爬蟲設定代理IP和偽裝成瀏覽器的方法分享

Python實現爬蟲設定代理IP和偽裝成瀏覽器的方法分享 1.python爬蟲瀏覽器偽裝 1

python—爬蟲偽裝成瀏覽器的三種方法

meta 16px ike 方法 agent htm erl pytho 這一好多網站對於爬蟲中沒有進行瀏覽器偽裝的會進行反爬，以糗事百科網站為例下面提供了三種方法添加headers，使爬蟲能夠偽裝成瀏覽器訪問。備註：方法二和方法三中省略了 import urll

自從會了這招，我就再也不擔心我的爬蟲會被封了！搭建Cookies池

detail http containe TP bad pst pro ear tip 但是，這個接口在沒有登錄的情況下會有請求頻率檢測。如果一段時間內訪問太過頻繁，比如打開這個鏈接，一直不斷刷新，則會看到請求頻率過高的提示，如下圖所示。一、本

你的爬蟲又被封了？你真是蠢的可以！用這個不再擔心被封爬蟲！

Spider 當 start_urls 未被指定，會呼叫 start_requests() ,該方法可以用於在爬取資料之前，先進行模擬登陸。 import scrapy from scrapy.http import Request from scrapy.selec

把PDF的底色改成護眼色，這樣讀起文章來就不是很累了······

PDF格式背景改變方法如下：開啟PDF 點選編輯－》首選項－》輔助工具－》選中“替換文件顏色”和“ 自定義顏色”－》將背景顏色改成你想要的背景顏色。將色調改為：85。飽和度：123。亮度：205－>新增到自定義顏色－>在自定義顏色選定點確定就搞定了

用Python搭建一個簡單的代理池！經理再也不用擔心我的IP被封了

其實每次爬東西的時候，特怕IP被封，所以每次都要把時間延遲設定得長一點... 這次用Python搭建一個簡單的代理池。獲取代理IP，然後驗證其有效性。不過結果好像不是很理想，為什麼西刺代理的高匿代理都能用？？？不是說免費代理不好使嗎？真的是黑人問號臉... / 01 / 代理獲取

聽說你好不容易寫了個爬蟲，結果沒抓幾個就被封了？

近來知乎上如雨後春筍般冒出了大把大把的爬蟲教程。這是好事，學了 Python 基礎的同學們可以很輕鬆地搜出許多練手的例子。不過我不是針對誰，我是說網上絕大多數的爬蟲教程，其實都缺乏可操作性。是的，也包括我自己寫過的。主要原因有兩點：教程是死的，網站是活的。

聽說你的爬蟲又被封了？那是你不會這些

目錄前言 Spider Middleware 瞎比比前言上一篇文章《爬蟲利器初體驗（1）》中，我們舉了個簡單的栗子，但是在真實的開發中這樣的爬蟲程式碼很容易就會被封掉

迷茫！！！打工是不可能打工的！

能力是一種什麼定義？就是越快越好地把一件事完成。這是個廣泛的定義，如果一個人一方面能做得很好，另一方面做得很差，你怎麼去評價這個人的能力？所以，這裡，只說專業能力。作為一個程式設計師，他的專業能力是啥？是能快速編碼嗎？也不是，是要能解決公司的問題，給公司創造收益。那問題來了，你在一家公司解決的問

Python 高階篇！你所不會的這裡都有！

1、什麼是生成器？通過列表生成式，我們可以直接建立一個列表。但是，受到記憶體的限制，列表的容量肯定是有限的。而且，建立一個包含100萬個的列表，不僅佔用很大的儲存空間，如果我們僅僅需要訪問前面幾個元素，那麼後面的絕大部分的元素所佔用的空間都白白浪費了。那麼我們是否可以在迴圈的過程中不斷推算出後

U盤安裝deepin2014成功心得，屢試屢敗的同學們有福了哦！

作為Hiweed的資深粉絲，從deepin2013上手深度linux，2014版推出後帶著興奮第一時間U盤燒錄準備升級，可惜遭遇了很多小夥伴一樣的傷心經歷，反覆燒錄幾次都是U盤啟動安裝失敗，或卡在那個一直閃動的游標，或出現grub的灰屏就再也進不去。真是很失落啊，Deepi

Android 使用SMSSDK依賴工程，一初始化就崩潰的問題，被坑了好久！

解決了呼叫SMSSDK初始化方法就崩潰問題！兩年前第一次接觸SMSSDK，以依賴工程形式在用，每次呼叫初始化方法就崩潰（只有我！！其它同事執行都沒問題），當時檢查Eclipse設定，檢查jar包，檢查工程相關所有，就差給自己做個體檢！！最終無解，so，執行時只能註釋相

手把手教你搭建Python虛擬環境，還不會趕緊收藏學習哦！

fec term 幹凈 ces 激活 ima 出現 virtual 直接不同的python項目可能會用到不同的包，而不同的包或不同的python版本之間可能存在沖突。因此，為每個項目創建不同的虛擬環境非常有用。它可以保證一個項目只訪問，它所在虛擬環境下安裝的包，保持全局解

Linux命令學習神器！命令看不懂直接給你解釋！

大家都知道，Linux 系統有非常多的命令，而且每個命令又有非常多的用法，想要全部記住所有命令的所有用法，恐怕是一件不可能完成的任務。一般情況下，我們學習一個命令時，要麼直接百度去搜索它的用法，要麼就直接用 man 命令去檢視守冗長的幫助手冊。這兩個都可以實現我們的目標，但有沒有更簡便的方式呢？答案是必須

小樣？別以為你穿了幾個馬甲就不認得你是二分法！

>需要更多演算法動圖詳解，可以微信搜尋[袁廚的演算法小屋] 今天給大家帶來的是二分查詢及其變種的總結，大家一定要看到最後呀，用心滿滿，廢話不多說，讓導演幫我們把鏡頭切到袁記菜館吧！袁記菜館內。。。。 > 店小二：掌櫃的，您進貨回來了呀，喲！今天您買這魚挺大呀！ > > 袁廚：那

玩爬蟲的時候記得偽裝成瀏覽器！這樣就不可能被封了哦！

相關推薦