Python 爬蟲入門-爬取拉勾網實戰

阿新 • • 發佈：2019-01-11

這幾天學習了 python 爬蟲的入門知識，也遇到很多坑，開個貼記錄一下

基本原理

Python 爬蟲基本要具備以下功能：（參考此回答）

向伺服器傳送請求，伺服器響應你的請求。（你可能需要了解：網頁的基本知識）
從抓取到的網頁中提取出需要的資料。（你可能需要了解：正則表示式、Beautifulsoup）
儲存資料並繼續爬取下一個網站。

當然，有以上功能還是不夠的，你還需要與網站反爬策略鬥智鬥勇：（參考此回答）

構造合理的HTTP請求頭
設定cookie
正常的時間訪問路徑
注意隱含輸入欄位值
避開蜜罐
使用遠端伺服器來避免IP封鎖

當然以上我還不怎麼會。

專案實踐

可以通過以下2個專案練手

豆瓣電影TOP250
這個專案比較容易，程式碼複製過來，大概理解程式碼的意思，然後跑的過程也比較順利。
爬取拉勾網頁面1 頁面2 頁面3
這個專案就比較難了，我也遇到比較多的坑，好在大都解決了。

話不多說，我們開始吧

爬取拉勾網實戰

借用一下@ _知幾的圖

借用一下@ _知幾的圖，按 F12 檢視頁面原始碼，在 NETWORK 標籤中可以分析網站的請求響應過程，這裡看到 NETWORK 標籤下 TYPE XHR 裡有 companyAjax.json 和 positionAjax.json （開始我死活找不到positionAjax.json，後來發現是我沒選工作地點），我們所需求的資料可以從中提取出來。

以下程式碼是我在 _知己的程式碼基礎上修改得到的

修改了以下幾處：

由原來的 python 2 改為 python 3
匯入 fake_useragent 模組，可以隨機偽造請求頭（使用前需 pip install fake-useragent）
讀取 companyAjax.json 而不是原來的 positionAjax.json

幾點說明：

ua.random 用於生成隨機請求頭
get_json 函式中的 my_headers、 cookies、 content 等，都可以在瀏覽器 F12 控制檯中找到
目前爬取了幾頁後就被發現，顯示 {‘success’: False, ‘msg’: ‘您操作太頻繁,請稍後再訪問’, ‘clientIp’: ‘202.* * * * * *’}，暫時還沒有解決辦法。

#!/usr/bin/env python
# encoding=utf-8

import json
import requests
import xlwt
import time
from lxml import etree
import random
from fake_useragent import UserAgent
import sys


#獲取儲存職位資訊的json物件，遍歷獲得公司名、福利待遇、工作地點、學歷要求、工作型別、釋出時間、職位名稱、薪資、工作年限
def get_json(url,datas):

    ua = UserAgent()
    my_headers = {
        'User-Agent': ua.random ,
        'Accept': 'application/json, text/javascript, */*; q=0.01',
        'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.6,ja;q=0.4,en;q=0.2',
        'Host': 'www.lagou.com',
        'Origin': 'https://www.lagou.com',
        'Referer': 'https://www.lagou.com/zhaopin/?filterOption=',
    }
    cookies = {
        'Cookie': 'user_trace_token=20170824135842-485287de-8891-11e7-a544-525400f775ce; LGUID=20170824135842-48528e05-8891-11e7-a544-525400f775ce; JSESSIONID=ABAAABAAADEAAFI772FD1B9AABBF0C5553E874B0F860350; _putrc=B95D7C5E94F53DA8; login=true; unick=%E9%83%AD%E5%B2%A9; showExpriedIndex=1; showExpriedCompanyHome=1; showExpriedMyPublish=1; hasDeliver=3; PRE_UTM=; PRE_HOST=; PRE_SITE=; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2F; _gat=1; TG-TRACK-CODE=index_search; SEARCH_ID=f0acbb8b2145433cb8fe7086f23be622; index_location_city=%E5%8C%97%E4%BA%AC; _gid=GA1.2.397092414.1504747009; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1504756944,1504761486,1504783443,1504839029; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1504839719; _ga=GA1.2.1499897355.1503554319; LGSID=20170908105032-7b45520c-9440-11e7-8aae-525400f775ce; LGRID=20170908110159-14c6e1a8-9442-11e7-8ab1-525400f775ce'
    }
    time.sleep(20 + random.randint(0,20))
    content = requests.post(url=url,cookies=cookies,headers=my_headers,data=datas)
    # content.encoding = 'utf-8'
    result = content.json()
    print(result)
    info = result['content']['positionResult']['result']
    # print info
    info_list = []
    for job in info:
        information = []
        information.append(job['positionId']) #崗位對應ID
        information.append(job['companyFullName']) #公司全名
        information.append(job['companyLabelList']) #福利待遇
        information.append(job['district']) #工作地點
        information.append(job['education']) #學歷要求
        information.append(job['firstType']) #工作型別
        information.append(job['formatCreateTime']) #釋出時間
        information.append(job['positionName']) #職位名稱
        information.append(job['salary']) #薪資
        information.append(job['workYear']) #工作年限
        info_list.append(information)
        #將列表物件進行json格式的編碼轉換,其中indent引數設定縮排值為2
        print(json.dumps(info_list,ensure_ascii=False,indent=2))
        print(info_list)
    return info_list


def main():
    page = int(input('輸入抓取頁數:'))
    # kd = raw_input('請輸入你要抓取的職位關鍵字：')
    # city = raw_input('請輸入你要抓取的城市：')
    info_result = []
    title = ['崗位id','公司全名','福利待遇','工作地點','學歷要求','工作型別','釋出時間','職位名稱','薪資','工作年限']
    info_result.append(title)
    for x in range(1,page+1):
        url = 'https://www.lagou.com/jobs/companyAjax.json?px=new&needAddtionalResult=false'
        datas = {
            'first': True,
            'pn': x,
            'kd': '',
            #'city': '上海'
        }
        info = get_json(url,datas)
        info_result = info_result+info
        #建立workbook,即excel
        workbook = xlwt.Workbook(encoding='utf-8')
        #建立表,第二引數用於確認同一個cell單元是否可以重設值
        worksheet = workbook.add_sheet('lagouzp',cell_overwrite_ok=True)
        for i, row in enumerate(info_result):
            # print row
            for j,col in enumerate(row):
                # print col
                worksheet.write(i,j,col)
            workbook.save('C:\\Users\\jared\\Desktop\\lagouzp.xls')

if __name__ == '__main__':
    main()

Python 爬蟲入門-爬取拉勾網實戰

這幾天學習了 python 爬蟲的入門知識，也遇到很多坑，開個貼記錄一下基本原理 Python 爬蟲基本要具備以下功能：（參考此回答）向伺服器傳送請求，伺服器響應你的請求。（你可能需要了解：網頁的基本知識）從抓取到的網頁中提取出需要

Python爬蟲：爬取拉勾網資料分析崗位資料

1 JSON介紹 JSON（JavaScript Object Notation）已經成為通過HTTP請求在Web瀏覽器和其他應用程式之間傳送資料的標準格式之一。比CSV格式更加靈活。Json資料格式，非常接近於有效的Pyhton程式碼，其特點是：JSON物件所

Python 爬蟲-模擬登入知乎-爬取拉勾網職位資訊

用Python寫爬蟲是很方便的,最近看了xlzd.me的文章，他的文章寫的很到位，提供了很好的思路。因為他的文章部分程式碼省略了。下面是基於他的文章的三個程式碼片段: 基於Python3,Python2的話需要修改下input輸入函式和print的用法。爬取豆瓣電影top250 爬取拉勾網職位資訊模擬

Python爬取拉勾網資料(破解反爬蟲機制)

人生苦短, 我學 Python! 這篇文章主要記錄一下我學習 Python 爬蟲的一個小例子, 是爬取的拉勾網的資料. 1.準備配置 Python 環境什麼的就不說了, 網上教程很多, 自行解決. 2.扒原始碼先開啟拉勾網的網頁. 我們要爬取這部分的資料

python爬蟲: 爬取拉勾網職位並分析

0. 前言本文從拉勾網爬取深圳市資料分析的職位資訊，並以CSV格式儲存至電腦, 之後進行資料清洗, 生成詞雲，進行描述統計和迴歸分析,最終得出結論. 1. 用到的軟體包 Python版本： Python3.6 requests: 下載網

Python爬蟲基礎教程，手把手教你爬取拉勾網！

一、思路分析：在之前寫拉勾網的爬蟲的時候，總是得到下面這個結果（真是頭疼），當你看到下面這個結果的時候，也就意味著被反爬了，因為

用python爬取拉勾網招聘資訊並以CSV檔案儲存

爬取拉勾網招聘資訊 1、在網頁原始碼中搜索資訊，並沒有搜到，判斷網頁資訊使用Ajax來實現的 2、檢視網頁中所需的資料資訊，返回的是JSON資料； 3、條件為北京+資料分析師的公司一共40087家，而實際拉勾網展示的資料只有 15條/頁 * 30頁 = 450條，所以需要判斷

python爬取拉勾網之selenium

重點程式碼解釋： 1.呼叫lxml的etree實現xpath方法呼叫，xpath相對正則比較簡單，可以不在使用Beauitfulsoup定位 from lxml import etree 2.介面的可視話與否，對於你的執行資源只能用減少 opt=webdri

python爬取拉勾網網際網路大資料職業情況

爬取拉勾網資訊資料處理製圖所需知識只有一點點（畢竟是個小白）： requests基礎部分 json pyecharts wordcloud 接下來開始敲程式碼了，程式碼分成了3個部分：爬取、製圖、生成詞雲爬取部分：首先要說明的是，拉勾網有反爬

Python爬取拉勾網招聘資訊存入資料庫

先抓包分析我們想要獲取的資料，很明顯都是動態資料，所以直接到Network下的XHR裡去找，這裡我們找到具體資料後，就要去尋分析求地址與請求資訊了。還有需要提交的表單資訊分析完畢之後，我們就可以開始寫我們的爬蟲專案了。一.編寫Itemitem編寫比較簡單# 拉鉤職位資訊 cl

Python爬取拉勾網招聘資訊

此程式碼執行建議Python3，省卻中文編碼的麻煩遇到的幾個問題：（1）拉鉤網的資料是通過js的ajax動態生成，所以不能直接爬取，而是通過post’http://www.lagou.com/jobs/positionAjax.json?needAddt

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（1）

5-14更新注意：目前拉勾網換了json結構，之前是content - result 現在改成了content- positionResult - result,所以大家寫程式碼的時候要特別注意加上

python爬取拉勾網資料儲存到mysql資料庫

環境:python3 相關包:requests , json , pymysql 思路:1.通過chrome F12找到拉鉤請求介面,分析request的各項引數 2.模擬瀏覽器請求拉鉤介面 3.預設返回的json不是標準格式 ,

Python爬取拉勾網招聘資訊並可視化分析

需求: 1:獲取指定崗位的招聘資訊 2:對公司地區,公司待遇,學歷情況,工作經驗進行簡單分析並可視化展示視覺化分析: 公司地區:柱狀圖,地圖公司待遇:雲圖公司-學歷情況:餅圖公司工作經

Python scrapy 爬取拉勾網招聘資訊

週末折騰了好久，終於成功把拉鉤網的招聘資訊爬取下來了。現在總結一下！環境： windows 8.1 + python 3.5.0 首先使用 scrapy 建立一個專案： E:\mypy> scrapy startproject lgjob 建立後目錄結構：

scrapy爬取拉勾網python職位+Mysql+視覺化

在進行爬取目標網站中為遇到一個問題，爬取5頁資料之後會出錯，設定了每一次請求的隨機超時間10-20->time.sleep(random.randint(10, 20))，同樣會被拉勾網禁止請求資料，可能被輕度判定為爬取，所以可以設定每一次的隨機超時間為20-30秒，就可以解決這個問題。

【爬蟲相關】爬蟲爬取拉勾網的安卓招聘資訊

我爬取了30頁拉勾上安卓的招聘資料告訴你安卓崗位究竟要一個什麼樣的人我知道沒圖你們是不會看的如圖：以上是抓取了30頁拉勾上關於招聘安卓相關的內容然後根據詞頻製作出詞雲圖出現最多的詞是開發經驗整體流程總共分為2步 1.爬蟲爬取相關的招聘資訊 2.根

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（2）

上次挖了一個坑，今天終於填上了，還記得之前我們做的拉勾爬蟲嗎？那時我們實現了一頁的爬取，今天讓我們再接再厲，實現多頁爬取，順便實現職位和公司的關鍵詞搜尋功能。之前的內容就不再介紹了，不熟悉的請一定要去看之前的文章，程式碼是在之前的基礎上修改的

python爬取拉勾網資料並進行資料視覺化

爬取拉勾網關於python職位相關的資料資訊，並將爬取的資料已csv各式存入檔案，然後對csv檔案相關欄位的資料進行清洗，並對資料視覺化展示，包括柱狀圖展示、直方圖展示、詞雲展示等並根據視覺化的資料做進一步的分析，其餘分析和展示讀者可自行發揮和擴充套件包括各種分析和不同的儲存方式等。。。。。一、爬取和分析

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

Python 爬蟲入門-爬取拉勾網實戰

基本原理

專案實踐

爬取拉勾網實戰

相關推薦