scrapy抓取拉勾網職位資訊（四）——對欄位進行提取

阿新 • • 發佈：2018-11-27

上一篇中已經分析了詳情頁的url規則，並且對items.py檔案進行了編寫，定義了我們需要提取的欄位，本篇將具體的items欄位提取出來

這裡主要是涉及到選擇器的一些用法，如果不是很熟，可以參考：scrapy選擇器的使用

依舊是在lagou_c.py檔案中編寫程式碼

首先是匯入LagouItem類，因為兩個__init__.py檔案的存在，所在的資料夾可以作為python包來使用

from lagou.items import LagouItem

編寫parse_item()函式（同樣為了詳細解釋，又是一波註釋風暴）：

 def 
 parse_item(self, response):
        item = LagouItem()  #生成一個item物件
        item['url'] = response.url #這個response是詳情頁面的response，因為本次我們只對詳情頁面使用了回撥函式，所以可以這樣理解
        item['name'] = response.css('.name::text').extract_first() #用css選擇器選擇職位名稱，因為結果是個列表，所以使用extract_first()提取第一個
        item['salary'] = response.css(' 
.salary::text').extract_first() #用css選擇器選擇薪水，但是這個是一個string型別，後續可以進行優化
        location = response.xpath('//*[@class="job_request"]//span[2]/text()').extract_first() #使用xpath進行提取，span[2]代表多個平行span標籤選擇第二個
        item['location'] = self.remove_splash(location) #得到的文字帶有/，還有多餘的空格，使用remove_splash函式進行清除，當然這個函式需要自己定義
        work_exp  
= response.xpath('//*[@class="job_request"]//span[3]/text()').extract_first() #獲取工作經驗要求
        item['work_exp'] = self.remove_splash(work_exp)  #使用remove_splash對資料清洗
        edu_background = response.xpath('//*[@class="job_request"]//span[4]/text()').extract_first() #獲取學歷要求
        item['edu_background'] = self.remove_splash(edu_background) 
        item['type'] = response.xpath('//*[@class="job_request"]//span[5]/text()').extract_first() #獲取職位型別，全職or兼職
        tags = response.css('.labels::text').extract() #tags是一個列表型別，直接使用extract()進行提取，而不使用extract_first()
        item['tags'] = ','.join(tags) #join函式是python內建函式，作用是把一個序列拼接起來，這裡是用逗號把所有的tags標籤拼接起來構成一個新的列表
        item['release_time'] = response.css('.publish_time::text').extract_first() #獲取釋出時間，實際上這個釋出時間存在很多種情況，有具體日期，也有幾天前這種，後續進行優化
        advantage = response.css('.job-advantage p::text').extract() #職位誘惑
        item['advantage'] = '\n'.join(advantage) #用join進行拼接
        job_desc = response.css('.job_bt p::text').extract() #獲取職位描述
        item['job_desc'] = '\n'.join(job_desc) 
        work_addr = response.css('.work_addr a::text').extract()[:-1] #這個工作地址列表提取出來後，需要把最後一項去掉，最後一項是地圖。。
        item['work_addr'] = ''.join(work_addr)
        item['company'] = response.css('.job_company img::attr(alt)').extract_first() #獲取公司名稱
        yield item

編寫remove_splash()函式，這個函式傳入一個值，然後對值中的/替換為空，最後將首尾的空格去掉

    def remove_splash(self,value):
        return value.replace(r'/','').strip()

這樣我們就把需要提取的欄位都提取了出來，再次執行爬蟲scrapy crawl lagou_c，控制檯就可以得到類似如下的輸出了

但是這抓取速度實在有點太嚇人了。。。很怕被封了IP，要麼限制下載速度，要麼使用代理，我這裡先使用限制下載速度這種措施

在settings.py檔案中，取消DOWNLOAD_DELAY的註釋修改為DOWNLOAD_DELAY = 1。

我們啟動爬蟲都是用命令列的方式來實現的，每次輸入命令有點麻煩，這裡我們修改一下

在根目錄下建立一個main.py檔案（說了那麼多次根目錄，其實就是進入專案資料夾後的第一個目錄），程式碼如下：

from scrapy import cmdline

cmdline.execute('scrapy crawl lagou_c'.split())

使用這種方式得到的結果是相同的

scrapy抓取拉勾網職位資訊（四）——對欄位進行提取

上一篇中已經分析了詳情頁的url規則，並且對items.py檔案進行了編寫，定義了我們需要提取的欄位，本篇將具體的items欄位提取出來這裡主要是涉及到選擇器的一些用法，如果不是很熟，可以參考：scrapy選擇器的使用依舊是在lagou_c.py檔案中編寫程式碼首先是匯入Lag

scrapy抓取拉勾網職位資訊（一）——scrapy初識及lagou爬蟲專案建立

本次以scrapy抓取拉勾網職位資訊作為scrapy學習的一個實戰演練 python版本：3.7.1 框架：scrapy（pip直接安裝可能會報錯，如果是vc++環境不滿足，建議直接安裝一個visual studio一勞永逸，如果報錯缺少前置依賴，就先安裝依賴）本篇

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（1）

5-14更新注意：目前拉勾網換了json結構，之前是content - result 現在改成了content- positionResult - result,所以大家寫程式碼的時候要特別注意加上

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（2）

上次挖了一個坑，今天終於填上了，還記得之前我們做的拉勾爬蟲嗎？那時我們實現了一頁的爬取，今天讓我們再接再厲，實現多頁爬取，順便實現職位和公司的關鍵詞搜尋功能。之前的內容就不再介紹了，不熟悉的請一定要去看之前的文章，程式碼是在之前的基礎上修改的

scrapy抓取拉勾網職位信息（一）——scrapy初識及lagou爬蟲項目建立

報錯中間鍵方式 set 分享圖片生成 pytho 薪酬 color 本次以scrapy抓取拉勾網職位信息作為scrapy學習的一個實戰演練 python版本：3.7.1 框架：scrapy（pip直接安裝可能會報錯，如果是vc++環境不滿足，建議直接安裝一個visua

Scrapy爬取拉勾網職位資訊

很多網站都用了一種叫做Ajax（非同步載入）的技術，通常我們會發現這種網頁，打開了，先給你看上面一部分東西，然後剩下的東西再慢慢載入，也就是區域性載入。所以你可以看到很多網頁，瀏覽器中的網址沒變，但是資料照樣是可以更新的。這對我們正確爬取資料造成了一定影響，我們

python 爬蟲2-正則表達式抓取拉勾網職位信息

headers mode data .cn 保存 time exc href ace import requestsimport re #正則表達式import time import pandas #保存成 CSV #header={‘User-Agent‘:‘M

Python scrapy 爬取拉勾網招聘資訊

週末折騰了好久，終於成功把拉鉤網的招聘資訊爬取下來了。現在總結一下！環境： windows 8.1 + python 3.5.0 首先使用 scrapy 建立一個專案： E:\mypy> scrapy startproject lgjob 建立後目錄結構：

Python 爬蟲-模擬登入知乎-爬取拉勾網職位資訊

用Python寫爬蟲是很方便的,最近看了xlzd.me的文章，他的文章寫的很到位，提供了很好的思路。因為他的文章部分程式碼省略了。下面是基於他的文章的三個程式碼片段: 基於Python3,Python2的話需要修改下input輸入函式和print的用法。爬取豆瓣電影top250 爬取拉勾網職位資訊模擬

scrapy爬取拉勾網python職位+Mysql+視覺化

在進行爬取目標網站中為遇到一個問題，爬取5頁資料之後會出錯，設定了每一次請求的隨機超時間10-20->time.sleep(random.randint(10, 20))，同樣會被拉勾網禁止請求資料，可能被輕度判定為爬取，所以可以設定每一次的隨機超時間為20-30秒，就可以解決這個問題。

用python爬取拉勾網招聘資訊並以CSV檔案儲存

爬取拉勾網招聘資訊 1、在網頁原始碼中搜索資訊，並沒有搜到，判斷網頁資訊使用Ajax來實現的 2、檢視網頁中所需的資料資訊，返回的是JSON資料； 3、條件為北京+資料分析師的公司一共40087家，而實際拉勾網展示的資料只有 15條/頁 * 30頁 = 450條，所以需要判斷

HttpClient爬取拉勾網招聘資訊

1.匯入jar包 <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>htt

Python爬取拉勾網招聘資訊存入資料庫

先抓包分析我們想要獲取的資料，很明顯都是動態資料，所以直接到Network下的XHR裡去找，這裡我們找到具體資料後，就要去尋分析求地址與請求資訊了。還有需要提交的表單資訊分析完畢之後，我們就可以開始寫我們的爬蟲專案了。一.編寫Itemitem編寫比較簡單# 拉鉤職位資訊 cl

Python爬取拉勾網招聘資訊

此程式碼執行建議Python3，省卻中文編碼的麻煩遇到的幾個問題：（1）拉鉤網的資料是通過js的ajax動態生成，所以不能直接爬取，而是通過post’http://www.lagou.com/jobs/positionAjax.json?needAddt

Python爬取拉勾網招聘資訊並可視化分析

需求: 1:獲取指定崗位的招聘資訊 2:對公司地區,公司待遇,學歷情況,工作經驗進行簡單分析並可視化展示視覺化分析: 公司地區:柱狀圖,地圖公司待遇:雲圖公司-學歷情況:餅圖公司工作經

python爬蟲: 爬取拉勾網職位並分析

0. 前言本文從拉勾網爬取深圳市資料分析的職位資訊，並以CSV格式儲存至電腦, 之後進行資料清洗, 生成詞雲，進行描述統計和迴歸分析,最終得出結論. 1. 用到的軟體包 Python版本： Python3.6 requests: 下載網

爬蟲學習之17：爬取拉勾網網招聘資訊（非同步載入+Cookie模擬登陸）

很多網站需要通過提交表單來進行登陸或相應的操作，可以用requests庫的POST方法，通過觀測表單原始碼和逆向工程來填寫表單獲取網頁資訊。本程式碼以獲取拉勾網Python相關招聘職位為例作為練習。開啟拉鉤網，F12進入瀏覽器開發者工具，可以發現網站使用了A

Scrapy爬取拉鉤網的爬蟲（爬取整站CrawlSpider）

經過我的測試，拉鉤網是一個不能直接進行爬取的網站，由於我的上一個網站是扒的介面，所以這次我使用的是scrapy的整站爬取，貼上當時的程式碼（程式碼是我買的視訊裡面的，但是當時是不需要登陸就可以爬取的）： class LagouSpider(CrawlSpider):

怎樣快速獲取拉勾網職位招聘資訊呢？

本文主要介紹“公司資訊和招聘職位資訊爬蟲（拉勾網）”（以下簡稱“拉勾招聘爬蟲”）的使用教程及注意事項。想分析某一職位的薪資水平和發展前景，想做一個歷年職位薪資排名表，想了解哪些職位最受歡迎，都需要有招聘資料的支撐，那如何獲取這些招聘資訊呢？莫慌，已經給你備好了強力的工具——“拉勾招聘爬

【爬蟲相關】爬蟲爬取拉勾網的安卓招聘資訊

我爬取了30頁拉勾上安卓的招聘資料告訴你安卓崗位究竟要一個什麼樣的人我知道沒圖你們是不會看的如圖：以上是抓取了30頁拉勾上關於招聘安卓相關的內容然後根據詞頻製作出詞雲圖出現最多的詞是開發經驗整體流程總共分為2步 1.爬蟲爬取相關的招聘資訊 2.根

scrapy抓取拉勾網職位資訊（四）——對欄位進行提取

相關推薦