selelinum+PhantomJS 爬取拉鉤網職位

阿新 • • 發佈：2018-06-24

one while 對象 bili exe 5.0 設置 expect money

使用selenium+PhantomJS爬取拉鉤網職位信息，保存在csv文件至本地磁盤

拉鉤網的職位頁面，點擊下一頁，職位信息加載，但是瀏覽器的url的不變，說明數據不是發送get請求得到的。

我們不去尋找它的API。這裏使用另一種方式：使用PhantomJS模擬瀏覽，通過單擊頁面獲取下一頁。

這裏的PhantomJS是一個沒有界面的瀏覽器。

 1 from selenium import webdriver
 2 import time
 3 import random
 4 
 5 from selenium.webdriver.common.by import By
 6 from selenium.webdriver.support import 
 expected_conditions as EC
 7 from selenium.webdriver.support.ui import WebDriverWait
 8 
 9 ‘‘‘
10 使用selenium+PhantomJS爬取拉鉤網職位信息，保存到csv文件至本地磁盤
11 需要加請求頭
12 ‘‘‘
13 
14 
15 ‘‘‘
16 phantomjs.page.customHeaders.   :自定義請求頭的固定寫法
17 如：定義代理：phantomjs.page.customHeaders.User-Agent
18 ‘‘‘
19 dc = {
20     ‘phantomjs.page.customHeaders.User-Agent 
‘:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36‘
21 }
22 
23 # 創建瀏覽器對象
24 browser = webdriver.PhantomJS(executable_path=r‘E:\PycharmProjects\pachong\phantomjs-2.1.1-windows\phantomjs-2.1.1-windows\bin\phantomjs.exe‘,desired_capabilities=dc)
 
25 
26 # 發送請求
27 browser.get(‘https://www.lagou.com/jobs/list_?labelWords=&fromSearch=true&suginput=‘)
28 time.sleep(2)
29 
30 # 保存網頁截圖
31 browser.save_screenshot(‘lagou.png‘)
32 
33 # 實例化wait對象 設置等待超時時間為20秒
34 wait = WebDriverWait(browser,20)
35 
36 # # 創建csv文件
37 f = open(‘lagou.csv‘,‘w‘,encoding=‘utf-8‘)
38 
39 while True:
40     # 獲取數據
41     job_list = browser.find_elements_by_css_selector(‘.item_con_list li‘)
42     for job in job_list:
43         pname = job.find_element_by_tag_name(‘h3‘).text
44         ptime = job.find_element_by_class_name(‘format-time‘).text
45         company = job.find_element_by_css_selector(‘.company_name a‘).text
46         money = job.find_element_by_class_name(‘money‘).text
47         exp = job.find_element_by_class_name(‘li_b_l‘).text.split(‘ ‘)[1] #這裏的text不取div裏面的標簽的內容，只取div中的內容。類名為li_b_l的div有兩個，經驗屬於第二個，還有一個工作要求的
48         location = job.find_element_by_tag_name(‘em‘).text
49         reqtags = job.find_elements_by_css_selector(‘.li_b_l span‘) #div的類是li_b_l,裏面含有很多span標簽.會把工資的那一個也包含進來，後面需要處理
50         reqtags = ‘ ‘.join([reqtag.text for reqtag in reqtags][1:]) #每個條目的第一項是工資的那個，這裏使用列表的切片去掉。
51 
52         # 將數據放入一個列表，便於後面csv文件格式處理，使用，隔開每一項
53         data = [pname,ptime,company,money,exp,location,reqtags]
54         # print(data)
55         f.write(‘,‘.join(data) + ‘\n‘)
56 
57         print(data)
58     if ‘pager_next pager_next_disabled‘ not in browser.page_source:
59         # 獲取下一頁按鈕
60         wait.until(EC.element_to_be_clickable((By.CLASS_NAME,‘pager_next ‘))) #原網頁中的類的最後有一個空格
61         # 點擊進入下一頁
62         browser.find_element_by_class_name(‘pager_next ‘).click()
63         time.sleep(3 + random.random()*1) #時間需要延長一點，時間太短，頁面沒有加載完成，獲取數據會報錯
64     else:
65         break
66 
67 # 關閉文件
68 f.close()

selelinum+PhantomJS 爬取拉鉤網職位

one while 對象 bili exe 5.0 設置 expect money 使用selenium+PhantomJS爬取拉鉤網職位信息，保存在csv文件至本地磁盤拉鉤網的職位頁面，點擊下一頁，職位信息加載，但是瀏覽器的url的不變，說明數據不是發送get請求得到的

ruby 爬蟲爬取拉鉤網職位信息，產生詞雲報告

content 數據持久化 lag works wid spa 代碼職位要求思路：1.獲取拉勾網搜索到職位的頁數　　 2.調用接口獲取職位id 　　 3.根據職位id訪問頁面，匹配出關鍵字　　 url訪問采用unirest，由於拉鉤反爬蟲，短時間內頻繁訪問會被

根據搜尋內容爬取拉鉤網和招聘網的職位招聘資訊

程式碼：import requests import time import random ip_list = ['117.135.132.107', '121.8.98.196', '194.116.198.212'] #http請求頭資訊 headers={ 'Ac

用Python爬取拉鉤網招聘職位資訊

本文實現自動爬取拉鉤網招聘資訊，並將爬取結果儲存在本地文字中（也可以將資料存入資料庫）使用到的Python模組包（Python3）： 1.urllib.request 2.urllib.parse 3.json 簡單分析： 1.在向伺服器傳送請求，

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（1）

5-14更新注意：目前拉勾網換了json結構，之前是content - result 現在改成了content- positionResult - result,所以大家寫程式碼的時候要特別注意加上

python爬取拉鉤網招聘資訊

拉鉤網網址為：https://www.lagou.com/點選F12進入控制檯觀察結構，發現所有的招聘內容都在此json檔案中：注意headers中的請求url以及請求方法：還有表單資料：獲取以上資訊後，基本就可以開始爬取工作，注意，拉鉤網有反爬機制，所以需要使用cookie

python爬取拉鉤網資料

import requests import re#引用正則匹配 from bs4 import BeautifulSoup headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) A

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（2）

上次挖了一個坑，今天終於填上了，還記得之前我們做的拉勾爬蟲嗎？那時我們實現了一頁的爬取，今天讓我們再接再厲，實現多頁爬取，順便實現職位和公司的關鍵詞搜尋功能。之前的內容就不再介紹了，不熟悉的請一定要去看之前的文章，程式碼是在之前的基礎上修改的

Python 爬蟲-模擬登入知乎-爬取拉勾網職位資訊

用Python寫爬蟲是很方便的,最近看了xlzd.me的文章，他的文章寫的很到位，提供了很好的思路。因為他的文章部分程式碼省略了。下面是基於他的文章的三個程式碼片段: 基於Python3,Python2的話需要修改下input輸入函式和print的用法。爬取豆瓣電影top250 爬取拉勾網職位資訊模擬

Scrapy爬取拉勾網職位資訊

很多網站都用了一種叫做Ajax（非同步載入）的技術，通常我們會發現這種網頁，打開了，先給你看上面一部分東西，然後剩下的東西再慢慢載入，也就是區域性載入。所以你可以看到很多網頁，瀏覽器中的網址沒變，但是資料照樣是可以更新的。這對我們正確爬取資料造成了一定影響，我們

簡單python爬蟲爬取拉鉤網

因為個人需求，爬取了拉鉤網資料探勘相關職位的資料首先先進入到拉鉤的首頁，搜尋資料探勘，得到相關職位的列表，按F12，檢視網路檢視html，可以看到職位列表並不在html所以肯定是通過XHR非同步載入的，再切換到XHR，可以找到4個，點開檢視，可以看到在一個請求中有我們需要的資

python爬蟲: 爬取拉勾網職位並分析

0. 前言本文從拉勾網爬取深圳市資料分析的職位資訊，並以CSV格式儲存至電腦, 之後進行資料清洗, 生成詞雲，進行描述統計和迴歸分析,最終得出結論. 1. 用到的軟體包 Python版本： Python3.6 requests: 下載網

Scrapy爬取拉鉤網的爬蟲（爬取整站CrawlSpider）

經過我的測試，拉鉤網是一個不能直接進行爬取的網站，由於我的上一個網站是扒的介面，所以這次我使用的是scrapy的整站爬取，貼上當時的程式碼（程式碼是我買的視訊裡面的，但是當時是不需要登陸就可以爬取的）： class LagouSpider(CrawlSpider):

爬取拉鉤全站的職位信息

localhost http 一個 pipe mongod 分析信息 maximum 生成爬蟲學習到今天也告一段落了,利用一個項目把自己這幾個月的所學的知識來做一次總結項目所需要的知識比較全面,很適合練手, 一程序目的爬取拉鉤全站的職位信息存入mysql和mo

scrapy爬取拉勾網python職位+Mysql+視覺化

在進行爬取目標網站中為遇到一個問題，爬取5頁資料之後會出錯，設定了每一次請求的隨機超時間10-20->time.sleep(random.randint(10, 20))，同樣會被拉勾網禁止請求資料，可能被輕度判定為爬取，所以可以設定每一次的隨機超時間為20-30秒，就可以解決這個問題。

python 爬蟲2-正則表達式抓取拉勾網職位信息

headers mode data .cn 保存 time exc href ace import requestsimport re #正則表達式import time import pandas #保存成 CSV #header={‘User-Agent‘:‘M

CrawlSpider爬取拉鉤

CrawlSpider繼承Spider,提供了強大的爬取規則(Rule)供使用填充custom_settings,瀏覽器中的請求頭 from datetime import datetime import scrapy from scrapy.linkextractors import LinkExt

爬取拉鉤崗位資訊生成圖表和詞雲

1.環境準備 py版本：python3.6.7 需要使用的包列表檔案： requirements.txt certifi==2018.10.15 chardet==3.0.4 cycler==0.10.0 idna==2.7 jieba==0.39 kiwisolver==1.0.1

用python爬取拉勾網招聘資訊並以CSV檔案儲存

爬取拉勾網招聘資訊 1、在網頁原始碼中搜索資訊，並沒有搜到，判斷網頁資訊使用Ajax來實現的 2、檢視網頁中所需的資料資訊，返回的是JSON資料； 3、條件為北京+資料分析師的公司一共40087家，而實際拉勾網展示的資料只有 15條/頁 * 30頁 = 450條，所以需要判斷

HttpClient爬取拉勾網招聘資訊

1.匯入jar包 <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>htt

selelinum+PhantomJS 爬取拉鉤網職位

相關推薦