scrapy模擬瀏覽器翻頁爬取智聯

阿新 • • 發佈：2018-12-05

智聯爬取中,頁碼的數字和url是不匹配的,因此盲目的拼接url會造成錯誤,因此可以採用模擬瀏覽器爬取網頁
要模擬瀏覽器需要知道scrapy流程,簡圖如下:
在這裡插入圖片描述
這裡只是簡單的寫一些偽碼,設計的資料清洗部分請看scrapy資料清洗

middleswares.py

from scrapy.http import HtmlResponse
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
class SeleniumMiddleware(object):
    def __init__(self):
        self.options = Options()
        self.browser = webdriver.Chrome(chrome_options = self.options)
    def process_request(self,request,spider):
        if int(request.meta['page']) ==2:
            self.browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')
            time.sleep(1)
            div = self.browser.find_element_by_css_selector('.soupager')
            next_page = div.find_elements_by_tag_name('button')
            #兩種方法二選一
            # next_page[1].click()
            for button in next_page:
                if button.text == "下一頁":
                    button.click()
        else:
            if int(request.meta['page']) == 0:
                try:
                    print('url is :::', request.url)
                    self.browser.get(request.url)
                except TimeoutException as e:
                    print('超時')
                time.sleep(5)
                return HtmlResponse(url=self.browser.current_url, body=self.browser.page_source,
                                    encoding='utf-8', request=request)


#爬取過程中有時候會出現一種情況就是網頁一直在載入,右上角有一個小圓圈一直再轉,此時把圓圈差掉內容就可以加載出來
#browser.execute_script('window.stop()') 用這個方法.

spiders.py

# -*- coding: utf-8 -*-
import time

import lxml.html

import scrapy
from lxml import etree
from scrapy import Request
class Jobparse():
    def __init__(self):
        pass
def parse_div_content(html_str):
    pass

def parse_lxml_zhilian(html_str):

    tree = lxml.html.fromstring(html_str)
    job_url = tree.xpath('//a[@class="contentpile__content__wrapper__item__info__boxle"]/@href')
    job_name = tree.xpath('//a[@class="contentpile__content__wrapper__item__info__boxle"]/@title')

    print(job_url)
    print(job_name)
    return job_url

#全部變數判斷翻頁速度與下載速度
count = 0
class ZhilianSpider(scrapy.Spider):
    name = 'zhilian'
    # allowed_domains = ['ts.zhaopin.com']
    # start_urls = ['http://ts.zhaopin.com/']

    def start_requests(self):
        url_str = "https://sou.zhaopin.com/?pageSize=60&jl=489&kw=python&kt=3"
        yield Request(url_str, callback=self.parse, dont_filter=True, meta={'page': '0'})

    def parse(self, response):
        # rs = response.css('div:nth-child(2)').extract()
        # print('rs is :::::', rs)
        # page_next = response.css('.soupager').extract()
        # print('page next is ::::', page_next)
        rs = response.css('div.contentpile_content_wrapper:nth-child(2)').extract()
        page_next = response.css('.soupager').extract()
        #假設每頁60條資料 沒翻一頁資料多60條
        global count
        count += 60
        for r in rs:
            job_url = parse_lxml_zhilian(r)
            yield Request(url=job_url,callback=self.parse_detail,meta={'page': '3'}, dont_filter=True)

        if len(page_next) > 0:
            #當資料>300可以讓翻頁暫停等待資料下載
            if count > 300:
                time.sleep(0.5)
            # 使用selenium模擬點選下一頁，該請求不會產生實質的下載動作
            yield Request(url=response.url, callback=self.parse, meta={'page': '2'}, dont_filter=True)
    def parse_detail(self,response):
        #資料沒下載一條,count - 1
        pass
        global count
        count -= 1



#實現瀏覽器模擬與非模擬  只要中介軟體中不return 該請求就會自動留到downloader
#控制翻頁速度和下載速度同步:

scrapy模擬瀏覽器翻頁爬取智聯

智聯爬取中,頁碼的數字和url是不匹配的,因此盲目的拼接url會造成錯誤,因此可以採用模擬瀏覽器爬取網頁要模擬瀏覽器需要知道scrapy流程,簡圖如下: 這裡只是簡單的寫一些偽碼,設計的資料清洗部分請看scrapy資料清洗 middleswares.py from scrap

使用scrapy框架+模擬瀏覽器方法實現爬取智聯的職位資訊

由於智聯的頁面是由js動態載入的,一般的方法只能得到js載入前的頁面,為了得到載入過的頁面需要通過模擬瀏覽器來拿到完整的頁面. 下面的程式碼只是簡單的實現,爬取智聯頁面的部分功能,其他根據需要自己實現中介軟體(middleswares.py)程式碼: from scrapy.ht

使用scrapy框架,用模擬瀏覽器的方法爬取京東上面膜資訊,並存入mysql,sqlite,mongodb資料庫

因為京東的頁面是由JavaScript動態載入的所以使用模擬瀏覽器的方法進行爬取,具體程式碼如下 : spider.py # -*- coding: utf-8 -*- import scrapy from scrapy import Request from jdpro.items

scrapy 爬取智聯招聘

準備工作　　1. scrapy startproject Jobs　　2. cd Jobs　　3. scrapy genspider ZhaopinSpider www.zhaopin.com　　4. scrapy crawl ZhaopinSpider　　5. pip install d

爬取拉勾網資訊，翻頁爬取

import requests #這個庫等價於 urllib 和urllib2 import bs4 #作用是用來解析網頁的 import json#主要是一種資料交換格式 import time de

Python-selenium翻頁爬取csdn博客保存數據入mysql

一個數據截圖代碼 on() 博客 cat utf8 data csdn博客部分截圖博客鏈接：https://blog.csdn.net/kevinelstri/article/list/1? 此次目的是要爬取文章標題，發表文章時間以及閱讀數量 1.瀏覽器

Beautiful Soup爬蟲——爬取智聯招聘的資訊並存入資料庫

本人目前在校本科萌新…第一次寫有所不足還請見諒前期準備智聯招聘網頁讓我們來搜尋一下python 發現網頁跳轉到這讓我們看一下原始碼發現並沒有我們所需要的資料一開始我不信邪用requests嘗試了一下 import requests header

selenium+PyQuery+chrome headless 爬取智聯招聘求職資訊

最近導師讓自己摸索摸索Python爬蟲，好了就開始一發不可收拾的地步。正巧又碰到有位同學需要一些求職資訊對求職資訊進行資料分析，本著練練手的目的寫了用Python爬取智聯招聘網站的資訊。這一爬取不得了，智聯網站更新了，以前的大佬們的程式碼不能用，而且全是動態載入，反爬蟲著實對

爬蟲二：爬取智聯招聘職位資訊

1. 簡介因為想要找到一個數據分析的工作，能夠了解到市面上現有的職位招聘資訊也會對找工作有所幫助。今天就來爬取一下智聯招聘上資料分析師的招聘資訊，並存入本地的MySQL。 2. 頁面分析 2.1 找到資料來源開啟智聯招聘首頁，選擇資料分析師職位，跳轉進入資料分析師的詳情頁面。我

(轉)python爬蟲例項——爬取智聯招聘資訊

受友人所託，寫了一個爬取智聯招聘資訊的爬蟲，與大家分享。本文將介紹如何實現該爬蟲。目錄網頁分析網頁的組織結構如下：將網頁程式碼儲存為html檔案（檔案見

python爬蟲例項——爬取智聯招聘資訊

受友人所託，寫了一個爬取智聯招聘資訊的爬蟲，與大家分享。本文將介紹如何實現該爬蟲。目錄網頁分析網頁的組織結構如下：將網頁程式碼儲存為html檔案（檔案見最後連結），使用的軟體是Sublime Text，我們所需的內容如下圖所示：

python爬蟲例項之爬取智聯招聘資料

這是作者的處女作，輕點噴。。。。實習在公司時領導要求學習python，python的爬蟲作為入門來說是十分友好的，話不多說，開始進入正題。主要是爬去智聯的崗位資訊進行對比分析出java和python的趨勢，爬取欄位：工作地點，薪資範圍，要求學歷，

Python爬蟲爬取智聯招聘職位資訊

目的：輸入要爬取的職位名稱，五個意向城市，爬取智聯招聘上的該資訊，並列印進表格中 #coding:utf-8 import urllib2 import re import xlwt class ZLZP(object): def __init__(self

【爬蟲入門】【Json】爬取智聯招聘

爬蟲中也會經常會遇到以JSON資料返回內容的網站，這種網站不再需要使用正則表示式匹配文字，直接分析網站是否含有介面返回JSON，如果有，直接使用json.load()對json字串進行解析就可以獲取資料。 # pip install requests:比較流行的第三方請求庫 #https

python3 爬蟲爬取智聯招聘崗位資訊

這套程式基於python3 ，使用requests和re正則表示式，只需要將程式儲存為.py檔案後，即可將抓取到的資料儲存到指定路徑的Excel檔案中。程式在終端中啟動，啟動命令： #python3 檔名.py 關鍵字城市 python3 zhilian.p

初識Scrapy框架+爬蟲實戰(7)-爬取鏈家網100頁租房資訊

Scrapy簡介 Scrapy，Python開發的一個快速、高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試。Scrapy吸引人的地方在於它是一個框架，任何人都可以根

瀏覽器翻頁

page itl .exe cti sid __name__ cee pan __main__ from selenium import webdriver import time def capture(url, save_fn="capture.png"):

第三百三十三節，web爬蟲講解2—Scrapy框架爬蟲—Scrapy模擬瀏覽器登錄—獲取Scrapy框架Cookies

pid 設置 ade form 需要 span coo decode firefox 第三百三十三節，web爬蟲講解2—Scrapy框架爬蟲—Scrapy模擬瀏覽器登錄模擬瀏覽器登錄 start_requests()方法，可以返回一個請求給爬蟲的起始網站，這個返回的請求相

模擬登陸+數據爬取 (python+selenuim)

ref section ext 可能 https text entity 數據爬取 span 以下代碼是用來爬取LinkedIn網站一些學者的經歷的，僅供參考，註意：不要一次性大量爬取會被封號，不要問我為什麽知道 #-*- coding:utf-8 -*- from se

Scrapy爬蟲（5）爬取當當網圖書暢銷榜

The log sdn detail iss 就是 pan 微信公眾號打開 ??本次將會使用Scrapy來爬取當當網的圖書暢銷榜，其網頁截圖如下： ??我們的爬蟲將會把每本書的排名，書名，作者，出版社，價格以及評論數爬取出來，並保存為csv格式的文件。項目的具體創建就不

scrapy模擬瀏覽器翻頁爬取智聯

相關推薦