Scrapy框架的學習(5.scarpy實現翻頁爬蟲，以及scrapy.Request的相關引數介紹)

阿新 • • 發佈：2019-01-13

1. 建立爬蟲專案： scrapy startporject tencent

然後進入到專案中： cd tencent

建立爬蟲：scrapy genspider tencent_spider tencent.com

2. 在開始寫程式碼之前，有些知識要知道

可以找到頁面上的下一頁的url地址，然後用解析函式去處理，解析函式可以是當前函式，類似於函式遞迴

通過在Request中指定callback引數來確定哪個解析函式來解析

3. 爬蟲的程式碼。 tencent_spider.py 爬取騰訊招聘的網站。
# -*- coding: utf-8 -*-
import scrapy


class TencentSpiderSpider(scrapy.Spider):
    name = 'tencent_spider'
    allowed_domains = ['tencent.com']
    start_urls = ['https://hr.tencent.com/position.php']

    def parse(self, response):
        tr_list = response.xpath("//table[@class='tablelist']//tr")[1:-1]
        for tr in tr_list:
            item = {}
            item["position"] = tr.xpath("./td/a/text()").extract_first()
            item["category"] = tr.xpath(".//td[2]/text()").extract_first()
            item["date"] = tr.xpath(".//td[5]/text()").extract_first()
            yield item
        # 找到下一頁的url地址
        next_url = response.xpath("//a[@id='next']/@href").extract_first()
        if next_url != "javascript:;":
            next_url = "https://hr.tencent.com/"+next_url
            yield scrapy.Request(
                next_url,
                # callback 指定傳入的url交給那個解析函式去處理
                callback=self.parse
            ) 
開啟pipeline :

在pipelines.py裡面寫上列印，先不儲存，看列印的結果
class TencentPipeline(object):
    def process_item(self, item, spider):
        print(item)
        return item
執行爬蟲框架： scrapy crawl tencent_spider

可以看到結果不斷打印出來：

可以在pipelines進行相應的儲存程式碼的編寫

4. calkback引數：當callback引數指定解析函式時，

自已可以在爬蟲中定義解析函式

meta: 兩個解析函式之間傳遞資料

例如：
    def parse(self,response):
            """其他的先省略，主要看下面的引數傳遞"""
            yield scrapy.Request(
                next_url,
                # callback 指定傳入的url交給那個解析函式去處理
                callback=self.parse,
                meta={"item": item}
            )

    """如果還有一解析函式，資料就通過meta傳遞過來"""
    def parese1(self,response):
        """可以直接通過鍵取出裡面的值"""
        response.meta["item"]
    
dont_filter: 在Scrapy中預設請求是會去重的，請求過的url不會再請求

想要不去重的話，就設定為True

如果請求的頁面上的資料會根據時間的變化會更新，這時候就要這個改變引數

Scrapy框架的學習(5.scarpy實現翻頁爬蟲，以及scrapy.Request的相關引數介紹)

1. 建立爬蟲專案： scrapy startporject tencent 然後進入到專案中： cd tencent 建立爬蟲：scrapy genspider tencent_spider

Scrapy框架之基於RedisSpider實現的分散式爬蟲

需求：爬取的是基於文字的網易新聞資料(國內、國際、軍事、航空)。　　基於Scrapy框架程式碼實現資料爬取後，再將當前專案修改為基於RedisSpider的分散式爬蟲形式。一、基於Scrapy框架資料爬取實現 1、專案和爬蟲檔案建立 $ scrapy startproject wangyiPro $

Extjs3.3.1 實現翻頁後，可記錄已經選擇的選項

第一步：定義記錄選擇選項變數: var collection=new Ext.util.MixedCollection(); 第二步：在store的lisenters屬性上新增兩個event. 如下: load:function(store, records, opt

Scrapy框架的學習(9.Scrapy中的CrawlSpider類的作用以及使用，實現優化的翻頁爬蟲)

1.CrawlSpider類通過一些規則（rules），使對於連結（網頁）的爬取更具有通用性，換句話說，CrawlSpider爬蟲為通用性的爬蟲，而Spider爬蟲更像是為一些特

在scrapy框架下爬蟲中如何實現翻頁請求

通過scrapy.Request實現翻頁請求： scrapy.Request(url, callback=None, method='GET', headers=None, body=None, cookies=None, meta=None, en

springboot學習筆記5(JPA 實現分頁、排序、返回map集合）

前言在相當長的一段時間裡，實現應用程式的資料訪問層非常麻煩。必須編寫太多的模板程式碼來執行簡單的查詢，以及執行分頁。Spring data JPA旨在通過減少實際需要的工作量來顯著改進資料訪問層的實現。作為開發人員，您可以編寫儲存庫介面，包括自定義查詢程式

基於asp.net + easyui框架，一步步學習easyui-datagrid——實現分頁和搜尋（二）

目錄：上篇部落格我只是將介面的部分完成了，繼續上篇部落格的內容，這篇部落格我們需要將資料庫中的記錄顯示到介面上，並實現資料的分頁顯示。曾經我寫過分頁的部落格，分頁很簡單，本質區別在於分頁時從資料庫讀取資訊的方式：假分頁：一次性讀取

scrapy框架系列 (5) Spider類

err pre inf ack tail ise dump 內容 sta Spider Spider類定義了如何爬取某個(或某些)網站。包括了爬取的動作(例如:是否跟進鏈接)以及如何從網頁的內容中提取結構化數據(爬取item)。換句話說，Spider就是您定義爬取的動作及

爬蟲系列---Scrapy框架學習

產生 follow everyone 頁面 pos per iso select -s 項目的需求需要爬蟲某網的商品信息，自己通過Requests,BeautifulSoup等編寫了一個spider，把抓取的數據存到數據庫裏面。跑起來的感覺速度有點慢，尤其是進入詳情頁

Scrapy框架學習（一）Scrapy框架介紹

Scrapy框架的架構圖如上。 Scrapy中的資料流由引擎控制，資料流的過程如下： 1.Engine開啟一個網站，找到處理該網站的Sprider，並向該Sprider請求第一個要爬取得URL。 2.Engine從Sprider中獲取到第一個要爬的URL，並通過Scheduler以Requ

Scrapy框架學習（二）Scrapy入門

接下來以爬取quote.toscrape.com為例完成一遍Scrapy的抓取流程。首先建立一個Scrapy專案。開啟命令列，輸入以下命令： scrapy startproject projectname 即可在當前位置建立一個Scrapy專案。我們建立一個名為tutorial的專案： scrapy

scrapy框架學習，理解不深得到的問題，我遇到的 from avimageitems.items import AvimageItem ModuleNotFoundError: No module named 'scrapy name'

心情複雜呀，這個問題之前找不到解決的思路，原因是沒有人會像我這麼粗心的，沒有認真去看書就寫，不過我是真的沒注意到這個框架名的是什麼，現在才發現setting中的BOT_NAME的作用，不過我是在之前的課程裡瞭解到的

Scrapy框架之基於RedisSpider實現的分布式爬蟲

.com ont 如何 test head 下載 obj gen 好的需求：爬取的是基於文字的網易新聞數據(國內、國際、軍事、航空)。　　基於Scrapy框架代碼實現數據爬取後，再將當前項目修改為基於RedisSpider的分布式爬蟲形式。一、基於Scrapy框架數據

Python3 Scrapy框架學習一：爬取貓眼Top100榜

以下操作基於Windows平臺。開啟CMD命令提示框：輸入如下命令：開啟專案裡的items.py檔案，定義如下變數，用於儲存。 class MaoyanItem(scrapy.Item): # define the fields for your

Python3 Scrapy框架學習二：爬取豆瓣電影Top250

開啟專案裡的items.py檔案，定義如下變數， import scrapy from scrapy import Item,Field class DoubanItem(scrapy.Item): # define the fields for your it

Python3 Scrapy框架學習三：爬取煎蛋網加密妹子圖片(全爬)

以下操作基於Windows平臺。開啟CMD命令提示框：新建一個專案如下：開啟專案裡的setting檔案，新增如下程式碼 IMAGES_STORE = './XXOO' #在當前目錄下新建一個XXOO資料夾 MAX_PAGE = 40 #定義爬取的總得頁數

Python3 Scrapy框架學習四：爬取的資料存入MongoDB

1. 新建一個scrapy專案： 2.使用PyCharm開啟該專案 3.在settings.py檔案中新增如下程式碼： #模擬瀏覽器，應對反爬 USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK

Python3 Scrapy框架學習五：使用crawl模板爬取豆瓣Top250，並存入MySql、MongoDB

1.新建專案及使用crawl模板 2.頁面解析 rules = (Rule(LinkExtractor(allow=r'subject/\d+/',restrict_css = '.hd > a[class = ""]'), callback='parse_it

使用scrapy框架+模擬瀏覽器方法實現爬取智聯的職位資訊

由於智聯的頁面是由js動態載入的,一般的方法只能得到js載入前的頁面,為了得到載入過的頁面需要通過模擬瀏覽器來拿到完整的頁面. 下面的程式碼只是簡單的實現,爬取智聯頁面的部分功能,其他根據需要自己實現中介軟體(middleswares.py)程式碼: from scrapy.ht

RPG2.0戰鬥框架學習5之目標被擊處理

前言這篇學習，作用到（攻擊/治癒/BUFF）到目標後的邏輯處理. 步驟 1 到子彈接觸到目標後，會執行目標上AI指令碼的BeHit方法 /// <summary>子彈打到目標，計算傷害值，根據玩家和敵人的屬性,在子彈所有人身上計算出目標承受的傷

Scrapy框架的學習(5.scarpy實現翻頁爬蟲，以及scrapy.Request的相關引數介紹)

相關推薦