Scrapy框架-Spider和CrawlSpider的區別

阿新 • • 發佈：2019-02-16

sta don .com num 鏈接 links pan src ()

1.目標
2.方法1：通過Spider爬取
3. 通過CrawlSpider爬取

1.目標

http://wz.sun0769.com/index.php/question/questionType?type=4&page=

爬取每個頁面鏈接的內部內容和投訴信息

2.方法1：通過Spider爬取

# -*- coding: utf-8 -*-
import scrapy
from dongguanSpider.items import DongguanItem

class SunSpider(scrapy.Spider):
    name = ‘sun‘
    allowed_domains = [‘wz.sun0769.com‘]
    url = ‘http://wz.sun0769.com/index.php/question/questionType?type=4&page=‘
    offset = 0

    start_urls = [url + str(offset)]


    def parse(self, response):
        # 每一頁的所有帖子的鏈接集合
        links = response.xpath(‘//div[@class="greyframe"]/table//td/a[@class="news14"]/@href‘).extract()
        # 叠代取出集合裏的鏈接
        for link in links:
            # 提取列表裏每個帖子的鏈接，發送請求並調用parse——item來處理
            yield scrapy.Request(link, callback=self.parse_item)

        # 頁面終止條件成立前，會一直自增offset的值，並發送新的頁面請求，調用parse方法處理
        if self.offset<=71160:
            self.offset +=30

            yield scrapy.Request(self.url + str(self.offset), callback=self.parse)


    def parse_item(self, response):

        item = DongguanItem()

        item[‘title‘] = response.xpath(‘//div[@class="wzy1"]/table[1]//tr/td[2]/span[1]/text()‘).extract()[0].split(‘：‘)[-1]
        item[‘url‘] = response.url
        item[‘number‘] = response.xpath(‘//div[@class="wzy1"]/table[1]//tr/td[2]/span[2]/text()‘).extract()[0].split(‘:‘)[-1]

        # 是否是圖片
        content_pic = response.xpath(‘//div[@class="textpic"]/img/@src‘).extract()

        if len(content_pic)==0:
            content_no_pic = response.xpath(‘//div[@class="wzy1"]/table[2]//tr/td/text()‘).extract()[0]
            item[‘content‘] = "".join(content_no_pic).replace("\xa0", "")
        else:
            item[‘content‘] = "".join(content_pic[0]).replace("\xa0", "")

        yield item

3. 通過CrawlSpider爬取

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from dongguan.items import DongguanItem


class SunSpider(CrawlSpider):
    name = ‘sun‘
    allowed_domains = [‘wz.sun0769.com‘]
    start_urls = [‘http://wz.sun0769.com/index.php/question/questionType?type=4&page=30‘]

    rules = [
        Rule(LinkExtractor(allow=(‘type=4&page=\d+‘))),
        Rule(LinkExtractor(allow = (‘/html/question/\d+/\d+.shtml‘)), callback = ‘parseDongguan‘)
    ]

    def parseDongguan(self, response):

        item = DongguanItem()


        item[‘title‘] = response.xpath(‘//div[@class="wzy1"]/table[1]//tr/td[2]/span[1]/text()‘).extract()[0].split(‘：‘)[-1]
        item[‘url‘] = response.url
        item[‘number‘] = response.xpath(‘//div[@class="wzy1"]/table[1]//tr/td[2]/span[2]/text()‘).extract()[0].split(‘:‘)[-1]

        # 是否是圖片
        content_pic = response.xpath(‘//div[@class="textpic"]/img/@src‘).extract()

        if len(content_pic)==0:
            content_no_pic = response.xpath(‘//div[@class="wzy1"]/table[2]//tr/td/text()‘).extract()[0]
            item[‘content‘] = "".join(content_no_pic).replace("\xa0", "")
        else:
            item[‘content‘] = "".join(content_pic[0]).replace("\xa0", "")

        yield item

Scrapy框架-Spider和CrawlSpider的區別

sta don .com num 鏈接 links pan src () 目錄 1.目標 2.方法1：通過Spider爬取 3. 通過CrawlSpider爬取

scrapy框架簡介和配置使用

scrapy框架的簡介和基礎使用概念：為了爬取網站資料而編寫的一款應用框架。框架其實就是一個集成了相應的功能且具有很強通用性的專案模板。安裝： 1. linux mac os:pip install scrapy 直接pip就能安裝完成 2. win:安裝比較麻煩，按下面步驟

爬蟲-scrapy框架簡介和基礎應用

一.什麼是Scrapy？　　Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架，非常出名，非常強悍。所謂的框架就是一個已經被集成了各種功能（高效能非同步下載，佇列，分散式，解析，持久化等）的具有很強通用性的專案模板。對於框架的學習，重點是要學習其框架的特性、各個功能的用法即可。二.安裝

python爬蟲：scrapy框架xpath和css選擇器語法

Xpath基本語法一、常用的路徑表示式：表示式描述例項 nodename 選取nodename節點的所有子節點 //div / 從根節點選取

（六--一）scrapy框架簡介和基礎應用

一什麼是scrapy框架官方解釋 Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中。其最初是為了頁面抓取 (更確切來說, 網路抓取 )所設計的，也可以應用在獲取API所返回的資料(例如 Amazon

10.scrapy框架簡介和基礎應用

今日概要 scrapy框架介紹環境安裝基礎使用今日詳情一.什麼是Scrapy？　　Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架，非常出名，非常強悍。所謂的框架就是一個已經被集成了各種功能（高效能非同

scrapy框架簡介和基礎應用

18、python網路爬蟲之Scrapy框架中的CrawlSpider詳解

正則 art _id 糗事百科 put pytho 切換 ron 提交 CrawlSpider的引入：　　　　提問：如果想要通過爬蟲程序去爬取”糗百“全站數據新聞數據的話，有幾種實現方法？　　方法一：基於Scrapy框架中的Spider的遞歸爬取進行實現（Reque

Spider和CrawlSpider的原始碼分析

一、Spider原始碼分析在對CrawlSpider進行原始碼分析之前，先對Spider原始碼進行一個分析。 1.1、Spider介紹及主要函式講解 Spider類定義瞭如何爬取某個（或某些）網站。包括了爬取的動作（是否跟進連結）以及如何從網頁的內容中提取結構化資料（

python爬蟲----scrapy框架簡介和基礎應用

就是 all 安裝持久化數據 whl 執行編寫通用一、什麽是scrapy？　　scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架，非常出名，非常強悍。所謂的框架就是一個已經被集成了各種功能（高性能異步下載，隊列，分布式，解析，持久化等）的具有很

Scrapy基礎第三節：Scrapy框架結構和元件介紹

前置知識：掌握Python的基礎知識對爬蟲基礎有一定了解說明：執行環境 Win10，Python3 64位目錄: 1 Scrapy框架組成結構 2 Scapry資料流程 Scrap

Python爬蟲：scrapy框架Spider類引數設定

Spider設定引數說明示例 name 爬蟲名稱，必須唯一 name = “myspider” handle_httpstatus_list 需要

SSM框架的sql中參數註入（#和$的區別）

沒有 result ddr 其他防止 date_time ${} ext post 1 <select id="findUsersByUserName2" resultType="java.util.Map" parameterType="Params">

scrapy框架系列 (5) Spider類

err pre inf ack tail ise dump 內容 sta Spider Spider類定義了如何爬取某個(或某些)網站。包括了爬取的動作(例如:是否跟進鏈接)以及如何從網頁的內容中提取結構化數據(爬取item)。換句話說，Spider就是您定義爬取的動作及

mybatis框架中 #和$傳遞參數的區別和註意

字符串傳遞註意自動 nbsp val sql value bat #{}： 1、是預編譯 2、編譯成占位符 3、可以防止sql註入 4、自動判斷數據類型 5、一個參數時，可以使用任意參數名稱進行接收 ${}: 1、非預編譯 2、 sq

Anaconda安裝以及scrapy框架和scrapyd的安裝

直接好用希望說了 install 自動 blog 爬蟲點擊把學到的分享到自己的隨筆之中~希望能幫助到各位新入駐的小白和以後的自己。這兩天我的老師偶爾提到了Anaconda的框架~就帶大家來安裝一下~ 首先我們需要再網上下載一個Anaconda的安裝包，網址是：h

爬蟲Scrapy框架-Crawlspider鏈接提取器與規則解析器

一個 htm turn 創建 for tin Coding lines spi 一：Crawlspider簡介　　　　CrawlSpider其實是Spider的一個子類，除了繼承到Spider的特性和功能外，還派生除了其自己獨有的更加強大的特性和功能。其中最顯著的功能就是

scrapy框架之cookie和代理操作

一，scrapy傳送post請求 scrapy框架中預設傳送的是get請求，原始碼： scrapy.Spider父類中的start_request方法： def start_requests(self): cls = self.__class__ if

scrapy框架之日誌等級和請求傳參

一.Scrapy的日誌等級　　- 在使用scrapy crawl spiderFileName執行程式時，在終端裡列印輸出的就是scrapy的日誌資訊。　　- 日誌資訊的種類：　　　　　　　　ERROR ：一般錯誤　　　　　　　　WARNING : 警告　　　　　　　　INFO : 一般

scrapy框架之CrawlSpider

提問：如果想要通過爬蟲程式去爬取”糗百“全站資料新聞資料的話，有幾種實現方法？方法一：基於Scrapy框架中的Spider的遞迴爬取進行實現（Request模組遞歸回調parse方法）。方法二：基於CrawlSpider的自動爬取進行實現（更加簡潔和高效）。一，介紹

Scrapy框架-Spider和CrawlSpider的區別

1.目標

2.方法1：通過Spider爬取

3. 通過CrawlSpider爬取

相關推薦