Scrapy框架的學習(2.scrapy入門，簡單爬取頁面，並使用管道(pipelines)儲存資料)

阿新 • • 發佈：2019-01-13

上個部落格寫了： Scrapy的概念以及Scrapy的詳細工作流程 https://blog.csdn.net/wei18791957243/article/details/86154068

1.scrapy的安裝 pip install scrapy

2.建立Scarpy專案:

在cmd中進入到想要建立Scrapy專案的路徑下(最好在已經建立好的pycharm的工程路徑下，就不用匯入Python編譯器等)：輸入命令建立：scrapy startproject scrapy的專案名稱



建立之後，可以在pycharm中檢視已經建立了什麼，一個



items.py 可以預先定義好爬取那些欄位

middlewares.py : 中間鍵

pipelines.py: 管道，進行資料的處理以及儲存

settings.py : 整個專案的設定

spiders資料夾; 建立好的爬蟲，建立好是空的

3.生成一個爬蟲

首先cd 建立的scrapy的專案名

然後  scrapy genspider 爬蟲名域名(即爬取的範圍)



然後進入到pycharm中檢視生成的東西:



4.然後就可以寫爬蟲了，這是一個專門測試scrapy的爬蟲網站：http://quotes.toscrape.com/ 裡面是一些名言名句

在剛才建立好的爬蟲名字的py檔案裡面寫。
# -*- coding: utf-8 -*-
import scrapy


class ScrapetestSpider(scrapy.Spider):
    name = 'scrapeTest'  # 爬蟲名
    '''允許爬取的範圍'''
    allowed_domains = ['quotes.toscrape.com']
    '''最開始請求的url地址'''
    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):
        """處理start_url地址對應的響應"""
        # 爬取頁面上的名言
        ret1 = response.xpath("//span[@class='text']//text()")
        print(ret1) 
然後打印出這個名言，

5. 啟動爬蟲的框架：

首先cmd中進入到你剛才建立的專案路徑下。

輸入命令： scrapy crawl 爬蟲名

(1)會打印出很多的東西，包括日誌等等，

(2)看著有點亂，我們可以在settings.py加入下面設定
LOG_LEVEL = "WARNING"
然後在執行命令就可以了： scrapy crawl 爬蟲名

可以看到爬取的資料都在一個列表當中，列表當中的每個元素是一個Selector物件，

(3). 直接取出當中的資料 extract()方法，可以在程式碼中這樣寫
ret1 = response.xpath("//span[@class='text']//text()").extract()
然後在執行啟動框架，執行命令，可以看到資料就取出來了

有關取值：

當使用extrat_first()的時候，如果xpath寫錯的話，取值的會是一個空值，None

6. pipelines管道的使用,

首先要在pipelines裡面開啟，在settings.py裡面把這個註釋去掉就行

是一個字典，鍵代表位置，值代表距離引擎的遠近，即權重

對值的解釋：我們可以定義多個pipeline，資料會先進行一個pipeline再進行一個pipeline，進入的pipeline的先後順序就可以通過值來指定。值越小會先執行

爬蟲名字.py:
# -*- coding: utf-8 -*-
import scrapy


class ScrapetestSpider(scrapy.Spider):
    name = 'scrapeTest'  # 爬蟲名
    '''允許爬取的範圍'''
    allowed_domains = ['quotes.toscrape.com']
    '''最開始請求的url地址'''
    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):
        """處理start_url地址對應的響應"""
        # 爬取頁面上的名言
        text = response.xpath("//span[@class='text']//text()").extract()
        # 爬取頁面上的作者
        aut = response.xpath("//small[@class='author']//text()").extract()
        for li in range(len(text)):
            item = {}
            item["author"] = aut[li]
            item["text"] = text[li]
            yield item
pipelines.py:
# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import json
class MyspiderPipeline(object):
    def process_item(self, item, spider):
        with open("text.txt",'a') as f:
            f.write(json.dumps(item,ensure_ascii=False)+"\n")
        return item

    print("儲存資料成功")
然後開啟框架，檢視儲存的資料text.txt

Scrapy框架的學習(2.scrapy入門，簡單爬取頁面，並使用管道(pipelines)儲存資料)

上個部落格寫了： Scrapy的概念以及Scrapy的詳細工作流程 https://blog.csdn.net/wei18791957243/article/details/86154068 1.scrapy的安裝 pip install scrapy

Python3 Scrapy框架學習五：使用crawl模板爬取豆瓣Top250，並存入MySql、MongoDB

1.新建專案及使用crawl模板 2.頁面解析 rules = (Rule(LinkExtractor(allow=r'subject/\d+/',restrict_css = '.hd > a[class = ""]'), callback='parse_it

scrapy框架的底層原理和如何提高爬取效率

Scrapy的最新架構圖：1、Scrapy Engine（Scrapy引擎） Scrapy引擎是用來控制整個系統的資料處理流程，並進行事務處理的觸發。更多的詳細內容可以看下面的資料處理流程。 2、Scheduler（排程）排程程式從Scrapy引擎接受請求並排序

scrapy框架基於CrawlSpider的全站數據爬取

管道 3.2 函數 actor odi ins sta 實戰括號引入提問：如果想要通過爬蟲程序去爬取”糗百“全站數據新聞數據的話，有幾種實現方法？方法一：基於Scrapy框架中的Spider的遞歸爬取進行實現（Request模塊遞歸回調p

【Python3.6爬蟲學習記錄】（十）爬取教務處成績並儲存到Excel檔案中（哈工大）

前言：基本上每天都會產生一點小想法，在實現的過程中，一步步解決問題，併產生新的想法，就比如，這次是儲存為Excel檔案。這感覺很美妙！目錄：一，安裝並簡單使用xlwt 1.1 安裝xlwt 1.2 寫入Excel程式碼 1

scrapy框架系列 (2) 一個簡單案例

com 必須 res 逗號大致繼承中文 append .sh 學習目標創建一個Scrapy項目定義提取的結構化數據(Item) 編寫爬取網站的 Spider 並提取出結構化數據(Item) 編寫 Item Pipelines 來存儲提取到的Item(即結構化數據

Scrapy框架學習（二）Scrapy入門

接下來以爬取quote.toscrape.com為例完成一遍Scrapy的抓取流程。首先建立一個Scrapy專案。開啟命令列，輸入以下命令： scrapy startproject projectname 即可在當前位置建立一個Scrapy專案。我們建立一個名為tutorial的專案： scrapy

scrapy框架學習，理解不深得到的問題，我遇到的 from avimageitems.items import AvimageItem ModuleNotFoundError: No module named 'scrapy name'

心情複雜呀，這個問題之前找不到解決的思路，原因是沒有人會像我這麼粗心的，沒有認真去看書就寫，不過我是真的沒注意到這個框架名的是什麼，現在才發現setting中的BOT_NAME的作用，不過我是在之前的課程裡瞭解到的

爬蟲系列---Scrapy框架學習

產生 follow everyone 頁面 pos per iso select -s 項目的需求需要爬蟲某網的商品信息，自己通過Requests,BeautifulSoup等編寫了一個spider，把抓取的數據存到數據庫裏面。跑起來的感覺速度有點慢，尤其是進入詳情頁

Scrapy框架學習（一）Scrapy框架介紹

Scrapy框架的架構圖如上。 Scrapy中的資料流由引擎控制，資料流的過程如下： 1.Engine開啟一個網站，找到處理該網站的Sprider，並向該Sprider請求第一個要爬取得URL。 2.Engine從Sprider中獲取到第一個要爬的URL，並通過Scheduler以Requ

Python3 Scrapy框架學習一：爬取貓眼Top100榜

以下操作基於Windows平臺。開啟CMD命令提示框：輸入如下命令：開啟專案裡的items.py檔案，定義如下變數，用於儲存。 class MaoyanItem(scrapy.Item): # define the fields for your

Python3 Scrapy框架學習二：爬取豆瓣電影Top250

開啟專案裡的items.py檔案，定義如下變數， import scrapy from scrapy import Item,Field class DoubanItem(scrapy.Item): # define the fields for your it

Python3 Scrapy框架學習三：爬取煎蛋網加密妹子圖片(全爬)

以下操作基於Windows平臺。開啟CMD命令提示框：新建一個專案如下：開啟專案裡的setting檔案，新增如下程式碼 IMAGES_STORE = './XXOO' #在當前目錄下新建一個XXOO資料夾 MAX_PAGE = 40 #定義爬取的總得頁數

Python3 Scrapy框架學習四：爬取的資料存入MongoDB

1. 新建一個scrapy專案： 2.使用PyCharm開啟該專案 3.在settings.py檔案中新增如下程式碼： #模擬瀏覽器，應對反爬 USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK

python 爬蟲如何通過scrapy框架簡單爬取網站資訊--以51job為例

Scrapy框架三大優點： Scrapy框架是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。 Scrapy

Python 爬蟲 (六) -- Scrapy 框架學習

本文希望達到以下目標: 簡要介紹Scarpy 閱讀官網入門文件並實現文件中的範例使用Scarpy優豆瓣爬蟲的抓取制定下一步學習目標初學Scrapy, 如有翻譯不當, 或者程式碼錯誤, 請指出, 非常感謝 1. Scrapy簡介 Scrapy是一個為了爬取網站資料，提

SSM框架(Spring Spring MVC Mybatis)基礎入門學習2——Spring入門例項

上次學習了servlet的基礎知識還記得麼，先來回顧一下吧：講了servlet的訪問流程，配置方法，以及原理。今天我們來學習spring的入門例項，分為3部分來學習。 1.Spring的基本知識：IoC(控制反轉)和DI（依賴注入），AOP（面向切面的程式設計） 2.Spr

python爬蟲十一：scrapy框架爬取天氣，存入資料庫

小白學習：轉：https://zhuanlan.zhihu.com/p/268854121.cmd下scrapy startproject 專案名2.我一般都是在pycharm中編寫程式碼，所以我會在idea中引入專案，這裡不知道如何在pycharm中下載scrapy模組的童

Scrapy框架學習

概述主要是為了練習使用CrawlSpider類的rules變數中定義多個Rule的用法，體會Scrapy框架的強大、靈活性。因此，對抓取到的內容只是儲存到JSON檔案中，沒有進行進一步的處理。原

python 爬蟲學習三（Scrapy 實戰，豆瓣爬取電影資訊）

利用Scrapy爬取豆瓣電影資訊主要列出Scrapy的三部分程式碼： spider.py檔案： # _*_ coding=utf-8 _*_ import scrapy from course.douban_items import DouBanItem from scra

Scrapy框架的學習(2.scrapy入門，簡單爬取頁面，並使用管道(pipelines)儲存資料)

相關推薦