scrapy自定義pipeline下載圖片/文件

阿新 • • 發佈：2018-12-19

自定義圖片/文件下載pipeline，自定義一個自己需要的路徑來儲存下載的圖片/文件

自定義pipeline可以基於scrapy自帶的ImagesPipeline的基礎上完成。
可以重寫ImagesPipeline中的三個法:get_media_requests(),file_path(),item_completed()

首先是在spider.py（自己的爬蟲檔案）檔案中獲取自己想要新增路徑的名字,name為自己新增的檔案路徑

item = ZhanzhangsucaispiderItem()
item["name"]=response.meta["name"]#meta是以字典是的形式傳給response的.
item["img_url"] = [src]
yield item

然後將item返回出去，再在items.py檔案中宣告一下name， img_path是pipeline.py檔案中需要的。後邊會介紹。

class ZhanzhangsucaispiderItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name = scrapy.Field()
    img_url = scrapy.Field()
    img_path = scrapy.Field()

接下來修改pipeline.py檔案

import scrapy
#匯入系統檔案images.py裡的ImagesPipeline類.
from scrapy.pipelines.images import ImagesPipeline
#DropItem是用來刪除下載圖片失敗的item的
from scrapy.exceptions import DropItem

#自定義一個類,繼承於ImagesPipeline,對ImagesPipeline進行重寫,以實現自己需要的功能
class CustomImageDownloadPipleline(ImagesPipeline):
    #上邊說過這個三函式都是ImagesPipeline類裡的函式.
    def get_media_requests(self, item, info):
        #img_url是下載圖片的地址,存放在item(具有類似字典的功能)中,
        for image_url in item["img_url"]:
            #將下載好的圖片返回給file_path函式,圖片的儲存需要自己給他新增一個路徑,並且要給圖片起一個名字,而這些引數都在item中,file_path沒有接收item的引數,所以需要將item以字典的形式傳給meta,跟隨下載的圖片一塊傳給file_path函式.
            yield scrapy.Request(url=image_url,meta={"item":item})

    #response=None,是因為file_path函式是用來儲存圖片的,而不是解析response的資料;官方文件中的file_path作用是將圖片的下載網址給加密,並且返回圖片下載的路徑
    def file_path(self, request, response=None, info=None):
        #將item取出來
        item = request.meta["item"]
        #再從item中取出分類名稱,這個name就是我們想自定義圖片路徑的檔名稱,(如果不自定義file_path函式的話,預設會將圖片下載到full檔案裡)
        name = item["name"]
        #再從item中取出img_url,分隔出來圖片的名稱.圖片的網址一般最後一個'/'後都是數字,此處用它作圖片的名字
        img_url_name = item["img_url"][0].split("/")[-1]
        return "%s/%s"%(name,img_url_name)


    #專案管道里面的每一個item最終都會經過item_completd，也就是意味著有多少個item，這個item_completed函式就會被呼叫多少次。(不管下載成功，還是失敗都會被呼叫)，如果不重寫該方法，item預設都會返回出去。item_completed裡面的return出去的item是經過整個專案管道處理完成之後的最終的一個item。
    def item_completed(self, results, item, info):
        #在這通過debug可以看到results裡資料,分下載圖片成功和下載失敗兩種情況.
        #如果下載成功results的結果：[(True, {'url': 'http://pics.sc.chinaz.com/Files/pic/icons128/7152/f1.png', 'path': '人物頭像圖示下載/f1.png', 'checksum': 'eb7f47737a062a1525457e451c41cc99'})]
        #True:代表圖片下載成功
        #url：圖片的地址
        #path:圖片的儲存路徑
        #checksum:圖片內容的 MD5 hash加密字串
        #如果下載失敗results的結果:[(False, <twisted.python.failure.Failure scrapy.pipelines.files.FileException: 'NoneType' object has no attribute 'split'>)]
        #False:代表下載失敗
        #error:下載失敗的原因
        
        #將圖片的下載路徑取出來(資料夾名/圖片名)
        image_path = results[0][1].get("path")
        if not image_path:
            # 如果圖片下載失敗，則取不到image_path，那就說明對應的item是有問題的，就刪除這個item。
            raise DropItem("圖片下載失敗，刪除對應的item，不讓該item返回出去。")
        #如果能取到img_path，說明該item是一個正常的item，可以返回出去。這個時候可以給item新增一個img_path的值,最後給這個item返回出去，這個item就是經過整個管道處理完成之後的最終的一個item。
        item["img_path"]= image_path
        print("item_completed函式被呼叫了！")
        print(item)
        # 為什麼要renturn這個item，因為後面還有其他的管道(pipeline)會處理這個item，所以需要給它return出去。
        return item

最後需要修改settings.py檔案裡的內容,第67行

ITEM_PIPELINES = {
    "ZhanZhangSuCaiSpider.pipelines.CustomImageDownloadPipleline":300,
}
IMAGES_STORE = "C:/Users/Administrator/Desktop/img"

例項可以參考連結https://blog.csdn.net/cp_123321/article/details/84675034

scrapy自定義pipeline下載圖片/文件

自定義圖片/文件下載pipeline，自定義一個自己需要的路徑來儲存下載的圖片/文件自定義pipeline可以基於scrapy自帶的ImagesPipeline的基礎上完成。可以重寫ImagesPipeline中的三個法:get_media_requests(),file_path(),

D-django自定義導出csv文件

自定義 reat object == query writer iter hour csv文件 import csv from datetime import timedelta def download_csv(commend=None): resp

Idea_學習_03_IDEA中使自定義類型的文件進行代碼高亮識別

segment tar register 定義類型自定義類 pos edi ref 如果你只是想用xml的編輯模式來編輯*.screen文件的話，可以在 Settings->Editor->File Types 中，在Recognized File Ty

自定義Log 寫到文件中

public stream ndt generic file alt IT ram -- using System; using System.Collections.Generic; using System.Web; using System.IO

shell腳本中自定義日誌記錄到文件

%d shell fun logging pytho 文件定義日誌記錄 gin 自定義日誌函數和前期變量 # adirname - return absolute dirname of given file adirname() { odir=`pwd`; cd

Log4Net 之將自定義屬性記錄到文件中 (三)

hive days bsp 文本處理 message homepage layout backup 即解決了將自定義屬性記錄到數據庫之後。一個新的想法冒了出來，自定義屬性同樣也能記錄到文件中嗎？答案是肯定的，因為Log4Net既然已經考慮到了數據庫記錄方式，當然也一定考慮

swagger如何掃描自定義註解生成介面文件

自定義JsonSupport註解用於接收前端傳過來的引數。如果是使用@RequestBody 註解可以生成介面文件資訊

Scrapy框架自定義pipeline兩層下載路徑去下載圖片，關於item傳值的問題

自定義兩層路徑的時候，item是需要經過傳值的，爬蟲函式如下 import scrapy from urllib.request import urljoin from ..items import OffmymindspiderItem class OffmymindSpider(scra

gradle 自定義插件下載配置文件

con classpath roo user div ase 字符串 rip end 1.新建Gradle項目： 2.建立src/main/groovy目錄，並添加如下代碼： ConfigPlugin.groovypackage com.wemall.config i

Enjoy! 多達400多萬的動態搞笑，愛情，友情。。。。表情下載　表情表情自定義表情表情圖片下載自定義QQ表情使用方法完全圖解

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Linux運維之批量下載指定網站的100個圖片文件，並找出大於200KB的文件

pre 文件 one clas nbsp .com find -s png 題目為：有一百個圖片文件，它們的地址都是http://down.fengge.com/img/1.pnghttp://down.fengge.com/img/2.png…一直到http://do

前端下載excel文件功能的三種方法

light nbsp html github 支持返回但是 inpu brush 1 從後端接收json數據，前端處理生成excel下載 JsonExportExcel的github地址：https://github.com/cuikangjie/JsonExpor

C# 利用FTP自動下載xml文件後利用 FileSystemWatcher 監控目錄下文件變化並自動更新數據庫

use img div 進行 ssa reg c# col without using FtpLib; using System; using System.Collections.Generic; using System.ComponentModel;

php自帶壓縮類壓縮文件夾

tac true pre 失敗 osi alert 關閉自動對象傳遞 // 壓縮文件夾 function addFileToZip($path,$zip){ $handler=opendir($path); //打開當前文件夾由$path指定。 whi

android從IIS/asp.net下載apk文件

利用Selenium實現圖片文件上傳的兩種方式介紹

最簡 pfile 狀態 blog nbsp ftw fin send find 在實現UI自動化測試過程中，有一類需求是實現圖片上傳，這種需求根據開發的實現方式，UI的實現方式也會不同。一、直接利用Selenium實現這種方式是最簡單的一種實現方式，但是依賴於

使用websocket發送圖片文件

outline 表示大小限制文件 align 擴展大於 dem Websocket是HTML5中的一個傳輸數據控件。眼下在主流的瀏覽器中都提供了支持。關於websocket的相關協議能夠在網上查到，關於怎樣建立連接等操作大家能夠查詢協議獲得。本文主要討論怎樣

用到了base64轉圖片文件的函數，記錄一下

base64 圖片 import java.io.*; import sun.misc.*; //對圖片文件進行Base64編碼 public String getImagebase64(String imgFileName) { byte[] data = null

iOS Post上傳圖片, 文件流的形式

ssi 標準請求圖片服務器 dict html mimetype object 屬性最近看到群裏很多小夥伴有問上傳圖片服務器收不到, 解析不了. 可以說就一個屬性 ContentType , 不論你使用第三方的AFN, 還是自己封裝NSURLSesstion. 都

如何在PDF文檔內容中插入/添加圖片文件

pdf gin 簡單 alt 下載今天幹凈文件中圖片替換現在很多人都會使用PDF格式文件，但是卻很少會有人知道怎麽編輯這種文件，我們所見的PDF格式文檔是一種及其特殊的文件，這種文不論是修改還是編輯都非常的困難，因此，如果我們需要在PDF文件中插入圖片的話該怎麽做

scrapy自定義pipeline下載圖片/文件

自定義圖片/文件下載pipeline，自定義一個自己需要的路徑來儲存下載的圖片/文件

自定義pipeline可以基於scrapy自帶的ImagesPipeline的基礎上完成。 可以重寫ImagesPipeline中的三個法:get_media_requests(),file_path(),item_completed()

相關推薦

自定義pipeline可以基於scrapy自帶的ImagesPipeline的基礎上完成。
可以重寫ImagesPipeline中的三個法:get_media_requests(),file_path(),item_completed()