scrapy框架來爬取桌布網站並將圖片下載到本地檔案中

阿新 • • 發佈：2019-09-26

首先需要確定要爬取的內容，所以第一步就應該是要確定要爬的欄位：

　　首先去items中確定要爬的內容

class MeizhuoItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 圖集的標題
    title = scrapy.Field()
    # 圖片的url，需要來進行圖片的抓取
    url = scrapy.Field()
    pass

在確定完要爬的欄位之後，就是分析網站頁面的請求了，找到自己需要的內容，我這裡爬的是http://www.win4000.com裡面的桌布照片

　　　首先我們在分析的時候，點到一個圖集裡面可以發現，真正的照片都在這裡面，所以我們分成兩步走

　　　　1、找到所有圖集的url

　　　　2、根據指定的圖集的url來將裡面所有照片的URL找出來

　　　　　　但是找出照片的url之後又面臨一個問題，那就是那個url並不是我們真正想要的，它在最後還加了一層修飾，所以我們還要對這個url進一步的操作

# -*- coding: utf-8 -*-
import scrapy
from scrapy.selector import Selector
from fake_useragent import UserAgent
from meizhuo.items import MeizhuoItem

headers = {
    'user-agent': UserAgent(verify_ssl=False).chrome
}


class MzSpider(scrapy.Spider):
    name = 'mz'
    allowed_domains = ['www.win4000.com']
    start_urls = [
        'http://www.win4000.com/wallpaper_2285_0_0_1.html',
        'http://www.win4000.com/wallpaper_204_0_0_1.html'
    ]

    def parse(self, response):
        sel = Selector(response)
        list = sel.xpath('//*[@class="list_cont Left_list_cont"]/div/div/div/ul/li/a')

        for img in list:
            # 這個是每個圖集得到的url
            url = img.xpath('@href').extract_first()
            title = img.xpath('@title').extract_first()
            # 對我的每一個URL進行解析
            yield scrapy.Request(url, callback=self.get_all_img, meta={'title': title})
        # 對於下一頁進行定位，如果存在就進行跳轉
        next_url = sel.xpath('//*[@class="next"]/@href').extract_first()
        if next_url is not None:
            yield scrapy.Request(next_url, callback=self.parse)

    def get_all_img(self, response):
        item = MeizhuoItem()

        container = []
        sel = Selector(response)
        # 這個是所有照片的所有的總共的頁數
        img_list = sel.xpath('//*[@class="scroll-img-cont"]/ul')
        for img in img_list:
            img_url = img.xpath('li/a/img/@data-original').extract()
            for url in img_url:
                # 這個url還是需要經過處理的，所以要迴圈出來挨個進行修改
                cmp_url = url.split('_')[0] + '.jpg'
                container.append(cmp_url)
            item['url'] = container
            item['title'] = response.meta['title']
            # print(container)

            yield item
            container.clear()

當我們將圖集中的所有照片的url找出來之後要做的，就是將圖片下載到本地中，所以我們就在pipelines中配置了相關的下載路徑的配置，然後利用抓取到的圖片的url和rqeuests的模組的配合使用，來獲取到圖片真正的二進位制的資料，然後將這些二進位制資料，寫入到你配置的指定的資料夾中，

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
import os
import requests
from meizhuo.settings import IMAGES_STORE
from fake_useragent import UserAgent

headers = {
    'user-agent': UserAgent(verify_ssl=False).chrome
}


class MeizhuoPipeline(object):
    def process_item(self, item, spider):
        dir_path = IMAGES_STORE
        title = item['title']
        img_list = item['url']
        print(title, img_list)
        """
        1、我要建立指定的路徑
        2、然後我要利用requests模組獲取到那一個url的二進位制資料儲存進去
        """
        if not os.path.exists(IMAGES_STORE):
            os.mkdir(IMAGES_STORE)

        # 如果這個頂標頭檔案夾存在的話
        collection_url = os.path.join(IMAGES_STORE, title)
        print('111', collection_url)
        if not os.path.exists(collection_url):
            os.mkdir(collection_url)
        for url_list in range(len(img_list)):
            cmp_url = os.path.join(collection_url, img_list[url_list])

            # print(cmp_url)
            file_path = os.path.join(collection_url, title) + str(url_list) + '.jpg'
            print(file_path)
            with open(file_path, 'wb') as fp:
                res = requests.get(img_list[url_list], headers=headers).content
                # print(img_list[url_list])
                fp.write(res)
                print('insert successfully!!!')

最後就是要講一下，在settings中的相關配置：

BOT_NAME = 'meizhuo'

SPIDER_MODULES = ['meizhuo.spiders']
NEWSPIDER_MODULE = 'meizhuo.spiders'
ROBOTSTXT_OBEY = True
ITEM_PIPELINES = {
   'meizhuo.pipelines.MeizhuoPipeline': 300,
}
# 下載的頂頭路徑
IMAGES_STORE = '/Users/mac/Documents/girl'
# 下載延遲
DOWNLOAD_DELAY = 0.3

scrapy框架來爬取桌布網站並將圖片下載到本地檔案中

首先需要確定要爬取的內容，所以第一步就應該是要確定要爬的欄位：　　首先去items中確定要爬的內容 class MeizhuoItem(scrapy.Item): # define the fields for your item here like: # name = scra

scrapy爬蟲框架（三）：爬取桌布儲存並命名

寫在開始之前按照上一篇介紹過的 scrapy爬蟲的建立順序，我們開始爬取桌布的爬蟲的建立。首先，我們先過一遍 scrapy爬蟲的建立順序：第一步：確定要在pipelines裡進行處理的資料，寫好items檔案第二步：建立爬蟲檔案，將所需要的資訊從

python學習（三）scrapy爬蟲框架（三）——爬取桌布儲存並命名

寫在開始之前按照上一篇介紹過的scrapy爬蟲的建立順序，我們開始爬取桌布的爬蟲的建立。首先，再過一遍scrapy爬蟲的建立順序：第一步：確定要在pipelines裡進行處理的資料，寫好items檔案第二步：建立爬蟲檔案，將所需要的資訊從網站上爬

python 爬蟲如何通過scrapy框架簡單爬取網站資訊--以51job為例

Scrapy框架三大優點： Scrapy框架是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。 Scrapy

scrapy框架爬蟲爬取糗事百科之 Python爬蟲從入門到放棄第不知道多少天（1）

Scrapy框架安裝及使用 1. windows 10 下安裝 Scrapy 框架：　　前提：安裝了python-pip 　　1. windows下按住win+R 輸入cmd 　　2. 在cmd 下輸入　　　　　　pip install scrapy 　　　　　　pip inst

Python利用scrapy框架，爬取大眾點評部分商鋪資料~

分享一下，自己從0開始，用python爬取資料的歷程。希望可以可以幫到一起從0開始的小夥伴~~加油。首先，我的開發環境是：電腦：macOS Sierra 10.12.6 編譯器：PyCharm + 終端我的電腦自帶的Python版本為2.7，我下載了一個Python3.6。使

【實戰】scrapy-redis + webdriver 爬取航空網站

引言今天給大家帶來的是scrapy-redis + webdriver實戰案例。在爬蟲編寫過程中，我們經常會遇到以下的情況，想要用scrapy框架，但是因為網站的原因，還想要用webdriver，那麼要如何實現scrapy + webdriver呢？其實很簡單，大家都知道，在scrapy中，我

爬取樓盤網並將資料儲存在excel表中

初學，程式碼有點爛，有些錯誤先不處理。 #!/usr/bin/python # -*- coding: <encoding name> -*- import requests from bs4 import BeautifulSoup from openpyxl impor

python 爬取指定圖片並將圖片下載到指定資料夾

""" Version 1.1.0 Author lkk Email [email protected] date 2018-10-19 11:34 DESC 下載指定網頁的圖片到指定資料夾

python 爬蟲之requests爬取頁面圖片的url，並將圖片下載到本地

大家好我叫hardy 需求：爬取某個頁面，並把該頁面的圖片下載到本地思考：　　img標籤一個有多少種類型的src值？三種：1、以http開頭的網路連結。2、以“/”開頭絕對路徑。3、以“./”開頭相對路徑。當然還有其他型

ThinkPHP框架整合Ueditor編輯器，並將圖片上傳到阿里雲OSS

網上有很多介面美觀整潔的編輯器外掛，但是相比較功能而言，還是百度的ueditor更為豐富，所以我選擇了在專案中使用這款編輯器，下面介紹操作步驟，程式碼不多，自己動手，豐衣足食。一、在專案中整合Ueditor外掛：首先，去官網下載對應版本的壓縮包，因為用的是thinkP

python 建立資料夾並將圖片下載到新建的資料夾中

新建資料夾： import os import requests response = requests.get(url) dirname="test" #建立名為test的資料夾 os.mkdir(dirname) #此處相當於檔案路徑 test/image.jpg，也就是在t

python 創建文件夾並將圖片下載到新建的文件夾中

dir resp 創建 ont -c requests jpg 就是 res 新建文件夾： import os import requests response = requests.get(url) dirname="test" #創建名為test的文件夾 os.mkdi

上傳圖片並將圖片展示在頁面中

html需要一個上傳的input，一個canvas <input type="file" id="img"/><br /><br /><br /> <canvas id="canvas"></canvas> inp

在資料庫中批量執行SQL並將結果記錄到檔案中

專案中有一個步驟：資料移植。資料移植要遷移很多的表，遷移完之後我們要看一下我們遷移的表的記錄數對不對。假如說有一百多張表，不可能每次都一張表一張表的去查詢然後記錄，這時候就得有一個指令碼可以自動執行。我在資料視覺化工具上怎麼試都不行，同時執行一百多個查詢語

使用scrapy框架爬取蜂鳥論壇的攝影圖片並下載到本地

utf 賦值 col 異常處理創建文件夾 clas watermark follow ret 目標網站：http://bbs.fengniao.com/使用框架：scrapy 因為有很多模塊的方法都還不是很熟悉，所有本次爬蟲有很多代碼都用得比較笨，希望各位讀者能給處意見

利用scrapy框架遞迴爬取菜譜網站

介紹：最近學習完scrapy框架後，對整個執行過程有了進一步的瞭解熟悉。於是想著利用該框架對食譜網站上的美食圖片進行抓取，並且分別按照各自的命名進行儲存。 1、網頁分析爬取的網站是www.xinshipu.com,在爬取的過程中我發現使用xpath對網頁進行解析時總是找不到對應的標籤

利用scrapy輕鬆爬取招聘網站資訊並存入MySQL

前言 Scrapy版本：1.4； Python版本：3.6； OS：win10；本文完整專案程式碼：完整示例；本文目標：通過爬取騰訊招聘網站招聘崗位，熟悉scrapy，並掌握資料庫儲存操作；一、準備工作 ♣ 基礎工作首先你要安裝S

python3 scrapy框架crawl模版爬取京東產品並寫入mysql

crawl將自動對所有連結進行分析，將符合的連結資料爬取。官方文件，其中價格，好評率需要用瀏覽器抓包分析真實地址，本文所用的基礎技術包括：sql語句，re表示式,xpath表示式，基本的網路知識和python基礎 jd.py # -*- codi

Python爬蟲scrapy框架爬取動態網站——scrapy與selenium結合爬取資料

scrapy框架只能爬取靜態網站。如需爬取動態網站，需要結合著selenium進行js的渲染，才能獲取到動態載入的資料。如何通過selenium請求url，而不再通過下載器Downloader去請求這個url?方法：在request物件通過中介軟體的時候，在中介軟體內部開始

scrapy框架來爬取桌布網站並將圖片下載到本地檔案中

相關推薦