Scrapy豆瓣電影top250（excel儲存和圖片下載）

阿新 • • 發佈：2019-01-06

豆瓣電影top250url地址：https://movie.douban.com/top250?start=

一. 明確獲取資料資訊（item）
分析頁面上的內容可以獲取到的資料資訊是電影的名稱、導演、演員、簡介、上映時間、評分、參與評分人數、圖片的url地址.在scrapy的item專案中建立生成對應的。

    star = scrapy.Field()#  電影評分
    quote = scrapy.Field()# 電影簡介
    picture = scrapy.Field()#   電影圖片url
    jude = scrapy.Field()#  電影參與評論人數 

    dect = scrapy.Field()#  電影導演 演員
    time = scrapy.Field()#  電影上映時間

二. 提取網頁資料資訊（spider）

 利用xpath來提取網頁上資訊，並在爬蟲專案中進行處理提取可用的資料.

    def parse(self, response):
        item = Top250Item()
        movie = response.xpath("//div[@class = 'item']")
        #  迭代獲取每一塊的資訊
        for each in movie:
            #   電影標題 

            item['title'] = each.xpath(".//div[@class ='info']//span[@class ='title'][1]/text()").extract()[0]

            #   該標籤含有大量資訊包括導演 演員 上映時間...
            Each = each.xpath(".//div[@class ='info']//div[@class ='bd']/p/text()").extract()
            #   導演 演員等
            bd = Each[0]
            item['dect' 
] = "".join(bd).replace("\n", "").replace("\xa0", "").strip()

            #   電影上映時間
            time = Each[1]
            item['time'] =  "".join(time).replace("\n", "").replace("\xa0", "").strip().split("/")[0]

            #   評分
            item['star'] = each.xpath(".//div[@class ='info']//div[@class ='star']/span[@class ='rating_num']/text()").extract()[0]

            #   電影資訊簡介
            quote = each.xpath(".//div[@class ='info']//p[@class = 'quote']/span/text()").extract()
            if len(quote) != 0:
                item['quote'] = quote[0]
            else:
                item['quote'] = "暫無介紹"

            #   圖片的url地址
            item['picture'] = each.xpath(".//div[@class ='pic']//a/img/@src").extract()[0]

            #   參與電影評論人數
            juede = each.xpath(".//div[@class ='info']//div[@class ='star']/span[4]/text()").extract()[0]
            item['jude'] = juede[:-3]

            yield item

 根據需求訪問所有的url地址，尋找規則。

class QSpider(scrapy.Spider):
    name = 'q'#爬蟲專案名稱
    allowed_domains = ['movie.douban.com']#
    offset = 0
    url = "https://movie.douban.com/top250?start="
    start_urls = {
        url + str(offset),
    }# 根據規律建立訪問的url

 def parse(self, response):
 """
 中間省略部分是上方處理提取item資料的程式碼
 """
     if self.offset < 225:
            self.offset += 25
            yield scrapy.Request(self.url + str(self.offset), callback=self.parse)
 #訪問豆瓣電影top250所有的頁面

三. 儲存並下載資料（pipelines）
將網頁上提取下載的資料以excel檔案形式儲存，並下載電影圖片.（pipelines）

    def __init__(self):
        #   建立excel，填寫表頭
        self.wb = Workbook()
        self.ws = self.wb.active
        #   設定表頭
        self.ws.append(['電影名稱','導演和演員','年份','評分','人數','簡介'])

    def process_item(self, item, spider):
        line=[item['title'],item['dect'],
              item['time'],item['star'],item['jude'], item['quote']]
        self.ws.append(line)
        self.wb.save('電影天堂top250.xlsx')
        #   儲存電影圖片
        byte = urllib.request.urlopen(item['picture'])
        title =item['title']
        if not os.path.exists("圖片"):
            os.makedirs("圖片")
        # 代開一個檔案，準備以二進位制寫入檔案
        fp = open("圖片"+'/'+title+".jpg","wb")
        fp.write(byte.read())
        fp.flush()
        fp.close()
        return item

其設定使用者代理和ip代理都在settings檔案中這裡就不貼程式碼了，相關其餘操作請自行百度.

一切就緒我們就可以開始運行了,我們可以知道該爬蟲下載了250個檔案，用時為38秒（在settings中設定了DOWNLOAD_DELAY = 3）可見下載速度很快.
執行結果如下

讓我們來看看下載的內容：
這裡寫圖片描述

Surprise!Wonderful! 裡面有沒有你喜歡的電影呢？

注意：歡迎大家指出意見，相互學習哦~

Scrapy豆瓣電影top250（excel儲存和圖片下載）

豆瓣電影top250url地址：https://movie.douban.com/top250?start= 一. 明確獲取資料資訊（item）分析頁面上的內容可以獲取到的資料資訊是電影的名稱、導演、演員、簡介、上映時間、評分、參與評分人數、圖片的url地址.在scrapy的item

爬蟲]利用xpath爬取豆瓣電影top250（轉）

今天學習了一下xpath 感覺功能非常的強大，但是如果不太懂前端的小夥伴們可能比較吃力，建議看一下html的一些語法結構，程式碼如下： #!/usr/bin/env python import re import requests import lxml.html url

爬蟲專案：requests爬取豆瓣電影TOP250存入excel中

這次爬取是爬取250部電影的相關內容，分別用了requests請求url，正則表示式re與BeautifulSoup作為內容過濾openpyxl作為excel的操作模組，本人為才學不久的新手，程式碼編寫有點無腦和囉嗦，希望有大神能多提建議首先，程式碼清單如下：

scrapy入門實戰練習（一）----爬取豆瓣電影top250

轉自知乎網工具和環境語言：python 2.7IDE： Pycharm瀏覽器：Chrome爬蟲框架：Scrapy 1.2.1教程正文觀察頁面結構通過觀察頁面決定讓我們的爬蟲獲取每一部電影的排名、電影名稱、評分和評分的人數。宣告ItemItems爬取的主要目標就是從非結構性的資

Scrapy爬蟲（4）爬取豆瓣電影Top250圖片

在用Python的urllib和BeautifulSoup寫過了很多爬蟲之後，本人決定嘗試著名的Python爬蟲框架——Scrapy. 本次分享將詳細講述如何利用Scrapy來下載豆瓣電影Top250, 主要解決的問題有：如何利用ImagesPi

python3爬蟲豆瓣top250電影（並儲存到mysql資料庫）

所用到的模組（需要提前安裝好）： requests、BeautifulSoup、lxml、mysql.connector（或者pymysql也可以，如果不想插入到資料庫，只需要將裡邊相關的程式碼刪除）（程式碼下邊將貼出本文beautifulsoup的使用）程式碼

scrapy爬取豆瓣電影top250

imp port 爬取 all lba item text request top 1 # -*- coding: utf-8 -*- 2 # scrapy爬取豆瓣電影top250 3 4 import scrapy 5 from douban.items i

Scrapy爬取豆瓣電影top250的電影數據、海報，MySQL存儲

p地址 rom gin ani char 代碼 pipeline print 關閉數據庫從GitHub得到完整項目（https://github.com/daleyzou/douban.git）1、成果展示數據庫本地海報圖片2、環境（1）已安裝Scrapy的Pycharm

使用scrapy爬取豆瓣電影Top250

根據官方文件做的簡單練習，唯一遇到的問題就是爬取返回403.解決方法是在settings.py檔案中增加以下引數： USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Ch

Scrapy入門例項(使用Scrapy抓取豆瓣電影top250榜單）

專案地址：https://github.com/yuanfuzhi/ScrapyDemo.git 一 Scrapy介紹與安裝 1， Scrapy介紹 Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中

scrapy ------ 爬取豆瓣電影TOP250

轉載自 —> 原文 #items.py # -*- coding: utf-8 -*- import scrapy class DoubanMovieItem(scrapy.Item): ranking = scrapy.Field() #排名 mo

python3爬蟲豆瓣top250圖書（並儲存到mysql資料庫）

參考上篇文章附上程式碼： import requests from bs4 import BeautifulSoup import mysql.connector def get_pages_link(): # 插入到資料庫 conn = mysql

Python3 Scrapy框架學習二：爬取豆瓣電影Top250

開啟專案裡的items.py檔案，定義如下變數， import scrapy from scrapy import Item,Field class DoubanItem(scrapy.Item): # define the fields for your it

03_使用scrapy框架爬取豆瓣電影TOP250

前言：　　本次專案是使用scrapy框架，爬取豆瓣電影TOP250的相關資訊。其中涉及到代理IP，隨機UA代理，最後將得到的資料儲存到mongoDB中。本次爬取的內容實則不難。主要是熟悉scrapy相關命令以及理解框架各部分的作用。 1、本次目標　　爬取豆瓣電影TOP250的資訊，將得到的資料儲

scrapy ------ 爬取豆瓣電影TOP250

轉載自 —> 原文 #items.py # -*- coding: utf-8 -*- import scrapy class DoubanMovieItem(scrapy.Item): ranking = scrapy.Field()

Python3爬蟲豆瓣電影TOP250將電影名寫入到EXCEL

大家好，我是你們的老朋友澤哥，最近在學習Python3.6，於是興起寫了個小小的爬蟲附上截圖！我們要獲得TOP250對應的電影名，開啟F12對HTML報文進行解讀電影名對應的HTML程式碼如下： <span class="title">肖申克的

（7）Python爬蟲——爬取豆瓣電影Top250

利用python爬取豆瓣電影Top250的相關資訊，包括電影詳情連結,圖片連結,影片中文名,影片外國名,評分,評價數,概況,導演,主演,年份,地區,類別這12項內容，然後將爬取的資訊寫入Excel表中。基本上爬取結果還是挺好的。具體程式碼如下： #!/us

python爬蟲（一）爬取豆瓣電影Top250

提示：完整程式碼附在文末一、需要的庫 requests：獲得網頁請求 BeautifulSoup：處理資料，獲得所需要的資料二、爬取豆瓣電影Top250 爬取內容為：豆瓣評分前二百五位電影的名字、主演、

【Python爬蟲】Scrapy框架運用1—爬取豆瓣電影top250的電影資訊(1)

一、Step step1: 建立工程專案 1.1建立Scrapy工程專案 E:\>scrapy startproject 工程專案 1.2使用Dos指令檢視工程資料夾結構 E:\>tree /f step2: 建立spid

【Python3爬蟲】Scrapy爬取豆瓣電影TOP250

今天要實現的就是使用是scrapy爬取豆瓣電影TOP250榜單上的電影資訊。步驟如下：一、爬取單頁資訊首先是建立一個scrapy專案，在資料夾中按住shift然後點選滑鼠右鍵，選擇在此處開啟命令列視窗，輸入以下程式碼： scrapy startprojec

Scrapy豆瓣電影top250（excel儲存和圖片下載）

相關推薦