從零開始學scrapy（python3版本）一

阿新 • • 發佈：2019-01-29

環境：
window10；python 3.6.2；scrapy 1.4.0
系統已安裝Python2，python3 共存模式
python2,3版本共存以及使用問題的記錄

建立專案
由於scrapy官網的示例站 dmoz.org 403了，所以先拿美劇天堂的網站練手
我的專案工程路徑在D:\workspaces\python\scrapy
開啟cmd命令列工具

cd /d D:\workspaces\python\scrapy
python3 -m scrapy startproject tutorial
cd tutorial
python3 -m scrapy genspider meijutt meijutt.com

編寫爬蟲指令碼，此時工程路徑下已經自動建立了

D:\workspaces\python\scrapy\tutorial\tutorial\spiders\meijutt.py

import scrapy
from tutorial.items import MeijuttItem

class MeijuttSpider(scrapy.Spider):
    name = 'meijutt'
    allowed_domains = ['meijutt.com']
    start_urls = ['http://www.meijutt.com/new100.html']

    def 
 parse(self, response):
        items = []
        for sel in response.xpath('//ul[@class="top-list  fn-clear"]/li'):
            item = MeijuttItem()
            item['storyName'] = sel.xpath('./h5/a/text()').extract()
            item['storyState'] = sel.xpath('./span[1]/font/text()').extract()
            if 
 item['storyState']:
                pass
            else:
                item['storyState'] = sel.xpath('./span[1]/text()').extract()
            item['tvStation'] = sel.xpath('./span[2]/text()').extract()
            if item['tvStation']:
                pass
            else:
                item['tvStation'] = [u'未知']
            item['updateTime'] = sel.xpath('./div[2]/text()').extract()
            if item['updateTime']:
                pass
            else:
                item['updateTime'] = sel.xpath('./div[2]/font/text()').extract()
            items.append(item)
        return items

設定爬取陣列

D:\workspaces\python\scrapy\tutorial\tutorial\items.py

import scrapy


class TutorialItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    pass
class MeijuttItem(scrapy.Item):
    # define the fields for your item here like:
    storyName = scrapy.Field()
    storyState = scrapy.Field()
    tvStation = scrapy.Field()
    updateTime = scrapy.Field()

對爬取資料進行處理

D:\workspaces\python\scrapy\tutorial\tutorial\pipelines.py

import time
import sys
import importlib
importlib.reload(sys)

class TutorialPipeline(object):
    def process_item(self, item, spider):
        return item
class MeijuttPipeline(object):
    def process_item(self, item, spider):
        today = time.strftime('%Y%m%d',time.localtime())
        fileName = today + 'movie.txt'
        with open(fileName,'a') as fp:
            fp.write(item['storyName'][0] + '\t' + str(item['storyState'][0]) + '\t' + str(item['tvStation'][0]) + '\t' + str(item['updateTime'][0]) + '\n')
        return item

執行爬蟲

D:\workspaces\python\scrapy\tutorial>python3 -m scrapy crawl meijutt

檢視爬取結果

參考文獻
scrapy實戰–爬取最新美劇–python2版本
 Scrapy入門教程
問題
如有更多問題可評論，或者關注的我的微信公眾號，可以獲取本專案的全部程式碼，我將後續跟進scrapy爬蟲專案的系列教程。

從零開始學scrapy（python3版本）一

環境： window10；python 3.6.2；scrapy 1.4.0 系統已安裝Python2，python3 共存模式 python2,3版本共存以及使用問題的記錄建立專案由於

從零開始學Vue（二~三）—— Vue 例項 / 模板語法(插值、指令)

概述 vue.js作為現在筆記熱門的JS框架，使用比較簡單易上手，也成為很多公司首選的JS框架。但是對於初學者可能學起來有些麻煩，所以推出《從零開始學Vue》系列部落格，本系列計劃推出19篇部落格文章，在第一篇部落格釋出之後，還是受到了大家的支援，所以本篇文章是一次性更新系列部落格的第二和第三章，感謝大家

從零開始學caffe（八）：Caffe在Windows環境下GPU版本的安裝

之前我們已經安裝過caffe的CPU版本，但是在MNIST手寫數字識別中，我們發現caffe的CPU版本執行速度較慢，訓練效率不高。因此，在這裡我們安裝了caffe的GPU版本，並使用GPU版本的caffe同樣對手寫MNIST數字集進行訓練。 step1: 安裝CUDA

從零開始學HTTP （二） HTTP結構與基礎

現象 encode 伸縮協議 for 服務端例如 lis 格式 HTTP結構與基礎這篇文章中，我們主要針對HTTP\1.1版本進行介紹請求報文和響應報文請求報文請求報文由客戶端發出，其格式為：請求方法請求URI 協議版本可選的請求首部字段和內容實體，

從零開始學演算法（四）歸併排序

從零開始學演算法（四）歸併排序歸併排序演算法介紹演算法原理演算法簡單記憶說明演算法複雜度和穩定性程式碼實現歸併排序程式碼是Javascript語言寫的（幾乎是虛擬碼）演算

從零開始學演算法（三）插入排序

從零開始學演算法（三）插入排序插入排序演算法介紹演算法原理演算法簡單記憶說明演算法複雜度和穩定性程式碼實現插入排序程式碼是Javascript語言寫的（幾乎是虛擬碼）演算

從零開始學演算法（二）選擇排序

從零開始學演算法（二）選擇排序選擇排序演算法介紹演算法原理演算法簡單記憶說明演算法複雜度和穩定性程式碼實現選擇排序程式碼是Javascript語言寫的（幾乎是虛擬碼）演算

從零開始學演算法（一）氣泡排序

從零開始學演算法（一）氣泡排序氣泡排序演算法介紹演算法原理演算法簡單記憶說明演算法複雜度和穩定性程式碼實現氣泡排序因為在學前端，程式碼是Javascript語言寫的演算法

從零開始學caffe（七）：利用GoogleNet實現影象識別

一、準備模型在這裡，我們利用已經訓練好的Googlenet進行物體影象的識別，進入Googlenet的GitHub地址，進入models資料夾，選擇Googlenet 點選Googlenet的模型下載地址下載該模型到電腦中。模型結構在這裡，我們利用之前講

從零開始學USB（十、USB的描述符）

USB裝置使用描述符報告其屬性。描述符是具有定義格式的資料結構。每個描述符都以位元組寬度欄位開頭，該欄位包含描述符中的總位元組數，後跟一個標識描述符型別的位元組寬度欄位。使用描述符允許簡單地儲存各個配置的屬性，因為每個配置可以重用具有相同特徵的其他配置的描述符或描述符的部分。以這種方式，描

從零開始學USB（九、USB的資料傳輸型別）

一、傳輸型別 USB通過與主機上的客戶端軟體相對應的記憶體儲器區和USB裝置上的端點之間的管道傳輸資料。訊息管道傳輸的資料以USB定義的結構傳輸，但USB允許特定裝置的結構化資料在USB定義的訊息資料有效負載內傳輸。 USB還定義了對於任何管道（流或訊息），資料經過匯流排時都要進行分組，但

從零開始學USB（八、USB的資料流模型）

一、實施者觀點 USB在主機和連線的USB裝置之間提供通訊服務。但是，簡單檢視終端使用者看到將一個或多個USB裝置連線到主機，如圖5-1所示，實際上是一點點實施起來比圖中所示更復雜。需要系統的不同檢視從不同實施者的角度解釋具體的USB要求。幾個重要的必須支援概念和功能，以便為終端使用者

從零開始學USB（七、端點、管道、介面、配置、裝置）

端點（endpoint）：端點是USB裝置的唯一可識別部分，其是主機和裝置之間的通訊流的終點。它是一個USB裝置或主機上的一個數據緩衝區，用來存放和傳送USB的各種資料。每個USB邏輯裝置由一組獨立的端點組成。每個邏輯裝置都有一個由系統在裝置連線時分配的唯一地址。裝置上的每個端點在設計時都會得到

從零開始學USB（六、USB通訊的資料格式）

USB中用NRZI來編碼資料前面章節已經學習過了USB的引腳定義了，但是對於其中的USB 2.0的兩根資料線D+和D-所對應的資料傳輸，卻沒有詳細介紹。此處就是介紹，在此序列資料線中，資料是如何被編碼和傳送的。 USB所傳輸的資料，用的資料編碼方式是NRZI（Non-Return-to

從零開始學USB（五、USB的電器特性）

關於機械特性就不在這裡詳細描述了，這裡列出幾個重要的知識點。 USB電纜：標準的USB電纜包括一對用於電源分配的20~28AWG規格的線對和一對28AWG規格的雙絞線，並具有遮蔽和完整的保護層。高速（480 Mb / s）和全速（12 Mb / s）要求使用帶有兩根電源導線和雙絞線訊號

從零開始學USB（四、USB系統結構）

一個USB系統可以從三個定義區域來描述： USB互聯 USB裝置 USB主機 USB互連是USB裝置與USB主機連線和通訊的方式。這包括以下內容：匯流排拓撲：USB裝置與主機之間的連線模型。層間關係：USB在系統中的每一層都要完成一定的任務。資料流模型：

從零開始學USB（三、基礎知識3）

1. USB 2.0協議內容概覽當前最新的USB協議，已經發展到USB 3.0了。但是主流的USB裝置和技術，還是以USB 2.0居多。所以此文，主要是以USB 2.0為基礎來學習USB協議的基礎知識，當然，會在相關內容涉及到USB 3.0的時候，也把USB 3.0的相關內容新增

從零開始學USB（二、基礎知識2）

1.USB相關的硬體 USB裝置，從物理上的邏輯結構來說，包含了主機Host端和裝置Device端。其中，主機Host端，有對應的硬體的USB的主機控制器Host Controller，而裝置端，連線的是對應的USB裝置。 1.1. USB控制器型別：OHCI，UHCI，

從零開始學USB（一、基礎知識1）

1.什麼是USB? USB是Universal Serial Bus的縮寫，中文譯為通用序列匯流排。正如USB的第一個單詞表述的那樣，為了通用。那麼我們看一下，還有哪些匯流排不是序列的，哪些是不通用的序列匯流排下表來自《USB Complete》裡面對一些常見匯流排所總結的

從零開始學caffe（十）：caffe中snashop的使用

在caffe的訓練期間，我們有時候會遇到一些不可控的以外導致訓練停止（如停電、裝置故障燈），我們就不得不重新開始訓練，這對於一些大型專案而言是非常致命的。在這裡，我們介紹一些caffe中的snashop。利用snashop我們就可以實現訓練的繼續進行。在之前我們訓練得到的檔案中，我們發現

從零開始學scrapy（python3版本）一

相關推薦