scrapy爬蟲框架（四）：scrapy中 yield使用詳解

阿新 • • 發佈：2018-11-08

開始前的準備工作：

MySQL下載：點我
python MySQL驅動下載：pymysql（pyMySql，直接用pip方式安裝）

全部安裝好之後，我們來熟悉一下pymysql模組

import pymysql

#建立連結物件
connection = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='1234', db='python')
#建立遊標 遊標用來進行查詢，修改等操作
cursor = connection.cursor()

#定義sql語句 這裡的sql語法根據使用的資料庫不同會有一些小差別
sql = "SELECT * FROM python.text_info where text_title='test'"

#執行sql語句 返回受到影響的行數
cursor.execute(sql)

#獲取sql語句執行後的返回資料 預設返回的資料型別為元組
#獲取所有返回
r = cursor.fetchall()
#獲取一個返回
r = cursor.fetchone()
#獲取至多三個返回 不足三個時返回所有
r = cursor.fetchmany(3)
#其他的fetch方法可自行百度

#將返回資料型別改為字典
cursor = connection.cursor(cursor=pymysql.cursors.DictCursor)
#或者在建立連線物件時指定返回資料型別為字典 建議把返回型別修改為字典型別
connection = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='1234', db='python', cursorclass=pymysql.cursors.DictCursor)

#儲存所做的修改 在連線關閉之前，如果你沒有呼叫下面的語句
#那麼，你之前的所有修改將不會被儲存
connection.commit()

#關閉遊標
cursor.close()
#關閉連線
connection.close()

一、確定items

我們要爬取的網站是：http://m.50zw.la
要爬取的是小說的資訊，如圖：

所以items.py檔案如下：

import scrapy


class TextInfoItem(scrapy.Item):
    # name = scrapy.Field()
    text_name = scrapy.Field()
    text_author = scrapy.Field()
    text_type = scrapy.Field()
    text_status = scrapy.Field()
    text_latest = scrapy.Field()
    text_intro = scrapy.Field()

最後資訊是要儲存到資料庫裡的，所以我們還得建立一個數據庫表。

第一步：在開始選單裡找到MySQL Workbench，雙擊開啟。MySQL Workbench是MySQL自帶的一個視覺化管理工具
第二步：在 MySQL Workbench裡連線資料庫，並建立一個數據庫 python，然後再在剛剛建立的資料庫裡建立一個表 text_info
第三步：在 text_info表裡逐一新增 text_name，text_author 等屬性，型別全部設定為 varchar，大小除了 text_intro是 1000外，其他的全部設定為 50

MySQL的使用就不詳細講了。如果遇到問題，歡迎評論留言。

二、爬取資訊

為了簡單，我們只爬取 50zw網站下的玄幻分類的小說資訊。

細節前面已經講過了，這裡不再多講，有不懂的可以去看前面的幾篇文章。

廢話不多說，直接上程式碼：

import scrapy
from text_info.items import TextInfoItem

class A50zwSpider(scrapy.Spider):
    name = '50zw'
    allowed_domains = ['m.50zw.la']
    start_urls = ['http://m.50zw.la/wapsort/1_1.html']

    #主站連結 用來拼接
    base_site = 'http://m.50zw.la'

    def parse(self, response):
        book_urls = response.xpath('//table[@class="list-item"]//a/@href').extract()

        for book_url in book_urls:
            url = self.base_site + book_url
            yield scrapy.Request(url, callback=self.getInfo)

        #獲取下一頁
        next_page_url = self.base_site + response.xpath('//table[@class="page-book"]//a[contains(text(),"下一頁")]/@href').extract()[0]
        yield scrapy.Request(next_page_url, callback=self.parse)

    def getInfo(self, response):
        item = TextInfoItem()

        #提取資訊
        item['text_id'] = response.url.split('_')[1].replace('/', '')
        item['text_name'] = response.xpath('//table[1]//p/strong/text()').extract()[0]
        item['text_author'] = response.xpath('//table[1]//p/a/text()').extract()[0]
        item['text_type'] = response.xpath('//table[1]//p/a/text()').extract()[1]
        item['text_status'] = response.xpath('//table[1]//p/text()').extract()[2][3:]
        item['text_latest'] = response.xpath('//table[1]//p[5]/text()').extract()[0][3:]
        item['text_intro'] = response.xpath('//div[@class="intro"]/text()').extract()[0]

        yield item

這裡我們通過 yield 來發起一個請求，並通過 callback 引數為這個請求添加回調函式，在請求完成之後會將響應作為引數傳遞給回撥函式。

scrapy框架會根據 yield 返回的例項型別來執行不同的操作，如果是 scrapy.Request 物件，scrapy框架會去獲得該物件指向的連結並在請求完成後呼叫該物件的回撥函式。

如果是 scrapy.Item 物件，scrapy框架會將這個物件傳遞給 pipelines.py做進一步處理。

這裡我們有三個地方使用了 yield ，第一個地方是：

 for book_url in book_urls:
        url = self.base_site + book_url
        yield scrapy.Request(url, callback=self.getInfo)

這裡我們在迴圈裡不斷提取小說詳細頁面的連結，並通過 yield 來發起請求，並且還將函式 getInfo 作為回撥函式來從響應中提取所需的資料。

第二個地方是：

#獲取下一頁
next_page_url = self.base_site + response.xpath('//table[@class="page-book"]//a[contains(text(),"下一頁")]/@href').extract()[0]
yield scrapy.Request(next_page_url, callback=self.parse)

這裡是在爬取完一頁的資訊後，我們在當前頁面獲取到了下一頁的連結，然後通過 yield 發起請求，並且將 parse 自己作為回撥函式來處理下一頁的響應。

這有點像遞迴，不過遞迴是函式自己呼叫自己，這裡看起來好像是 parse 呼叫了自己，但實際上 parse 是由 scrapy框架在獲得響應後呼叫的。

最後一處使用了 yield 的地方在 getInfo 函式裡：

def getInfo(self, response):
        item = TextInfoItem()
        
        ... ...
        
        item['text_intro'] = response.xpath('//div[@class="intro"]/text()').extract()[0]
        yield item

這裡我們通過 yield 返回的不是 Request 物件，而是一個 TextInfoItem 物件。

scrap有框架獲得這個物件之後，會將這個物件傳遞給 pipelines.py來做進一步處理。

我們將在 pipelines.py裡將傳遞過來的 scrapy.Item 物件儲存到資料庫裡去。

三、將資訊插入資料庫

python對資料庫的操作很簡單，我們簡單瞭解一下步驟：

建立資料庫連線
建立操作遊標
寫sql語句
執行sql語句
如果執行的是查詢語句，則用fetch語句獲取查詢結果
如果執行的是插入、刪除等對資料庫造成了影響的sql語句，還需要執行commit儲存修改

貼上程式碼：

import pymysql

class TextInfoPipeline(object):
    def __init__(self):
        #建立資料庫連線
        self.connection = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='1234', db='python',charset='utf8')
        #建立操作遊標
        self.cursor = self.connection.cursor()

    def process_item(self, item, spider):
        #定義sql語句
        sql = "INSERT INTO `python`.`text_info` (`text_id`, `text_name`, `text_author`, `text_type`, `text_status`, `text_latest`, `text_intro`) VALUES ('"+item['text_id']+"', '"+item['text_name']+"', '"+item['text_author']+"', '"+item['text_type']+"', '"+item['text_status']+"', '"+item['text_latest']+"', '"+item['text_intro']+"');"
        
        #執行sql語句
        self.cursor.execute(sql)
        #儲存修改
        self.connection.commit()

        return item

    def __del__(self):
        #關閉操作遊標
        self.cursor.close()
        #關閉資料庫連線
        self.connection.close()

寫在最後：

程式碼敲好後不要忘記在settings裡開啟pipelines
pymsql連線時預設的編碼是latin-1，所以在建立資料庫連線時會增加引數charset來修改編碼，要修改為utf-8的話得用charset=’utf8‘，而不是charset=’utf-8‘
這個網站有些問題，會時不時報404錯誤，所以在爬的過程中會報list index out of range,這是因為得到了錯誤的網頁，xpath找不到對應得路徑返回了空列表。這是正常現象，並不是程式碼出問題了（當然，如果頻繁報錯最好是檢查一下程式碼）

貼一張成功後的圖片：

最後的最後，覺得我寫的不錯的話記得關注我哦。

scrapy爬蟲框架（四）：scrapy中 yield使用詳解

開始前的準備工作： MySQL下載：點我 python MySQL驅動下載：pymysql（pyMySql，直接用pip方式安裝）全部安裝好之後，我們來熟悉一下pymysql模組 import pymysql #建立連結物件 connection = pymysql

scrapy爬蟲框架（一）：scrapy框架簡介

一、安裝scrapy框架 #開啟命令列輸入如下命令： pip install scrapy 二、建立一個scrapy專案安裝完成後，python會自動將 scrapy命令新增到環境變數中去，這時我們就可以使用 scrapy命令來建立我們的第一個 scrapy專案了。

scrapy爬蟲框架（三）：爬取桌布儲存並命名

寫在開始之前按照上一篇介紹過的 scrapy爬蟲的建立順序，我們開始爬取桌布的爬蟲的建立。首先，我們先過一遍 scrapy爬蟲的建立順序：第一步：確定要在pipelines裡進行處理的資料，寫好items檔案第二步：建立爬蟲檔案，將所需要的資訊從

scrapy爬蟲框架（二）：建立一個scrapy爬蟲

在建立新的scrapy爬蟲之前，我們需要先了解一下建立一個scrapy爬蟲的基本步驟一、確定要爬取的資料以爬取豆瓣電影資料為例：每部電影所要爬取的資訊有：片名:《頭號玩家》導演: 史蒂文·斯皮爾伯格編劇: 扎克·佩恩 / 恩斯特·克萊

朱老師ARM裸機學習筆記（四）：S5PV210啟動過程詳解

常用器件特性記憶體： SRAM 靜態記憶體特點就是容量小、價格高，優點是不需要軟體初始化直接上電就能用 DRAM 動態記憶體特點就是容量大、價格低，缺點就是上電後不能直接使用，需要軟體初始化後才可以使用。微

python爬蟲（四）：scrapy 【1. 快速上手】

中文文件：http://www.scrapyd.cn/doc/ Scrapy是採用Python開發的一個快速、高層次的螢幕抓取和web抓取框架。什麼是爬蟲框架？爬蟲框架是實現爬蟲功能的一個軟體結構和功能元件集合。爬蟲框架是一個半成品，能夠幫助使用者實現專業網路

python爬蟲（四）：scrapy 【2. 其他重要部分】

中文文件：http://www.scrapyd.cn/doc/ 本節包括： 1. resquest 和 response 的屬性方法 2. scrapy提取資訊的強大方法 request 和 response request：

Scrapy原始碼分析（四）：請求Request

本次我們要分析的Scrapy原始碼為Request模組，模組的位置： from scrapytest.http import Request 首先把Request的原始碼附上： class Request(object_ref): def __init__(sel

python學習（三）scrapy爬蟲框架（三）——爬取桌布儲存並命名

寫在開始之前按照上一篇介紹過的scrapy爬蟲的建立順序，我們開始爬取桌布的爬蟲的建立。首先，再過一遍scrapy爬蟲的建立順序：第一步：確定要在pipelines裡進行處理的資料，寫好items檔案第二步：建立爬蟲檔案，將所需要的資訊從網站上爬

Python爬蟲系列（四）：Beautiful Soup解析HTML之把HTML轉成Python對象

調用 nor 結束版本現在 name屬性 data 官方文檔 get 在前幾篇文章，我們學會了如何獲取html文檔內容，就是從url下載網頁。今天開始，我們將討論如何將html轉成python對象，用python代碼對文檔進行分析。 (牛小妹在學校折騰了好幾天，也沒把h

Java類集框架（四）：集合輸出

集合輸出的4種形式：Iterator輸出、ListIterator輸出、foreach（加強型for迴圈）輸出、Enumeration輸出。迭代輸出：Iterator Iterator（迭代器）是集合輸出操作的一個介面，Collection介面中提供了直接為Iterator介面例項

Python爬蟲開發（四）：動態載入頁面的解決方案與爬蟲代理

0×00 前言如果讀者讀過我前面的關於爬蟲的文章，應該大概都清楚我們現在可以對一個靜態的web頁面”為所欲為“了，但是技術的發展總是沒有止境的，僅僅是這樣對靜態頁面處理遠遠不夠，要知道現在很多的web頁面有意無意為了防止靜態爬蟲使用ajax技術動態載入頁面，這就導致了在面對這些網站的時候，我們

python爬蟲實戰（四）：selenium爬蟲抓取阿里巴巴採購批發商品

一、前言二、學習資料（感謝分享）三、開始爬取 1、先分析目標網址，為什麼選擇selenium 在搜尋中輸入女裝，用F12檢視原始碼，看看網頁顯示的內容是不是Ajax。點選Network，選擇下面的XHR，按F5重新整理頁面，下

webUI自動化測試框架（四）：程式碼分層-操作層及用例層

前面將基礎打好了，接下來就是具體的使用了，業務層主要是頁面中的各種業務操作，如登入，修改使用者資訊等，我們把這些操作都封裝在業務類中，如登入操作，我們把它封裝成一個類，登入的大致流程為開啟登入頁，輸入使用者名稱密碼，點選登入按鈕，這樣一個完整的登入業務就算完成了。那為什麼

MyEclipse整合SSM框架（四）：整合前端頁面，通過ajax請求獲得資料

Spring+SpringMVC+Mybatis 框架已經搭建完成，其中包括：（1）maven工程的搭建（2）框架所需要的配置檔案的配置（3）Mybatis 建立逆向工程連結資料庫。相應的配置檔案參見前幾篇部落格。此篇整理前端頁面傳送ajax 請求到後端，後端通過 Myb

Shiro許可權管理框架（四）：深入分析Shiro中的Session管理

其實關於Shiro的一些學習筆記很早就該寫了，因為懶癌和拖延症晚期一直沒有落實，直到今天公司的一個專案碰到了在叢集環境的單點登入頻繁掉線的問題，為了解決這個問題，Shiro相關的文件和教程沒少翻。最後問題解決了，但我覺得我也是時候來做一波Shiro學習筆記了。本篇是Shiro系列第四篇，Shiro中的過濾器

Zookeeper詳解（四）：Zookeeper中的zkCli.sh客戶端使用

zkCli.sh zookeeper客戶端最好配置上環境變量連接操作：zkCli.sh -timeout 1000 -r -server 127.0.0.1 # -timeout 設置客戶端和服務器之間的超時時長，單位毫秒 # -r 只讀模式，不加就是讀寫模式 # -server IP:PORT 要

tensorflow利用預訓練模型進行目標檢測（四）：檢測中的精度問題以及evaluation

一、tensorflow提供的evaluation Inference and evaluation on the Open Images dataset：https://github.com/tensorflow/models/blob/master/research/object_detection/g

Spring的學習（四）：Web中的Spring

Spring通常用來開發Web應用。 SpringMVC的執行過程：我們可以從以下的圖來分析SpringMVC的的執行過程。 1、客戶端在傳送請求的時候，會呼叫DispatcherServlet，Dispatch是SpringMVC的入口，Dispatche

GitHub學習（四）：Phpstorm中的git使用（2）--拉取工程與composer使用

之前我在一臺電腦上將一份不完整的工程儲存在github上，現在我回到家中，換了一臺電腦，接下來就是要用另一臺電腦拉取github中的工程，並用composer把整個工程的依賴檔案什麼亂七八糟的檔案都下下好。 1.首先開啟phpstorm，按圖

scrapy爬蟲框架（四）：scrapy中 yield使用詳解

開始前的準備工作：

一、確定items

二、爬取資訊

三、將資訊插入資料庫

寫在最後：

相關推薦