Scrapy爬蟲框架第七講【ITEM PIPELINE用法】

阿新 • • 發佈：2018-05-19

不能 doc from 參考數據去重 17. con pic set

ITEM PIPELINE用法詳解：

技術分享圖片

ITEM PIPELINE作用：

清理HTML數據
驗證爬取的數據(檢查item包含某些字段)
去重(並丟棄)【預防數據去重，真正去重是在url,即請求階段做】
將爬取結果保存到數據庫中

技術分享圖片

ITEM PIPELINE核心方法（4個）

（1）、open_spider(spider)

（2）、close_spider(spider)

（3）、from_crawler(cls,crawler)

（4）、process_item(item,spider)

下面小夥伴們我們依次來分析：

1、open_spider(spider) 【參數spider 即被開啟的Spider對象】

該方法非必需，在Spider開啟時被調用，主要做一些初始化操作，如連接數據庫等

2、close_spider(spider)【參數spider 即被關閉的Spider對象】

該方法非必需，在Spider關閉時被調用，主要做一些如關閉數據庫連接等收尾性質的工作

3、from_crawler(cls,crawler)【參數一：Class類參數二：crawler對象】

該方法非必需，Spider啟用時調用，早於open_spider（）方法，是一個類方法，用@classmethod標識，它與__init__函有關，這裏我們不詳解（一般我們不對它進行修改）

4、process_item(item,spider)【參數一：被處理的Item對象參數二：生成該Item的Spider對象】

該方法必需實現，定義的Item pipeline會默認調用該方法對Item進行處理，它返回Item類型的值或者拋出DropItem異常

實例分析（以下實例來自官網：https://doc.scrapy.org/en/latest/topics/item-pipeline.html）

 1 from scrapy.exceptions import DropItem
 2 
 3 class PricePipeline(object):
 4 
 5     vat_factor = 1.15
 6 
 7     def process_item(self, item, spider):
 8         if 
 item[‘price‘]:
 9             if item[‘price_excludes_vat‘]:
10                 item[‘price‘] = item[‘price‘] * self.vat_factor
11             return item
12         else:
13             raise DropItem("Missing price in %s" % item)

代碼分析：

首先定義了一個PricePipeline類

定義了增值稅稅率因子為1.15

主函數process_item方法實現了如下功能：判斷Item中的price字段，如沒計算增值稅，則乘以1.15，並返回Item，否則直接拋棄

總結：該方法要麽return item給後邊的管道處理，要麽拋出異常

數據去重

 1 from scrapy.exceptions import DropItem
 2 
 3 class DuplicatesPipeline(object):
 4 
 5     def __init__(self):
 6         self.ids_seen = set()
 7 
 8     def process_item(self, item, spider):
 9         if item[‘id‘] in self.ids_seen:
10             raise DropItem("Duplicate item found: %s" % item)
11         else:
12             self.ids_seen.add(item[‘id‘])
13             return item

代碼分析：

首先定義了一個DuplicatesPipeline類

這裏比上面多了一個初始化函數__init__，set()---去重函數

主函數process_item方法首先判斷item數據中的id是否重復，重復的就將其拋棄，否則就增加到id，然後傳給下個管道

將數據寫入文件

 1 import json
 2 
 3 class JsonWriterPipeline(object):
 4 
 5     def open_spider(self, spider):
 6         self.file = open(‘items.jl‘, ‘w‘)
 7 
 8     def close_spider(self, spider):
 9         self.file.close()
10 
11     def process_item(self, item, spider):
12         line = json.dumps(dict(item)) + "\n"
13         self.file.write(line)
14         return item

代碼分析：

首先我們定義了一個JsonWritePipeline類

定義了三個函數：

first：open_spider（）在Spider開啟時啟用作用很簡單即打開文件，準備寫入數據

second：close_spider()在Spider關閉時啟用作用也很簡單即關閉文件

third(主要）：process_items()作用如下首先將item轉換為字典類型，在用json.dumps()序列化為json字符串格式，再寫入文件，最後返回修改的item給下一個管道

綜合實例

 1 import pymongo
 2 
 3 class MongoPipeline(object):
 4 
 5     collection_name = ‘scrapy_items‘
 6 
 7     def __init__(self, mongo_uri, mongo_db):
 8         self.mongo_uri = mongo_uri
 9         self.mongo_db = mongo_db
10 
11     @classmethod
12     def from_crawler(cls, crawler):
13         return cls(
14             mongo_uri=crawler.settings.get(‘MONGO_URI‘),
15             mongo_db=crawler.settings.get(‘MONGO_DATABASE‘, ‘items‘)
16         )
17 
18     def open_spider(self, spider):
19         self.client = pymongo.MongoClient(self.mongo_uri)
20         self.db = self.client[self.mongo_db]
21 
22     def close_spider(self, spider):
23         self.client.close()
24 
25     def process_item(self, item, spider):
26         self.db[self.collection_name].insert(dict(item))
27         return item

代碼分析：

首先我們定義了一個MongoPipeline類

這裏我們修改了初始化函數__init__，給出了存儲到Mongodb的鏈接地址和數據庫名稱所以更改了from_crawler()工廠函數函數（生產它的對象），這裏指定了鏈接地址和數據表名稱

最後我們定義了三個函數：

first:open_spider（）在Spider開啟時啟用作用是打開mongodb數據庫

second:close_spider()在Spider關閉時啟用作用是關閉數據庫

third：process_items()作用如下在數據庫中插入item

項目實戰：（我們以58同城鎮江房屋出租為例）抓取出租信息的標題、價格、詳情頁的url

我是在ubuntu16.04環境下跑的

啟動終端並激活虛擬環境：source course_python3.5/bin/activate

創建一個新目錄project：mkdir project

創建項目：scrapy startproject city58-----cd city58----創建爬蟲（這裏小夥伴們註意項目名不能與爬蟲名重名）scrapy genspider city58_test

下面我們正式開始

（1）、修改items.py

技術分享圖片

（2）修改city58_test.py文件（這裏我們使用pyquery選擇器）

技術分享圖片

（3）、重點來了，修改pipelines.py文件，小夥伴們可參考上面的案例分析

技術分享圖片

（4）最後通過settings.py啟動pipeline

技術分享圖片

這裏向小夥伴們科普一個小知識點：後面的數字是優先級，數字越小，越優先執行

（5）項目運行結果(部分)----下次小夥伴們想了解出租信息可以找我，我幫你秒下。哈哈！

技術分享圖片

並且我們可以在同級目錄下找到我們寫入的文件

總結：

（1）、首先了解了管道的作用

（2）、掌握了核心的方法，其中特別是process_item()方法

（3）、最後我們通過實例和項目進行實戰，後面我們會繼續學習如何使用管道進行高級的操作，敬請期待，記得最後一定要在配置文件中開啟Spider中間件

Scrapy爬蟲框架第七講【ITEM PIPELINE用法】

不能 doc from 參考數據去重 17. con pic set ITEM PIPELINE用法詳解： ITEM PIPELINE作用：清理HTML數據驗證爬取的數據(檢查item包含某些字段) 去重(並丟棄)【預防數據去重，真正去重是在url,即請求階段

Machine Learning第八講【非監督學習】-- （四）PCA應用

一、Reconstruction from Compressed Representation（壓縮特徵的復原）本部分主要講我們如何將已經壓縮過的特徵復原成原來的，如下圖：左邊的二維圖是未縮減維數之前的情況，下面的一維圖是利用縮減之後的情況，我們利用公式可以得到x的近似值，如右圖，

Machine Learning第八講【非監督學習】--（三）主成分分析（PCA）

一、Principal Component Analysis Problem Formulation（主成分分析構思）首先來看一下PCA的基本原理： PCA會選擇投影誤差最小的一條線，由圖中可以看出，當這條線是我們所求時，投影誤差比較小，而投影誤差比較大時，一定是這條線偏離最優直線。

Machine Learning第八講【非監督學習】-- （二）動因

一、Motivation I: Data Compression（動因I：資料壓縮）下面是2個降維處理的例項：例項1：將cm和inch的2維資料降成1維資料：例項2：降3維資料降成2維資料：二、Motivation II: Visualization（動因II：視

Machine Learning第十講【大規模機器學習】

本部分主要包括如下內容： Learning With Large Datasets (大資料集訓練模型) Stochastic Gradient Descent (隨機梯度下降演算法) &n

第十七節：Scrapy爬蟲框架之Middleware文件詳解

cookies yield 啟動 urn 響應 HERE 返回 === one # -*- coding: utf-8 -*-# 在這裏定義蜘蛛中間件的模型# Define here the models for your spider middleware## See d

Scrapy爬蟲框架第一講(Linux環境)

配置文件如何解決成了文件路徑 selenium linux 文件權限 vmw 1、What is Scrapy? 答：Scrapy是一個使用python語言（基於Twistec框架）編寫的開源網絡爬蟲框架，其結構清晰、模塊之間的耦合程度低，具有較強的擴張性，能滿足

python3網路爬蟲第三章: Scrapy 爬蟲框架 (1)

1.認識目錄結構安裝略過,使用命令建立專案 scrapy startproject myfirstpjt 這裡面 scrapy.cfg 是爬蟲專案配置檔案,專案的同名子資料夾中,init.py 是初始化檔案,items.py 是爬蟲專案的資料容器檔案,piplines

python爬蟲之Scrapy框架中的Item Pipeline用法

RoCE 執行 ise inf 優先執行 sin .com 如果 ica 當Item在Spider中被收集之後, 就會被傳遞到Item Pipeline中進行處理. 每個item pipeline組件是實現了簡單的方法的python類, 負責接收到item並通過它執行一些

【爬蟲】Scrapy爬蟲框架教程-- 抓取AJAX非同步載入網頁

前一段時間工作太忙一直沒有時間繼續更新這個教程，最近離職了趁著這段時間充裕趕緊多寫點東西。之前我們已經簡單瞭解了對普通網頁的抓取，今天我就給大家講一講怎麼去抓取採用Ajax非同步加的網站。工具和環境語言：python 2.7 IDE： Pycharm 瀏覽器：Ch

Scrapy爬蟲入門教程七 Item Loaders（專案載入器）

目錄專案載入器巢狀裝載器開發環境： Python 3.6.0 版本（當前最新） Scrapy 1.3.2 版本（當前最新）專案載入器專案載入器提

第十八節：Scrapy爬蟲框架之settings文件詳解

system tle 下載 cati 項目 spi 設置 com 服務器 # -*- coding: utf-8 -*-# Scrapy settings for maoyan project## For simplicity, this file contains onl

Python 和 Scrapy 爬蟲框架部署

python scrapy 爬蟲框架 Scrapy 是采用Python 開發的一個快速可擴展的抓取WEB 站點內容的爬蟲框架。安裝依賴 yum install gcc gcc-c++ openssl mysql mysql-server libffi* libxml* libxml2 l

Scrapy 爬蟲框架入門案例詳解

tin mon setting 爬蟲框架 finished perror project 原因 create 歡迎大家關註騰訊雲技術社區-博客園官方主頁，我們將持續在博客園為大家推薦技術精品文章哦~ 作者：崔慶才 Scrapy入門本篇會通過介紹一

scrapy爬蟲框架

cnblogs logs spi down 方式 ges htm width sched downloader：負責下載html頁面 spider：負責爬取頁面內容，我們需要自己寫爬取規則 srapy提供了selector，獲取的方式有xpath，css，正則，extr

scrapy爬蟲框架實例之一

獲取名稱返回工程 ima 1-57 response lines star 　　本實例主要通過抓取慕課網的課程信息來展示scrapy框架抓取數據的過程。　1、抓取網站情況介紹　　抓取網站：http://www.imooc.com/course/list 　

（筆記）斯坦福機器學習第七講--最優間隔分類器

滿足優化最終 clas 定義 mar 擴展 strong play 本講內容 1.Optional margin classifier（最優間隔分類器） 2.primal/dual optimization（原始優化問題和對偶優化問題）KKT conditions（KK

python爬蟲—使用scrapy爬蟲框架

pywin32 rip for 鏈接是把 ror sdn 成功 repl 問題1.使用scrapy框架，使用命令提示符pip命令下載scrapy後，卻無法使用scrapy命令，出現scrapy不是內部或外部命令。也不是可運行的程序解決：一開始，我是把python安裝在

Python之Scrapy爬蟲框架安裝及簡單使用

intern 原理 seda api release linux發行版 3.5 pic www 題記：早已聽聞python爬蟲框架的大名。近些天學習了下其中的Scrapy爬蟲框架，將自己理解的跟大家分享。有表述不當之處，望大神們斧正。一、初窺Scrapy Scrapy是

2017.07.26 Python網絡爬蟲之Scrapy爬蟲框架

返回 scripts http ref select 文本 lang bsp str 1.windows下安裝scrapy：cmd命令行下：cd到python的scripts目錄，然後運行pip install 命令然後pycharmIDE下就有了Scrapy：

Scrapy爬蟲框架第七講【ITEM PIPELINE用法】

相關推薦