scrapy專利爬蟲（四）——資料處理

阿新 • • 發佈：2018-12-17

scrapy專利爬蟲（四）——資料處理

說到scrapy的資料處理，就必須先介紹兩個元件item和pipeline。

item

item的使用比較簡單，只需要定義一個繼承自scrapy.Item的類，在類中定義需要採集的元素即可，比如：

    # 專利名稱
    name = scrapy.Field()
    # 型別（公告，授權公告）
    type = scrapy.Field()
    # 專利型別
    patentType = scrapy.Field()
    # 申請號
    requestNumber = scrapy.Field()
    # 申請日 

    requestDate = scrapy.Field()
    # 公佈日
    publishDate = scrapy.Field()

在後續的使用中，可以直接使用item.get('name')取值，item['name'] = 資料賦值。

pipeline

pipeline作為資料查重，收集等功能的管道，基本的資料處理都將這裡進行。

     process_item(self, item, spider)

函式中的item是在之前spider中的回撥函式yield的item，進入了這個函式後我們可以進行查重、校驗和資料儲存。本工程對發明人和申請人進行了校驗。

    def process_item(self, item, spider):
        if self.checkForInventor(item):
            if self.checkForProposer(item):
                print(item.items())
                self.writeToExcel(item)
        return item

寫入excel

由於專案對excel的需求不高，所以工程使用了xlrd，xlwd，xlutils等庫，寫入xls檔案。

python讀寫excel是分別使用了兩個庫進行操作。寫入用的是xlwd，讀取用的是xlrd。而且沒有提供直接修改的API，所以需要使用xlutils的copy先將excel檔案讀入寫入例項的記憶體。

    def getExcel(self, mode):           # 採用工廠模式建立excel的讀寫例項
        if isinstance(mode, str):
            if mode.upper() == "READ":
                return xlrd.open_workbook(self.__fileName)
            elif mode.upper() == "WRITE":
                rb = xlrd.open_workbook(self.__fileName)
                return copy(rb)
        else:
            return None

寫入時需要先指定sheet然後再進行寫入操作。由於各種奇奇怪怪的限制，所以工程模仿安卓的SharedPreferences的使用方式，先獲取editor然後每次寫入需要commit。

詳細例項在程式碼中。

原始碼下載

csdn
github

讚賞

微信	支付寶

scrapy專利爬蟲（四）——資料處理

scrapy專利爬蟲（四）——資料處理說到scrapy的資料處理，就必須先介紹兩個元件item和pipeline。 item item的使用比較簡單，只需要定義一個繼承自scrapy.Item的類，在類中定義需要採集的元素即可，比如： # 專利名稱 na

scrapy專利爬蟲（三）——簡單實際操作

scrapy專利爬蟲（三）——簡單實際操作確定連結在chrome中開啟審查元素中的network選項，檢視查詢專利時傳送的請求。觀察後發現在每次查詢的時候，瀏覽器都會先發送兩條請求給伺服器。傳送相關請求經過觀察發現，網站的查詢流程是先發送不帶引

scrapy專利爬蟲（二）——請求相關

scrapy專利爬蟲（二）——請求相關在這裡筆者將會介紹一些關於傳送request的相關內容。 Spider Spider預設需要填寫三個引數： name spider的獨立名稱，必須唯一 allowe

scrapy專利爬蟲（一）——scrapy簡單介紹

scrapy專利爬蟲（一）——scrapy簡單介紹概述 scrapy是一款方便，快捷的開源爬蟲框架。 An open source and collaborative framework for extracting the data you need from w

pandas 學習（四）—— 資料處理（清洗）、缺失值的處理

建立 DataFrame： df = pd.DataFrame(np.random.randint(0, 10, (2, 4)), columns=list('ABCD')) 0. 為 da

【網路爬蟲】【java】微博爬蟲（四）：資料處理——jsoup工具解析html、dom4j讀寫xml

之前提到過，對於簡單的網頁結構解析，可以直接通過觀察法、手工寫正則解析，可以做出來，比如網易微博。但是對於結構稍微複雜點的，比如新浪微博，如果還用正則，用眼睛一個個去找，未免太麻煩了。本文介紹兩個工具包：解析html, xml的jsoup，

python爬蟲（四）：scrapy 【1. 快速上手】

中文文件：http://www.scrapyd.cn/doc/ Scrapy是採用Python開發的一個快速、高層次的螢幕抓取和web抓取框架。什麼是爬蟲框架？爬蟲框架是實現爬蟲功能的一個軟體結構和功能元件集合。爬蟲框架是一個半成品，能夠幫助使用者實現專業網路

python爬蟲（四）：scrapy 【2. 其他重要部分】

中文文件：http://www.scrapyd.cn/doc/ 本節包括： 1. resquest 和 response 的屬性方法 2. scrapy提取資訊的強大方法 request 和 response request：

python爬蟲（四）---scrapy框架之騰訊招聘專案實戰

目的：功能就是翻頁請求步驟：如下爬取職位名，職位連結等  職位名：  職位詳情連結：  職位類別：  人數:  地點:  釋出時間：下一步驟：寫爬蟲：tencent.py檔案寫方法一：或者這樣寫

python 爬蟲（四）抓取Ajax資料

import urllib.request import ssl import json def ajaxCrawler(url): headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKi

Python爬蟲（四） URLError、HTTPError異常處理

1.URLError 首先解釋下URLError可能產生的原因：網路無連線，即本機無法上網連線不到特定的伺服器伺服器不存在在程式碼中，我們需要用try-except語句來包圍並捕獲相應的異常。下面是一個例子： import urllib.req

小白學 Python 爬蟲（36）：爬蟲框架 Scrapy 入門基礎（四） Downloader Middleware

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

Python學習之路（五）爬蟲（四）正則表示式爬去名言網

auth Python標準庫我們 color 匯總 eight code 比較 school 爬蟲的四個主要步驟明確目標 (要知道你準備在哪個範圍或者網站去搜索) 爬 (將所有的網站的內容全部爬下來) 取 (去掉對我們沒用處的數據) 處理數據（按照我們想要的

Python3爬蟲（四）請求庫的使用requests

with open decode python3 url -c highlight pos pen req Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、基本用法： 1. 安裝： pip install requests 2

Golang學習筆記（四）資料型別轉換

整數型別和浮點型別的轉換，先申明兩個變數，一個是int型的，一個是float型的。 chinese := 90 english := 80.9 將int型的強轉為float型，可以使用float32()或float64()，如float32(int型變數) avg1 := (floa

自學python爬蟲（四）Requests+正則表示式爬取貓眼電影

前言學了requests庫和正則表示式之後我們可以做個簡單的專案來練練手咯！先附上專案GitHub地址，歡迎star和fork，也可以pull request哦~ 地址：https://github.com/zhangyanwei233/Maoyan100.git 正文開始哈哈哈

系統學習NLP（四）--資料平滑

轉子：https://blog.csdn.net/fuermolei/article/details/81353746 在自然語言處理中，經常要計算單詞序列（句子）出現的概率估計。但是，演算法訓練的時候，預料庫中不可能包含所有可能出現的序列，因此為了防止對訓練樣本中為出現的新序列概率估計值為零，

winform控制元件縮寫（四）資料

winform控制元件縮寫（四）資料序號縮寫空間名 1 dts DataSet 2 dgv DataGridVi

QT入門（四）資料的轉換

目前qt的數我用到的資料轉換，無非是為了qt的控制元件的呼叫和顯示，後續複雜一點的可能有影象的資料的傳入和顯示有一個比較全面的，轉一下https://blog.csdn.net/liuysheng/article/details/6825165 1、QString --> strin

Matlab學習筆記（四）--影象處理

1、影象的讀取與顯示 >> rgb = imread('F:\圖片\beautiful scenery\\2.jpg'); &nb

scrapy專利爬蟲（四）——資料處理

scrapy專利爬蟲（四）——資料處理

item

pipeline

寫入excel

原始碼下載

相關推薦