scrapy專利爬蟲（三）——簡單實際操作

阿新 • • 發佈：2018-12-17

scrapy專利爬蟲（三）——簡單實際操作

確定連結

在chrome中開啟審查元素中的network選項，檢視查詢專利時傳送的請求。觀察後發現在每次查詢的時候，瀏覽器都會先發送兩條請求給伺服器。

傳送相關請求

經過觀察發現，網站的查詢流程是

先發送不帶引數的post請求preExecuteSearch!preExcuteSearch.do將ip地址傳給伺服器
然後再發送biaogejsAC!executeCommandSearchUnLogin.do將查詢引數發給伺服器

填寫表單，傳送請求

這裡只給出一個簡單的例子，具體實現見github或程式碼附件

headers = {
    "Content-Type": "application/x-www-form-urlencoded"
}
searchExp = SearchService.getCnSearchExp(self.startDate, proposer, inventor, type)
formData = {
    "searchCondition.searchExp": searchExp,
    "searchCondition.dbId": "VDB",
    "searchCondition.searchType": "Sino_foreign",
    "searchCondition.power" 
: "false",
    "wee.bizlog.modulelevel": "0200201",
    "resultPagination.limit": BaseConfig.CRAWLER_SPEED
}
yield FormRequest(
    url="http://www.pss-system.gov.cn/sipopublicsearch/patentsearch/biaogejsAC!executeCommandSearchUnLogin.do",
    callback=self.parsePatentList,
    method="POST",
    headers=headers,
    formdata=formData,
    meta={
        'searchExp' 
: searchExp,
        'inventionType': type,
        'startDate': self.startDate,
        'proposer': proposer,
        'inventor': inventor
    }
)

資料解析

通過觀察chrome的Element，可以逐個找出我們所需要的元素，例如：

本工程使用beautifulsoup進行解析，對於帶class的元素，使用find(attrs={"class": "className"})的方法採集即可，其他引數也類似。這裡提供簡單的例子

itemSoup = BeautifulSoup(item.prettify(), "lxml")
header = itemSoup.find(attrs={"class": "item-header"})
pi['name'] = header.find("h1").get_text(strip=True)
pi['type'] = header.find(attrs={"class": "btn-group left clear"}).get_text(strip=True)
pi['patentType'] = QueryInfo.inventionTypeToString(type)
content = itemSoup.find(attrs={"class": "item-content-body left"})

資料收集

同樣的需要對item使用yield，然後將資料傳入pipeline中進行處理，關於更多資料處理的詳細內容將會在下節內容中介紹。

原始碼下載

csdn
github

讚賞

微信	支付寶

scrapy專利爬蟲（三）——簡單實際操作

scrapy專利爬蟲（三）——簡單實際操作確定連結在chrome中開啟審查元素中的network選項，檢視查詢專利時傳送的請求。觀察後發現在每次查詢的時候，瀏覽器都會先發送兩條請求給伺服器。傳送相關請求經過觀察發現，網站的查詢流程是先發送不帶引

scrapy專利爬蟲（一）——scrapy簡單介紹

scrapy專利爬蟲（一）——scrapy簡單介紹概述 scrapy是一款方便，快捷的開源爬蟲框架。 An open source and collaborative framework for extracting the data you need from w

scrapy專利爬蟲（四）——資料處理

scrapy專利爬蟲（四）——資料處理說到scrapy的資料處理，就必須先介紹兩個元件item和pipeline。 item item的使用比較簡單，只需要定義一個繼承自scrapy.Item的類，在類中定義需要採集的元素即可，比如： # 專利名稱 na

scrapy專利爬蟲（二）——請求相關

scrapy專利爬蟲（二）——請求相關在這裡筆者將會介紹一些關於傳送request的相關內容。 Spider Spider預設需要填寫三個引數： name spider的獨立名稱，必須唯一 allowe

小白學 Python 爬蟲（35）：爬蟲框架 Scrapy 入門基礎（三） Selector 選擇器

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

Python學習之路（四）爬蟲（三）HTTP和HTTPS

CP 發出 net 長度現在消息頭理論 LV 模型 HTTP和HTTPS HTTP協議（HyperText Transfer Protocol，超文本傳輸協議）：是一種發布和接收 HTML頁面的方法。 HTTPS（Hypertext Transfer Protoc

自學python爬蟲（三）正則表示式

一、什麼是正則表示式正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元，及這些特定字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯。（非Python獨有，python中re模組實現）二、常見的匹配模式 re.match

Kafka學習（三）簡單例項（可以簡單做測試）

java客戶端連線kafka簡單測試本案例kafka版本是kafka_2.11-0.9.0.1，用java來實現kafka生產者、消費者的示例在測試的過程中遇到的特別的問題以及解決辦法，其他小問題就不一一列舉了。 1 . 使用kafka-clients進行測試，maven依賴

網易雲音樂評論爬蟲（三）:爬取歌曲的全部評論

用過網易雲音樂聽歌的朋友都知道，網易雲音樂每首歌曲後面都有很多評論，熱門歌曲的評論更是接近百萬或者是超過百萬條．現在我就來分享一下如何爬取網易雲音樂歌曲的全部評論，由於網易雲音樂的評論都做了混淆加密處理，因此我們需要深入瞭解它的加密過程之後才能爬取到網易雲音樂歌曲的全部評論．一，首

dotnetcore爬蟲（一）簡單獲取頁面資訊

我們就不多講理論了，直接拿出程式碼，嘗試嘗試就知道需要用到什麼知識了。畢竟實踐是檢驗真理的唯一標準。 using System; using System.Net.Http; namespace dotnetcoreHttpClient { class Program

python爬蟲（三）：BeautifulSoup 【6. 例項】

爬取最好大學網的大學排名需要掌握的其它知識：（1）列表 list1=[1,2,3]，list1.append([3,4]) （2）format用法 .format 比 % 更好用，按位置替換，詳細瞭解可以參考網址 https://blog.csdn.ne

docker 基礎教程-入門：（三）--簡單製作映象

前言一般情況下，我們中直接使用docker官網的庫，就可以找到我們日常開發中需要的映象，比如：ubuntu、tomcat、apache、nginx、php、mysql、redi

Go語言學習（三）簡單比特幣挖礦類實現

//utils.go package main import ( "bytes" "encoding/binary" "log" ) func IntToHex(num int64)[]byte{ buff:=new(bytes.Buffer) //開闢記憶體，

學習筆記（三）簡單的狀態模式&FSM有限狀態機框架的實現（二）

之前釋出的那篇部落格可能說的並是不非常清楚，所以整理了一下，也參考了一些文件，於是又寫了一篇總結。一、有限狀態機FSM的要點 1、擁有一組狀態，並且可以再這組狀態之間進行切換。 2、狀態機同時只能存在一個狀態，英雄不能能同時處於跳躍和站立。而防止這一點就是使用

基本爬蟲架構實現的豆瓣爬蟲（三）: HTML 解析器

一、實現原理 HTML 解析器使用 Xpath 規則進行 HTML 解析，需要解析的部分主要有書名、評分和評分人數。二、程式碼如下 1 from lxml.html import etree 2 import re 3 4 class HtmlParser:

分散式豆瓣爬蟲（三）: 控制節點-控制排程器

一、實現原理控制排程器主要是產生並啟動 URL 管理程序、資料提取程序和資料儲存程序，同時維護4個佇列保持程序間的通訊，分別為 url_q、result_q、conn_q、store_q。4個佇列說明如下： url_q：佇列是 URL 管理程序將 URL 傳遞給爬蟲節點的通道。 result_

python手記（五）：requests寫爬蟲（三）：實戰：翻譯器

人生不易且無趣，一起找點樂子吧。歡迎評論，和文章無關也可以。有了前兩篇文章做基礎，我們來實戰，用爬蟲來實現翻譯器。我的瀏覽器是360的，一般搜尋“翻譯”的時候，跳出來的都是360翻譯。like that：寫程式碼前分析

R基礎學習（三）-- 簡單練習（shiny+mysql+barplot）

user observe 實現 tle plot rstudio names eat lag 測試環境：win10+RStudio 提前準備： install.packages(‘shiny‘) install.packages(‘RMySQL‘) 數據表準備：

資料爬蟲（三）：python中requests庫使用方法詳解

一、什麼是Requests Requests 是⽤Python語⾔編寫，基於urllib，採⽤Apache2 Licensed開源協議的 HTTP 庫。它⽐ urllib 更加⽅便，可以節約我們⼤量的⼯作，完全滿⾜HTTP測試需求。⼀句話——Python實現的簡單易

Python網路爬蟲（三）：chromdriver.exe與chrome版本對映及下載連結

前言：最近正在學習Python網路爬蟲，學到selenium，需要用到chrome瀏覽器的驅動，但是網上的很多地址都被牆了，而且沒有準確的驅動和chrome版本的對映，很麻煩。現在我已經解決了這些問題，現在把對映和下載連結分享出來。（一）檢視chrome

scrapy專利爬蟲（三）——簡單實際操作

scrapy專利爬蟲（三）——簡單實際操作

確定連結

傳送相關請求

填寫表單，傳送請求

資料解析

資料收集

原始碼下載

相關推薦