python爬蟲（四）：scrapy 【1. 快速上手】

阿新 • • 發佈：2018-12-09

中文文件：http://www.scrapyd.cn/doc/

Scrapy是採用Python開發的一個快速、高層次的螢幕抓取和web抓取框架。

什麼是爬蟲框架？

爬蟲框架是實現爬蟲功能的一個軟體結構和功能元件集合。

爬蟲框架是一個半成品，能夠幫助使用者實現專業網路爬蟲。

應用Scrapy爬蟲框架主要是編寫配置型程式碼

Scrapy也是第三方庫，需要安裝

anaconda安裝scrapy：conda install scrapy

安裝完可以用 conda list 檢視

scrapy常用命令說明格式

startproject 建立一個新工程 scrapy startproject <name> [dir]

genspider 建立一個爬蟲 scrapy genspider [options] <name> <domain>

crawl 執行一個爬蟲 scrapy crawl <spider>

settings 獲得爬蟲配置資訊 scrapy settings [options]

list 列出工程中所有爬蟲 scrapy list

shell 啟動URL除錯命令列 scrapy shell [url]

新建專案，在D:\pycharm\workspace目錄：

scrapy startproject scrapy_demo

生成一個叫demo的爬蟲：

cd sciapy_demo

scrapy genspider demo xxx

xxx 是模板中 start_urls 和 allowed_domains 的值

allowed_domains的含義是過濾爬取的域名，不在此範圍內的域名就會被過濾，不會進行爬取。

allowed_domains沒啥用，註釋掉。

spiders目錄下就生成了demo.py

開啟demo.py，在這裡編寫爬蟲

註釋掉allowed_domains，start_urls填寫要爬的網頁（可以為多個），

我們來爬取

https://python123.io/ws/demo.html

在parse函式裡寫解析頁面的程式碼，parse有個引數response

response就是爬取start_urls得到的返回值，response.body就是文字內容了

解析：（儲存為檔案‘demo.html’）

def parse(self, response):

filename = 'demo.html'

with open (filename, 'wb') as f:

f.write(response.body)

執行爬蟲：

（crawl 這個 demo.py檔案，D:\pycharm\workspace\scrapy_demo>）

scrapy crawl demo

結果：

scrapy爬蟲步驟總結：

1. 首先新建專案

scrapy startproject scrapy_demo

2. 生成一個爬蟲（爬蟲名ant，網址xxx）

cd sciapy_demo

scrapy genspider ant xxx

3. 編寫爬蟲（/spiders/ant.py）

填url（start_url）

寫解析頁面（parse函式）

4. 執行爬蟲

scrapy crawl demo

目錄介紹：

scrapy_demo/ 工程名

scrapy.cfg 向伺服器部署Scrapy爬蟲的配置檔案（不需要配置）

scrapy_demo/ app名，同python

spiders/

demo.py 生成的爬蟲模板

__init__ .py 初始化指令碼（不用管）

items.py Items程式碼模板（不用管）

middlewares.py Middlewares程式碼模板（如果要擴充套件middleware功能需要修改）

pipelines.py Pipelines程式碼模板

settings.py scrapy爬蟲的配置檔案（優化爬蟲功能需要改）

python爬蟲（四）：scrapy 【1. 快速上手】

中文文件：http://www.scrapyd.cn/doc/ Scrapy是採用Python開發的一個快速、高層次的螢幕抓取和web抓取框架。什麼是爬蟲框架？爬蟲框架是實現爬蟲功能的一個軟體結構和功能元件集合。爬蟲框架是一個半成品，能夠幫助使用者實現專業網路

python爬蟲（四）：scrapy 【2. 其他重要部分】

中文文件：http://www.scrapyd.cn/doc/ 本節包括： 1. resquest 和 response 的屬性方法 2. scrapy提取資訊的強大方法 request 和 response request：

python爬蟲（五）：實戰【1. 檢驗代理ip小程式】

# 檢驗代理ip是否可用 import requests proxy_id = { "http": "http://110.73.42.32:8123"} r = requests.get('http://ip.webmasterhome.cn/', proxies=proxy_id)

python爬蟲（三）：BeautifulSoup 【6. 例項】

爬取最好大學網的大學排名需要掌握的其它知識：（1）列表 list1=[1,2,3]，list1.append([3,4]) （2）format用法 .format 比 % 更好用，按位置替換，詳細瞭解可以參考網址 https://blog.csdn.ne

python爬蟲（五）：實戰【2. 爬創客實驗室（requests + bs4）】

目標：爬取創科實驗室網站中講座的資訊，輸出表：講座標題、報告人、單位、報告時間、講座內容、報告人簡介技術：requests + bs4 檢視爬蟲協議： http://127.0.0.1/lab/robots.txt （創科實驗室是我自己寫的網址，不反爬蟲）

python爬蟲（五）：實戰【5. 使用正則爬亞馬遜價格】

使用正則定位價格，更簡單 import requests import re url = 'https://www.amazon.cn/s/field-keywords=spark' # 隱藏爬蟲 head = {'user-agent':'Mozilla/5.0 (Window

python爬蟲（五）：實戰【4. 爬亞馬遜】

目標：在亞馬遜網站搜尋商品，爬取前10頁的商品（名字和價格）第一步：訪問網站，隱藏爬蟲亞馬遜對爬蟲限制比較嚴格，修改headers、cookies、代理ip 獲取cookie：f12在console輸入document.cookie() 注意：cookies格式為字典，{'a':

python爬蟲（五）：實戰【3. 使用正則來爬創客實驗室】

依然爬取創科實驗室網站中講座的資訊（只爬標題，其它同）但技術上採用requests+正則表示式思想： #通過正則表示式，獲取講座標題規則：<h3>中文字元出現4次任意字元</h3> m = str(re.findall('<h3

Python爬蟲（二）：Scrapy框架的配置安裝

Windows安裝方式預設支援Python2、Python3，通過pip安裝Csrapy框架： pip install Scrapy Ubuntu(9.10以上版本)安裝方式預設支援Python2、Python3，通過pip安裝Csrapy框架： sud

小白學 Python 爬蟲（36）：爬蟲框架 Scrapy 入門基礎（四） Downloader Middleware

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

scrapy爬蟲框架（四）：scrapy中 yield使用詳解

開始前的準備工作： MySQL下載：點我 python MySQL驅動下載：pymysql（pyMySql，直接用pip方式安裝）全部安裝好之後，我們來熟悉一下pymysql模組 import pymysql #建立連結物件 connection = pymysql

python爬蟲（四）---scrapy框架之騰訊招聘專案實戰

目的：功能就是翻頁請求步驟：如下爬取職位名，職位連結等  職位名：  職位詳情連結：  職位類別：  人數:  地點:  釋出時間：下一步驟：寫爬蟲：tencent.py檔案寫方法一：或者這樣寫

Python網路爬蟲（四）：視訊下載器

這一節實現一個下載 iqiyi VIP視訊的爬蟲。需要的準備：旋風視訊VIP解析網站或其他解析網站原理理解：在視訊解析網站獲取視訊的過程中，首先會向視訊伺服器傳送GET請求，獲得伺服器發來的資訊；接到資訊後，再向伺服器POST資料，即將類似於密碼

Python網路爬蟲（四）：selenium+chrome爬取美女圖片

說明： Python版本：Python IDE：PyCharm chrome版本：我的版本63 chromedriver.exe：因為是模擬瀏覽器訪問，chrome需要再下載一個驅動，具體方式在我的上一篇部落格，內容很詳細。傳送門：Python網路爬蟲（

[Python]網路爬蟲（四）：Opener與Handler

在開始後面的內容之前，先來解釋一下urllib2中的兩個個方法：info and geturl urlopen返回的應答物件response(或者HTTPError例項)有兩個很有用的方法info()和geturl() 1.geturl()： geturl()返回獲

【網路爬蟲】【java】微博爬蟲（四）：資料處理——jsoup工具解析html、dom4j讀寫xml

之前提到過，對於簡單的網頁結構解析，可以直接通過觀察法、手工寫正則解析，可以做出來，比如網易微博。但是對於結構稍微複雜點的，比如新浪微博，如果還用正則，用眼睛一個個去找，未免太麻煩了。本文介紹兩個工具包：解析html, xml的jsoup，

Python高階爬蟲（四）：動態載入頁面的解決方案與爬蟲代理

*原創作者：VillanCh 0×00 前言 0×01 動態頁面解決方案Selenium+PhantomJS 0×02 原理回顧對比 0×03 Quick Start 0×04 webdriver API 0×05 匿名爬蟲 0×06 匿名爬蟲解決方案 0×07 完結總結

python爬蟲（四）：scrapy 【1. 快速上手】

python爬蟲（四）：scrapy 【1. 快速上手】

python爬蟲（四）：scrapy 【2. 其他重要部分】

python爬蟲（五）：實戰【1. 檢驗代理ip小程式】

python爬蟲（三）：BeautifulSoup 【6. 例項】

python爬蟲（五）：實戰【2. 爬創客實驗室（requests + bs4）】

python爬蟲（五）：實戰【5. 使用正則爬亞馬遜價格】

python爬蟲（五）：實戰【4. 爬亞馬遜】

python爬蟲（五）：實戰【3. 使用正則來爬創客實驗室】

Python爬蟲（二）：Scrapy框架的配置安裝

小白學 Python 爬蟲（36）：爬蟲框架 Scrapy 入門基礎（四） Downloader Middleware

scrapy爬蟲框架（四）：scrapy中 yield使用詳解

python爬蟲（四）---scrapy框架之騰訊招聘專案實戰

Python網路爬蟲（四）：視訊下載器

Python網路爬蟲（四）：selenium+chrome爬取美女圖片

[Python]網路爬蟲（四）：Opener與Handler

【網路爬蟲】【java】微博爬蟲（四）：資料處理——jsoup工具解析html、dom4j讀寫xml

Python高階爬蟲（四）：動態載入頁面的解決方案與爬蟲代理

小白學 Python 爬蟲（14）：urllib 基礎使用（四）

小白學 Python 爬蟲（33）：爬蟲框架 Scrapy 入門基礎（一）

小白學 Python 爬蟲（34）：爬蟲框架 Scrapy 入門基礎（二）

python爬蟲（四）：scrapy 【1. 快速上手】

相關推薦