Scrapy 爬蟲 --四個步驟--

阿新 • • 發佈：2018-12-04

課程設計要用到爬蟲，稍微回顧下，Scrapy的爬蟲四步走....只是簡單的Scrapy，什麼分散式爬蟲啥的，感覺以後再說了....不談了...

1、建立專案

cmd >> scrapy startproject douban## scrapy startproject project_name

cmd >> cd douban/douban/spiders

cmd >> scrapy genspider douban_spider movie.douban.com## scrapy genspider spider_text_name start_url

Scrapy包含上圖幾個部件：

1、Scrapy Engine

引擎負責控制資料流在系統中所有元件中流動，並在相應動作發生時觸發事件。

2、Scheduler

排程器從引擎接受request並將他們入隊，以便之後引擎請求他們時提供給引擎；簡單的說就是排程佇列，same as 作業系統中的排程佇列.......

3、Downloader

下載器負責獲取頁面資料並提供給引擎，而後提供給spider。

4、Spiders

Spider是Scrapy使用者編寫用於分析response並提取item(即獲取到的item)或額外跟進的URL的類。每個spider負責處理一個特定(或一些)網站。

5、Item Pipeline

Item Pipeline負責處理被spider提取出來的item。典型的處理有清理、驗證及持久化(例如存取到資料庫中)。

6、Downloader middlewares

下載器中介軟體是在引擎及下載器之間的specific hook，處理Downloader傳遞給引擎的response。其提供了一個簡便的機制，通過插入自定義程式碼來擴充套件Scrapy功能。

7、Spider middlewares

Spider中介軟體是在引擎及Spider之間的specific hook，處理spider的輸入(response)和輸出(items及requests)。其提供了一個簡便的機制，通過插入自定義程式碼來擴充套件Scrapy功能。

scrapy.cfg: 專案的配置檔案；

project_modul/: 該專案的python模組。之後您將在此加入程式碼；

project_modul/items.py: 專案中的item檔案；

project_modul/pipelines.py: 專案中的pipelines檔案；

project_modul/settings.py: 專案的設定檔案；

project_modul/spiders/: 放置spider程式碼的目錄；

2、明確目標

即瞭解你要哪些資料 ——>>> item.py

class DoubanItem(scrapy.Item):
#序號
serial_number = scrapy.Field()
#電影名稱
movie_name = scrapy.Field()
#介紹
introduce = scrapy.Field()
#星級
star = scrapy.Field()
#描述
describe = scrapy.Field()

熟悉Django的朋友一定會注意到Scrapy Item定義方式與Django Models很類似, 不過沒有那麼多不同的欄位型別(Field type)，更為簡單。

3、爬蟲檔案的編寫 ——>>> spiders [folders]

Spider類定義瞭如何爬取某個(或某些)網站。包括了爬取的動作以及如何從網頁的內容中提取結構化資料(爬取item)。換句話說，Spider就是您定義爬取的動作及分析某個網頁(或者是有些網頁)的地方。

能夠獲取兩類資料，一種就是純資料，比如Title啥的，另外一種資料就是可遞迴的資料，即資料多的時候有好幾頁資料，裡面的第二頁，第幾頁就是可遞迴的連結資料

以初始的URL初始化Request，並設定回撥函式。當該request下載完畢並返回時，將生成response，並作為引數傳給該回調函式。

spider中初始的request是通過呼叫 start_requests() 來獲取的。 start_requests() 讀取 start_url中的URL，並以 Parse 為回撥函式生成Request 。

在回撥函式內分析返回的(網頁)內容，返回 Item 物件或者Request或者一個包括二者的可迭代容器。返回的Request物件之後會經過Scrapy處理，下載相應的內容，並呼叫設定的callback函式(函式可相同)。

在回撥函式內，您可以使用選擇器(Selectors) (您也可以使用BeautifulSoup, lxml 或者您想用的任何解析器) 來分析網頁內容，並根據分析的資料生成item。

最後，由spider返回的item將被存到資料庫(由某些Item Pipeline處理)或使用Feed exports存入到檔案中。

class DoubanSpiderSpider(scrapy.Spider):
#爬蟲名 #與專案名不同
name = 'douban_spider'
#域名 #不在這個域名下不解析
allowed_domains = ['movie.douban.com']
#入口url，並將入口URL 扔進排程器【Schedule】中
start_urls = ['https://movie.douban.com/top250']
#扔進排程器【Schedule】之後，Schedule 告訴爬蟲引擎自己準備好了，然後爬蟲引擎讓Downloader去下載數據，獲取頁面
#然後將獲取的頁面返回值Spider檔案中，讓Spider進行解析，那如何解析檔案就是下面的parse方法，這個 response就是Downloader的返回值，可以詳細見上面的那張圖
def parse(self, response):
print(response.text)

cmd >> scrapy crawl spider_name

可能遇見錯誤一：編碼問題

import sys,io
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

可能遇見錯誤二：不給解析

USER_AGENT = 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Mobile Safari/537.36' #網站上自己看USER_AGENT

爬取第一類資料：純資料

class DoubanSpiderSpider(scrapy.Spider):
#爬蟲名 #與專案名不同
name = 'douban_spider'
#域名 #不在這個域名下不解析
allowed_domains = ['movie.douban.com']
#入口url，並將入口URL 扔進排程器【Schedule】中
start_urls = ['https://movie.douban.com/top250']
#扔進排程器【Schedule】之後，Schedule 告訴爬蟲引擎自己準備好了，然後爬蟲引擎讓Downloader去下載資料，獲取頁面
#然後將獲取的頁面返回值Spider檔案中，讓Spider進行解析，那如何解析檔案就是下面的parse方法，這個response 就是Downloader
#的返回值，可以詳細見上面的那張圖
def parse(self, response):
movie_list=response.xpath("//div[@class='article']//ol[@class='grid_view']//li")
for i in movie_list:
Douban_item=DoubanItem() ##匯入item包，你要存到item中
Douban_item['serial_number']=i.xpath(".//div[@class='item']//em/text()").extract_first() #獲取第一個資料
#如果有多個數據，你想把資料拼接起來
#content=i.xpath(...).extract()
#for ii in content:
# c_s="".join(ii.split())
# =
print(Douban_item)
#將資料返回至pipe中，請仔細看scrapy的流程圖就知道了，不加yield不行
yield Douban_item

爬取第二類資料：下頁資料

next_link = response.xpath("//span[@class='next']/link/@href").extract()
if next_link:
next_link=next_link[0]
yield scrapy.Request("https://movie.douban.com/top250"+next_link,callback=self.parse)

4、儲存內容

將爬取的資料匯出json檔案,csv檔案

cmd >> scrapy crawl spider_name -o _name.json

cmd >> scrapy crawl spider_name -o _name.csv

儲存檔案至資料庫

---settings.py--- # 先寫資料庫配置檔案

MYSQL_HOST = 'localhost'

MYSQL_DBNAME = 'scrapy'

MYSQL_USER = 'root'

MYSQL_PASSWD = ''

MYSQL_PORT = 3306

---pipelines.py--- # 傳入資料

import pymysql ##匯入python中的mysql包，pymysql

from project.settings import MYSQL_HOST,MYSQL_DBNAME,MYSQL_USER,MYSQL_PASSWD,MYSQL_PORT

class DoubanPipeline(object):

def process_item(self, item, spider):
# open db
self.connect = pymysql.connect(
host=MYSQL_HOST,port=MYSQL_PORT,user=MYSQL_USER,db=MYSQL_DBNAME,
passwd=MYSQL_PASSWD,charset='utf8',use_unicode=True)
self.cursor = self.connect.cursor()
# insert db
num = item['serial_number']
sql = 'insert into test(num) values("%s")' % (num)
self.cursor.execute(sql)
self.connect.commit()
# close db
self.cursor.close()
self.connect.close()
return item

---settings.py--- #開啟管道 ITEM_PIPELINES ，取消下面這個註釋

ITEM_PIPELINES = {
'douban.pipelines.DoubanPipeline': 300,
}

Scrapy 爬蟲 --四個步驟--

課程設計要用到爬蟲，稍微回顧下，Scrapy的爬蟲四步走....只是簡單的Scrapy，什麼分散式爬蟲啥的，感覺以後再說了....不談了... 1、建立專案 cmd >> scrapy startproject douban##

GCC編譯C源代碼的四個步驟

二進制文件存在鏈接四個步驟 pre 參數 -o 包含利用 GCC編譯C源代碼有四個步驟：預處理---->編譯---->匯編---->鏈接。可以利用GCC的參數來控制執行的過程，這樣就可以更深入的了解編譯C程序的過程。下面將通過對一個程序的編譯來

經理人解決問題四個步驟

該篇文章是講解如何按照步驟解決職場中碰到的問題的。首先是發現異常（問題說白了就是期望和現實之間存在的差異），然後選出關鍵異常（我的理解就是找到關鍵問題所在），這樣就完成了界定問題的工作。第二部就是進行要因分析了，第三部分是進行確認方案，最後就是進行落地執行。三確認方案

從無到有：學習程式開發的四個步驟

從無到有：學習程式開發的四個步驟常會有人覺得，這些網際網路程式設計師是不是腦袋的構造跟別人有什麼不同？其實在程式設計師客棧做專案經理這麼長時間接觸各式各樣的程式設計師過程中，常有機會見證一個個程式設計師從無到有學會程式設計的過程。不可否認，的確有不少程式設計師是“生而知之者”，彷彿上

ajax請求的四個步驟

1.什麼是ajax：非同步javascript和XML。同步是指：傳送方發出資料後，等接收方發回響應以後才發下一個數據包的通訊方式。非同步是指：傳送方發出資料後，不等接收方發回響應，接著傳送下個數據包的通訊方式。無重新整理讀取資料。無需載入整個頁面的情況下，重新整

重溫JS預編譯的四個步驟

JS是解釋型語言，執行過程分三步：一、語法分析（檢查程式碼是否存在語法錯誤）；二、預編譯（程式碼執行之前，在記憶體中開闢空間，存放變數與函式）；三、解釋執行（執行JS程式碼）；理解預編譯的過程，對於理解作用域鏈、閉包、this指向、原型鏈至關重要，它們是相輔相成的。

scrapy爬蟲的編寫步驟

pipeline 就是爬蟲框架下一個網頁落地框架 name path scrapy的步驟： a.編寫item，爬取的各個屬性 b.編寫spider，name 要和 scrapy crawl xxspider一致，裏面編寫parse的信息，就是xpath獲取i

C++原始碼生成可執行檔案的四個步驟

以GCC編譯器為例：第一步，預處理，包括語法檢查等工作。 $ gcc -P abc.c 會生成abc.i檔案。第二步，編譯，由源程式生成組合語言程式碼。 $ gcc -S abc.c 會生成abc.s檔案，這個檔案就是彙編程式碼。第三步，彙編，編譯器生成目的碼，一個源

JDBC的四個步驟和程式碼實現

JDBC是從JAVA中連線MySQL資料庫的驅動，我們可以使用程式語言來實現它，其實它的實現是固定的，只用按照這個思路和步驟就可以了。實現分為下面四個步驟：1.註冊驅動2.獲得連線物件3.獲取statement物件4.釋放資源在我們程式設計時如果需要操作資料庫只需要按

關於gcc編譯流程四個步驟的具體分析，預處理、編譯、彙編、連結

1.gcc編譯需要下面四個步驟，分別是第一行，可執行檔案（-o 是指可目標檔案） c語言原始檔經過預處理的c原始檔程式碼編譯後的目標檔案

四個步驟教你寫好一款產品的運營資料分析報告（轉）

收藏~ 遊戲運營期間，我們可以在後臺看到一堆遊戲相關資料，對於這些資料我們要怎麼怎麼進行處理分析呢？下面將圍繞一份報告例項做詳細的分析。內容主要包括分析目標、分析綜述、一週運營資料分析、運營資料總體分析四塊內容一、確定分析目標分析目標主要包括以下三個方面： ●

設定為預設簡訊應用四個步驟

<intent-filter> <action android:name="android.intent.acti

JDBC(連接數據庫的四個主要步驟)

ring 數據庫 del ktr java虛擬機獲取數據管理系統編號行動 JDBC連接數據庫 ?創建一個以JDBC連接數據庫的程序，包含7個步驟： 1、加載JDBC驅動程序：在連接數據庫之前，首先要加載想要連接的數據庫的驅動到JVM（Java虛擬機），這通過j

怎樣學好UI設計？學習UI設計的四個必備步驟

素材 href 編程 hot 要花分析 ... 代碼 type ? 學習ui設計的小技巧之一：學軟件 ui設計要學的東西比較廣泛，要想做好出好的ui設計就得先熟練掌握ui設計的基礎軟件，軟件方面有：PS、AI、ID、Firework、Dreamweaver、HTML5、d

scrapy爬蟲框架（四）：scrapy中 yield使用詳解

開始前的準備工作： MySQL下載：點我 python MySQL驅動下載：pymysql（pyMySql，直接用pip方式安裝）全部安裝好之後，我們來熟悉一下pymysql模組 import pymysql #建立連結物件 connection = pymysql

mysql-cluster叢集原理介紹和搭建步驟(四個data/sql節點)

MySQL簇概述 MySQL簇是一種技術，該技術允許在無共享的系統中部署“記憶體中”資料庫的簇。通過無共享體系結構，系統能夠使用廉價的硬體，而且對軟硬體無特殊要求。此外，由於每個元件有自己的記憶體和磁碟，不存在單點故障。 MySQL簇將標準的MySQL伺服器與名為NDB的“

利用scrapyd管理scrapy的多個爬蟲

說明：環境準備基於 Ubuntu16.04 一、安裝 sudo pip install scrapyd sudo pip install scrapyd-client

用Swing寫個scrapy爬蟲圖形介面 Ⅱ

因為eclipse上沒有matisse form，所以不好再次修改我上次寫的圖形介面，所以呢，下了個Myeclipse，使用matisse form重新寫了下此爬蟲的GUI。主要程式碼： /* * scs.java * * Created on

scrapy爬蟲的幾個案例

lz最近在學習scrapy爬蟲框架，對於此框架，我自己用兩個案例進行了實踐，初步對這個框架掌握，就寫一篇部落格來記錄下我的學習過程。一、我的環境 mac+python2.7.6+scrapy1.4.0版本。對於scrapy在mac中的安裝過程就不做介紹了。二、爬取清華大

基於scrapy_redis部署scrapy分散式爬蟲（詳細步驟）

使用命令列工具下載工具包 scrapy_redis，在命令列敲下面程式碼並回車，出現Success類字元表示下載成功使用pycharm 開啟專案，找到settings檔案，配置scrapy專案使用的排程器及過濾器！這裡資料儲存到redis中可以

Scrapy 爬蟲 --四個步驟--

相關推薦