在Python3.5下安裝和測試Scrapy爬網站

阿新 • • 發佈：2019-01-20

這裡寫圖片描述

1. 引言

Scrapy框架結構清晰，基於twisted的非同步架構可以充分利用計算機資源，是爬蟲做大的必備基礎。本文將講解如何快速安裝此框架並使用起來。

2. 安裝Twisted

2.1 同安裝Lxml庫

這裡寫圖片描述

2.2 安裝twisted

開啟命令提示符視窗，輸入命令：

pip install E:\demo\Twisted-16.4.1-cp35-cp35m-win_amd64.whl(下載好的twisted模組的whl檔案路徑)

這裡寫圖片描述

3. 安裝scrapy

twisted庫安裝成功後，安裝scrapy就簡單了，在命令提示符視窗直接輸入命令： pip install scrapy 回車

這裡寫圖片描述

安裝關聯模組pypiwin32，在命令提示符視窗直接輸入命令： pip install pypiwin32 回車

這裡寫圖片描述

4. Scrapy測試，敲一個基於Scrapy框架的爬蟲程式

新建一個Scrapy爬蟲專案fourth（因為這是繼Python3.5安裝的第四篇教程，有興趣的話請從頭看起）：在任意目錄按住shift+右鍵->選擇在此處開啟命令提示符視窗（這裡預設為E:\demo），然後輸入命令：

E:\demo>scrapy startproject fourth

這裡寫圖片描述

該命令將會建立包含下列內容的fourth目錄:

    fourth/
        scrapy.cfg
        fourth/
            __init__.py
            items.py
            pipelines.py
            settings.py
            spiders/
                __init__.py
                ...

修改專案配置檔案settings.py，有些網站會在根目錄下放置一個名字為robots.txt的檔案，裡面聲明瞭此網站希望爬蟲遵守的規範，Scrapy預設遵守這個檔案制定的規範，即ROBOTSTXT_OBEY預設值為True。在這裡需要修改ROBOTSTXT_OBEY的值，找到專案目錄（這裡為：E:\demo\fourth\fourth）下檔案settings.py，更改ROBOTSTXT_OBEY的值為False

建立爬蟲模組，進入專案目錄E:\demo\fourth下，在此處開啟命提示符視窗輸入命令：

E:\demo\fourth>scrapy genspider anjuke 'anjuke.com'

這裡寫圖片描述

該命令將會在專案目錄E:\demo\fourth\fourth\spiders下建立模組檔案anjuke.py，以記事本開啟然後新增程式碼，主要程式碼：

    # -*- coding: utf-8 -*-
    # Scrapy spider 模組
    # 採集安居客房源資訊
    # 採集結果儲存在anjuke-result.xml中
    import os
    import time
    import scrapy
    from gooseeker import GsExtractor

    class AnjukeSpider(scrapy.Spider):
        name = "anjuke"
        allowed_domains = ["'anjuke.com'"]
        start_urls = (
        'http://bj.zu.anjuke.com/fangyuan/p1',
        )

        def parse(self, response):
            print("----------------------------------------------------------------------------")
            # 引用提取器
            bbsExtra = GsExtractor()
            # 設定xslt抓取規則
            bbsExtra.setXsltFromAPI("31d24931e043e2d5364d03b8ff9cc77e", "安居客_房源")
            # 呼叫extract方法提取所需內容
            result = bbsExtra.extractHTML(response.body)

            # 列印採集結果
            print(str(result).encode('gbk','ignore').decode('gbk'))
            # 儲存採集結果
            file_path = os.getcwd() + "/anjuke-result.xml"
            open(file_path,"wb").write(result)
            # 列印結果存放路徑
            print("採集結果檔案：" + file_path)

啟動爬蟲，進入專案目錄E:\demo\fourth下，在此處開啟命提示符視窗輸入命令：

E:\demo\fourth>scrapy crawl anjuke

這裡寫圖片描述

注：網站若發現抓取時報重定向錯誤了，嘗試修改user-agent後，再啟動爬蟲爬取資料。操作步驟如下：
1、在爬蟲專案目錄（這裡為E:\demo\fourth\fourth）下建立模組檔案middlewares.py，以記事本開啟後，新增如下程式碼：

#-*-coding:utf-8-*-
# 隨機更換user agent
import random
from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware

class RotateUserAgentMiddleware(UserAgentMiddleware):
    def __init__(self, user_agent=''):
        self.user_agent = user_agent

    def process_request(self, request, spider):
        ua = random.choice(self.user_agent_list)
        if ua:
            request.headers.setdefault('User-Agent', ua)

    user_agent_list = [\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"\
        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",\
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",\
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",\
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",\
        "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",\
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",\
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]

2、修改專案配置檔案settings.py，加上如下程式碼：

DOWNLOADER_MIDDLEWARES = {  
            'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':None,  
            'fourth.middlewares.RotateUserAgentMiddleware':400,  
}

檢視儲存結果檔案,進入Scrapy爬蟲專案目錄，這裡為E:\demo\fourth，找到名稱為anjuke-result.xml的資料夾然後開啟

這裡寫圖片描述

5. 總結

安裝pypiwin32時碰到了一次超時斷開，再次輸入命令重新安裝才成功，若重複安裝都失敗可以嘗試連線vpn再安裝。下一篇《Python爬蟲實戰:單頁採集》將講解如何爬取微博資料(單頁)，同時整合Python爬蟲程式以Gooseeker規則提取器為介面製作一個通用的採集器，歡迎有興趣的小夥伴一起交流進步。

6. 集搜客GooSeeker開原始碼下載源

7.修改記錄

2017.03.02 補充報重定向錯誤解決方案

在Python3.5下安裝和測試Scrapy爬網站

1. 引言

2. 安裝Twisted

2.1 同安裝Lxml庫

2.2 安裝twisted

3. 安裝scrapy

4. Scrapy測試，敲一個基於Scrapy框架的爬蟲程式

5. 總結

6. 集搜客GooSeeker開原始碼下載源

7.修改記錄

在Python3.5下安裝和測試Scrapy爬網站

Python3.5下安裝&測試Scrapy

windows下安裝和使用scrapy

python3爬蟲之安裝和使用scrapy

關於在Python3.5下安裝MySQL-python模組的問題

windows10+python3.5下同時安裝caffe和tensorflow

在Python3.5下成功安裝Scrapy框架

centos6.5下安裝python3安裝、python3虛擬環境創建venv

python3.5+win7 安裝 numpy 和scipy的總結

如何解決python3.5.2安裝scrapy的無法查找到vsvarall的問題

CentOS7.5下安裝tensorflow和運行tf-faster-rcnn

Anaconda環境下的TensorFlow安裝和測試

【python3爬蟲】Scrapy Win10下安裝與新建Scrapy專案

解決已安裝python2.7 來安裝python3.5的共存和安裝問題及Anoconda安裝及搭建：cpu的TensorFlow，Keras

解決已安裝python2.7 來安裝python3.5的共存和安裝問題及Anoconda安裝及搭建：TensorFlow、Keras

TensorFlow：Anaconda環境下的TensorFlow安裝和測試

python3.5.2安裝selenium3.4.1及firefox和chrome瀏覽器設定

Win7 64位環境下python3.5.4安裝步驟

CentOS6.5 下安裝Python3.6

Lua——windows下安裝和使用LuaJIT測試以及圖例

在Python3.5下安裝和測試Scrapy爬網站

1. 引言

2. 安裝Twisted

2.1 同安裝Lxml庫

2.2 安裝twisted

3. 安裝scrapy

4. Scrapy測試，敲一個基於Scrapy框架的爬蟲程式

5. 總結

6. 集搜客GooSeeker開原始碼下載源

7.修改記錄

相關推薦