1. 程式人生 > >python之路 -- 爬蟲 -- Scrapy入門

python之路 -- 爬蟲 -- Scrapy入門

.py python模塊 spi 以及 技術 16px 安裝 爬蟲 應用

Scrapy

  Scrapy 是一個為了爬取網站數據,提取結構性數據而編寫的應用框架。 其可以應用在數據挖掘,信息處理或存儲歷史數據等一系列的程序中。
其最初是為了頁面抓取 (更確切來說, 網絡抓取 )所設計的, 也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。Scrapy用途廣泛,可以用於數據挖掘、監測和自動化測試。

下面是Scrapy的架構,包括組件以及在系統中發生的數據流的概覽(綠色箭頭所示)。

技術分享圖片

技術分享圖片

技術分享圖片

數據流

Scrapy中的數據流由執行引擎控制,其過程如下:

技術分享圖片


Scarpy的安裝

 1 安裝:
2 Linux/mac 3 - pip3 install scrapy 4 Windows: 5 - 安裝twsited 6 a. pip3 install wheel 7 b. 下載twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 8 c. 進入下載目錄,執行 pip3 install Twisted-xxxxx.whl 9 - 安裝scrapy 10 d. pip3 install scrapy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
11 - 安裝pywin32 12 e. pip3 install pywin32 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

Scarpy的基本使用

創建項目:

scrapy startproject tutorial
#該命令將會創建一個新的Scarpy項目

得到

tutorial/
    scrapy.cfg            # 項目的配置文件
    tutorial/             # 該項目的python模塊。之後您將在此加入代碼
        __init__
.py items.py # 項目中的item文件 pipelines.py # 項目中的pipelines文件 settings.py # 項目的設置文件 spiders/ # 放置spider代碼的目錄 __init__.py

python之路 -- 爬蟲 -- Scrapy入門