Scrapy學習(二)、安裝及專案結構
一、安裝
1、安裝pywin32,下載地址:https://sourceforge.net/projects/pywin32/files/pywin32/
我選擇的是Build 221,點進去,根據自己電腦的python版本下載對應的版本
下載下來後,直接執行exe檔案,無腦下一步,直至安裝完成
2、安裝Twisted,下載地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/
找到Twisted,下載對應版本
下載完成後直接pip安裝
3、安裝scrapy,直接pip install scrapy。不報錯就安裝成功了
二、專案結構
1、建立專案
進入到工作目錄,比如D:\Git\Spider,直接執行命令:scrapy startproject city_58
這樣就成功建立了一個專案,進入到專案目錄下,包含下列內容:
city_58
|scrapy.cfg
|--city_58
| items.py
| middlewares.py
| pipelines.py
| settings.py
| __init__.py
|--spiders
| __init__.py
city_58目錄下的檔案分別是:
scrapy.cfg:專案部署時的配置檔案
city_58/:專案模組,可以在這個目錄下加入程式碼
city_58/items.py:Items的定義,定義爬取的資料結構
city_58/pipelines.py:定義資料管道
city_58/middlewares.py:定義爬取時的中介軟體
city_58/settings.py:配置檔案
city_58/spiders/:放置Spiders的資料夾
2、建立Spider
進入專案模組資料夾,這裡是city_58,執行命令: scrapy genspider spider_city_58 58.com,其中spider_city_58 為爬蟲名稱,用於區別Spider,該名字必須是唯一的;58.com為啟動時進行爬取的入口URL