1. 程式人生 > >Scrapy 創建項目 (未完)

Scrapy 創建項目 (未完)

虛擬 ddl head nes 我們 去重 proxy 等等 res

1. 安裝python3

2. python虛擬環境搭建

https://www.jianshu.com/p/ad2d8ee4a679

3.Python3.6 下 Scrapy 安裝

http://blog.csdn.net/yctjin/article/details/70658811

4.Scrapy創建項目

workon py3env

cd g:/pyproject

scrapy startproject jd
在PyCharm中打開項目

技術分享圖片

5.Scrapy項目結構說明

scrapy.cfg
項目的配置文件,帶有這個文件的那個目錄作為scrapy項目的根目錄
items.py
定義你所要抓取的字段
pipelines.py
管道文件,當spider抓取到內容(item)以後,會被送到這裏,這些信息(item)在這裏會被清洗,去重,保存到文件或者數據庫。
middlewares.py
中間件,主要是對功能的拓展,你可以添加一些自定義的功能,比如添加隨機user-agent, 添加proxy。
settings.py
設置文件,用來設置爬蟲的默認信息,相關功能開啟與否,比如是否遵循robots協議,設置默認的headers,設置文件的路徑,中間件的執行順序等等。
spiders/
在這個文件夾下面,編寫你自定義的spider。

6.編寫爬蟲

在項目中的spiders文件夾下面創建一個文件,命名為baidu.py我們將在這個文件裏面編寫我們的爬蟲。

Scrapy 創建項目 (未完)