1. 程式人生 > >Scrapy 專案步驟

Scrapy 專案步驟

1.建立專案:scrapy starproject 專案名
2.編寫 items.py檔案:設定需要儲存的資料欄位,明確想要抓取的目標,用來儲存爬到的資料。
3.建立爬蟲:scrapy genspider 爬蟲名 “爬取的網址”
4.進入專案專案名/spiders
3個預設建立的:
name = " ":編寫爬蟲檔案,檔案裡的 name 就是爬蟲名(區別與專案名,唯一)
allowed_domains = []:允許的域組,規定爬蟲這個域名下的網頁,不存在的URL會被忽略。
start_urls = []:起始 url 地址,爬蟲的開始
之後寫方法處理響應內容:(xpath可以匹配出想要的資料,生成item,通過yield傳到管道檔案),在

setting.py 中設定管道檔案的類名
5.儲存內容:在pipelines.py中寫管道類(必寫item)

6.執行:
scrapy crawl itcast
scrapy crawl itcast - o json/csv/xml

Windows安裝:pip install Scrapy