1. 程式人生 > >用 scrapy 爬取 xml 源

用 scrapy 爬取 xml 源

1.建立專案資料夾:scrapy startproject myxml

2.編輯 items 檔案,定義要儲存的結構化資料

3.建立一個爬蟲檔案用於分析 XML 源:

1)scrapy genspider -l 先查詢可使用爬蟲模板檔案

2)scrapy genspider -t xmlfeed myxmlspider sina.com.cn 使用模板 xmlfeed 建立一個名為 myxmlspide 的爬蟲檔案,允許的  域名設定為  sina.com.cn

3)生成的檔案在 spiders 目錄下

  • iterator 屬性設定使用哪個迭代器
  • itertag 屬性設定開始迭代的節點

4.執行:切換到專案資料夾:scrapy crawl myxmlspide --nolog    --nolog 為不顯示日誌檔案