1. 程式人生 > >Scrapy框架基礎使用

Scrapy框架基礎使用

extract 數據 參數 格式 文件 serve ems 有一個 settings

1、流程框架 技術分享圖片 技術分享圖片

2、在命令行中輸入scrapy,會有scrapy常見命令參數 技術分享圖片

技術分享圖片在命令中輸入scrapy startproject quote創建一個叫quote的項目 技術分享圖片

技術分享圖片 cd到創建好的項目目錄中,然後執行scrapy genspider quotes quotes.toscrape.com,創建spider,指定spider名稱--->quotes, 指定spider抓取的網址-->quotes.toscrape.com 技術分享圖片 技術分享圖片

技術分享圖片

技術分享圖片 這是一個scrapy框架默認目錄結構 scrapy.cfg --> 配置文件,指定settings配置文件路徑 quote/ ---> 該項目的python模塊,之後您將在此加入代碼。 quote/items.py --> 用來保存數據接口 quote/middlewares.py --> 存儲中間件 quote/pipelines.py --> 項目中的pipelines文件 quote/settings.py --> 定義一些配置信息 quote/spiders/ --> 放置spider代碼的目錄 3、在命令行中輸入scrapy crawl quotes,會輸出一些配置信息 技術分享圖片

技術分享圖片 scrapy還有一個命令行調試模式,直接在命令行執行scrapy shell quotes.toscrape.com 技術分享圖片

技術分享圖片 extract_first是輸入第一個匹配的,是字符串,extract是匹配有多個結果的,輸出列表類型 技術分享圖片

執行scrapy crawl quotes -o quotes.json可以保持到本地文件,還支持quotes.jl .csv ,還有支持向ftp傳輸數據 scrapy crawl -o ftp://user:[email protected]/path/quotes.csv 使用-o是可以指定保持需要的文件格式,這個保持方法scrapy都已經集成好了 4、抓取了一個網址先測試scrapy,具體代碼請參考GitHub https://github.com/watchxu/python/tree/master/ScrapyQuotes

Scrapy框架基礎使用