1. 程式人生 > >利用scrapy爬取需要登入的網站的資料(包含驗證碼的處理)

利用scrapy爬取需要登入的網站的資料(包含驗證碼的處理)

利用scrapy爬取需要登入的網站的資料(包含驗證碼的處理)–以爬取豆瓣網資料為例

1、在cmd命令列中輸入 scrapy startproject douban,建立scrapy爬蟲專案 
2、在cmd命令列中調整到douban專案資料夾下輸入 scrapy genspider -t basic db douban.com(最後一個是網站域名)建立名為db的爬蟲(如果是建立自動爬蟲要輸入-t crawl ) 
3、在items.py中建立屬性title和note,這是我們接下來要爬取的網站的資料,即標題和日誌如圖所示 
4、在db.py中進行爬蟲方法的部署,程式碼和註釋如下圖: 
這裡寫圖片描述


這裡寫圖片描述 
這裡寫圖片描述
5、在命令列中輸入:scrapy crawl db即可爬取資料了 
這是我的第一個部落格,希望有相似興趣的可以多和我交流一起學習啊! 
Markdown和擴充套件Markdown簡潔的語法 
程式碼塊高亮 
圖片連結和圖片上傳 
LaTex數學公式 
UML序列圖和流程圖 
離線寫部落格 
匯入匯出Markdown檔案 
豐富的快捷鍵