1. 程式人生 > >python之旅-日記4(記錄零基礎自己的每天學習)

python之旅-日記4(記錄零基礎自己的每天學習)

番外篇 (爬蟲scrapy框架) 2018/9/19

scrapy
1.>scrapy startproject aaa 建立一個爬蟲專案
2.>items.py 修改容器
3.>pipelines.py 修改管道
4.>settings.py 設定 開啟pipelines 禁止cookies
下載延遲 下載中介軟體(ip池 標頭檔案)
robots.txt檔案限制
5.>genspider命令建立spider爬蟲檔案 aaa.py
XMLFeed(iterator選擇那個迭代器,itertag開始迭代的節點設定)
CSVFeed(header提取欄位的行資訊的列表,delimiter主要存放欄位之間的間隔符)
crawl (rules設定自動爬行規則,LinkExtractor連結提取器)
basic
6>除錯與執行 scrapy crawl
7.>寫入資料庫

多執行緒爬蟲