Python爬蟲Scrapy入門看這篇就夠了
一、初窺scrapy
scrapy中文文件:
http://scrapy-chs.readthedocs.io/zh_CN/latest/
Scrapy是一個為了爬取網站資料,提取結構性資料而編寫的應用框架。 可以應用在包括資料探勘,資訊處理或儲存歷史資料等一系列的程式中。其最初是為了 頁面抓取 (更確切來說, 網路抓取 )所設計的, 也可以應用在獲取API所返回的資料(例如 Amazon Associates Web Services ) 或者通用的網路爬蟲。
scrapy是一個很好的爬蟲框架,集爬取、處理、儲存為一體,為無數爬蟲愛好者所熱捧,但個人認為對初學者並不友好,建議初學者打好基礎再來看scrapy。
二、昨夜西風凋碧樹,獨上高樓,望盡天涯路(安裝庫)
本以為自己安裝Python庫已經有一定的理解和方法了,結果還是栽在了安裝scrapy庫上,本人是win7系統+Python3.5的環境。先給大家丟個安裝Python庫的網站:
http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
更多幹貨分享加python程式語言學習QQ群 515267276
1 lxml庫的安裝 通過網站下載安裝(具體安裝方法見後面視訊)
2 zope.interface庫安裝 pip3 install zope.interface
3 twisted庫安裝 通過網站下載安裝
4 pyOpenSSL庫安裝 pip3 install pyOpenSSL
5 pywin32庫安裝 通過網站下載安裝
6 pip3 install scrapy
你以為這樣就結束了,天真,我在執行程式的時候說沒有pywin32的DLL,當時我一臉懵逼,用黑視窗匯入pywin32結果報錯,還好在好友的幫助下解決了。
錯誤圖
三、衣帶漸寬終不悔,為伊消得人憔悴(各種出錯)
建立scrapy專案:
scrapy startproject xiaozhu #今天還是爬取小豬短租資料
scrapy專案檔案結構:
xiaozhu/
scrapy.cfg #配置檔案
xiaozhu/
__init__.py
items.py #定義需要抓取並需要後期處理的資料
pipelines.py #用於後期資料處理的功能
settings.py #檔案配置scrapy
spiders/
__init__.py
...
更多幹貨分享加python程式語言學習QQ群 515267276
1 錯誤一
出錯原因
解決方案程式碼見下
2 錯誤二
無法匯出為csv,看了向右奔跑的匯出csv程式碼,在我本地電腦無法匯出
然來去scrapy文件看了下,對settings.py進行了修改如下:
FEED_URI = 'file:C://Users/Administrator/Desktop/xiaozhu.csv'
FEED_FORMAT = 'csv' #csv小寫
四、縱裡尋他千百度,驀然回首,那人卻在燈火闌珊處(程式碼執行成功)
更多幹貨分享加python程式語言學習QQ群 515267276
1 items.py程式碼
from scrapy.item import Item,Field
class XiaozhuItem(Item):
address = Field()
price = Field()
lease_type = Field()
bed_amount = Field()
suggestion = Field()
comment_star = Field()
comment_amount = Field()
2 新建xiaozhuspider.py
import scrapy
import sys
sys.path.append("..") #解決問題1
from scrapy.spiders import CrawlSpider
from scrapy.selector import Selector
from scrapy.http import Request
from xiaozhu.items import XiaozhuItem
class xiaozhu(CrawlSpider):
name = 'xiaozhu'
start_urls = ['http://bj.xiaozhu.com/search-duanzufang-p1-0/']
def parse(self, response):
item = XiaozhuItem()
selector = Selector(response)
commoditys = selector.xpath('//ul[@class="pic_list clearfix"]/li')
for commodity in commoditys:
address = commodity.xpath('div[2]/div/a/span/text()').extract()[0]
price = commodity.xpath('div[2]/span[1]/i/text()').extract()[0]
lease_type = commodity.xpath('div[2]/div/em/text()').extract()[0].split('/')[0].strip()
bed_amount = commodity.xpath('div[2]/div/em/text()').extract()[0].split('/')[1].strip()
suggestion = commodity.xpath('div[2]/div/em/text()').extract()[0].split('/')[2].strip()
infos = commodity.xpath('div[2]/div/em/span/text()').extract()[0].strip()
comment_star = infos.split('/')[0] if '/' in infos else '無'
comment_amount = infos.split('/')[1] if '/' in infos else infos
item['address'] = address
item['price'] = price
item['lease_type'] = lease_type
item['bed_amount'] = bed_amount
item['suggestion'] = suggestion
item['comment_star'] = comment_star
item['comment_amount'] = comment_amount
yield item
urls = ['http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(str(i)) for i in range(1, 14)]
for url in urls:
yield Request(url, callback=self.parse)
3 新建main.py(執行main.py就可以執行爬蟲了)
from scrapy import cmdline
cmdline.execute("scrapy crawl xiaozhu".split())