一、初窺scrapy

 

scrapy中文文件:

 

http://scrapy-chs.readthedocs.io/zh_CN/latest/

 

Scrapy是一個為了爬取網站資料,提取結構性資料而編寫的應用框架。 可以應用在包括資料探勘,資訊處理或儲存歷史資料等一系列的程式中。其最初是為了 頁面抓取 (更確切來說, 網路抓取 )所設計的, 也可以應用在獲取API所返回的資料(例如 Amazon Associates Web Services ) 或者通用的網路爬蟲。

 

scrapy是一個很好的爬蟲框架,集爬取、處理、儲存為一體,為無數爬蟲愛好者所熱捧,但個人認為對初學者並不友好,建議初學者打好基礎再來看scrapy。

 

二、昨夜西風凋碧樹,獨上高樓,望盡天涯路(安裝庫)

 

本以為自己安裝Python庫已經有一定的理解和方法了,結果還是栽在了安裝scrapy庫上,本人是win7系統+Python3.5的環境。先給大家丟個安裝Python庫的網站:

http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml

更多幹貨分享加python程式語言學習QQ群 515267276

1 lxml庫的安裝 通過網站下載安裝(具體安裝方法見後面視訊)
2 zope.interface庫安裝 pip3 install zope.interface
3 twisted庫安裝 通過網站下載安裝
4 pyOpenSSL庫安裝 pip3 install pyOpenSSL
5 pywin32庫安裝 通過網站下載安裝
6 pip3 install scrapy

你以為這樣就結束了,天真,我在執行程式的時候說沒有pywin32的DLL,當時我一臉懵逼,用黑視窗匯入pywin32結果報錯,還好在好友的幫助下解決了。

                                             錯誤圖


三、衣帶漸寬終不悔,為伊消得人憔悴(各種出錯)

 

建立scrapy專案:

scrapy startproject xiaozhu #今天還是爬取小豬短租資料

scrapy專案檔案結構:

xiaozhu/
    scrapy.cfg #配置檔案
    xiaozhu/
        __init__.py
        items.py #定義需要抓取並需要後期處理的資料
        pipelines.py #用於後期資料處理的功能
        settings.py #檔案配置scrapy
        spiders/
            __init__.py
            ...

更多幹貨分享加python程式語言學習QQ群 515267276

1 錯誤一

                                                                          出錯原因

解決方案程式碼見下

 

 

2 錯誤二

 

無法匯出為csv,看了向右奔跑的匯出csv程式碼,在我本地電腦無法匯出
然來去scrapy文件看了下,對settings.py進行了修改如下:

FEED_URI = 'file:C://Users/Administrator/Desktop/xiaozhu.csv'
FEED_FORMAT = 'csv' #csv小寫

 

四、縱裡尋他千百度,驀然回首,那人卻在燈火闌珊處(程式碼執行成功)

更多幹貨分享加python程式語言學習QQ群 515267276

1 items.py程式碼

from scrapy.item import Item,Field

class XiaozhuItem(Item):
    address = Field()
    price = Field()
    lease_type = Field()
    bed_amount = Field()
    suggestion = Field()
    comment_star = Field()
    comment_amount = Field()

2 新建xiaozhuspider.py

import scrapy
import sys
sys.path.append("..") #解決問題1
from scrapy.spiders import CrawlSpider
from scrapy.selector import Selector
from scrapy.http import Request
from xiaozhu.items import XiaozhuItem

class xiaozhu(CrawlSpider):
    name = 'xiaozhu'
    start_urls = ['http://bj.xiaozhu.com/search-duanzufang-p1-0/']

    def parse(self, response):
        item = XiaozhuItem()
        selector = Selector(response)
        commoditys = selector.xpath('//ul[@class="pic_list clearfix"]/li')

        for commodity in commoditys:
            address = commodity.xpath('div[2]/div/a/span/text()').extract()[0]
            price = commodity.xpath('div[2]/span[1]/i/text()').extract()[0]
            lease_type = commodity.xpath('div[2]/div/em/text()').extract()[0].split('/')[0].strip()
            bed_amount = commodity.xpath('div[2]/div/em/text()').extract()[0].split('/')[1].strip()
            suggestion = commodity.xpath('div[2]/div/em/text()').extract()[0].split('/')[2].strip()
            infos = commodity.xpath('div[2]/div/em/span/text()').extract()[0].strip()
            comment_star = infos.split('/')[0] if '/' in infos else '無'
            comment_amount = infos.split('/')[1] if '/' in infos else infos

            item['address'] = address
            item['price'] = price
            item['lease_type'] = lease_type
            item['bed_amount'] = bed_amount
            item['suggestion'] = suggestion
            item['comment_star'] = comment_star
            item['comment_amount'] = comment_amount

            yield item

        urls = ['http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(str(i)) for i in range(1, 14)]
        for url in urls:
            yield Request(url, callback=self.parse)

 

3 新建main.py(執行main.py就可以執行爬蟲了)

from scrapy import cmdline
cmdline.execute("scrapy crawl xiaozhu".split())

 

.