Scrapy框架學習

阿新 • • 發佈：2019-01-26

概述

主要是為了練習使用CrawlSpider類的rules變數中定義多個Rule的用法，體會Scrapy框架的強大、靈活性。

因此，對抓取到的內容只是儲存到JSON檔案中，沒有進行進一步的處理。

原始碼

items.py

class CnblogNewsItem(scrapy.Item):
    # 新聞標題
    title=scrapy.Field()
    # 投遞人
    postor=scrapy.Field()
    # 釋出時間
    pubtime=scrapy.Field()
    # 新聞內容
    content=scrapy.Field()

spiders/cnblognews_spider.py

# !/usr/bin/env python
# -*- coding:utf-8 -*-

from scrapy.spider import CrawlSpider,Rule
from scrapy.linkextractors import LinkExtractor

from myscrapy.items import CnblogNewsItem


class CnblogNewsSpider(CrawlSpider):
    """
    部落格園新聞爬蟲Spider
        爬取新聞列表連結資料
        爬取每一條新聞的詳情頁資料
    """

    name = 'cnblognews'
    allowed_domains=['news.cnblogs.com']
    start_urls=['https://news.cnblogs.com/n/page/1/']

    # 新聞頁的LinkExtractor,使用正則規則提取
    page_link_extractor=LinkExtractor(allow=(r'page/\d+'))
    # 每一條新聞的LinkExtractor,使用XPath規則提取
    detail_link_extractor=LinkExtractor(restrict_xpaths=(r'//h2[@class="news_entry"]'))

    rules = [
        # 新聞頁提取規則,follow=True,跟進
        Rule(link_extractor=page_link_extractor,follow=True),
        # 新聞詳情頁提取規則,follow=False,不跟進
        Rule(link_extractor=detail_link_extractor,callback='parse_detail',follow=False)
    ]

    def parse_detail(self,response):
        """處理新聞詳情頁資料回撥方法"""

        # print(response.url)

        title=response.xpath('//div[@id="news_title"]/a/text()')[0].extract()
        postor = response.xpath('//span[@class="news_poster"]/a/text()')[0].extract()
        pubtime = response.xpath('//span[@class="time"]/text()')[0].extract()
        content = response.xpath('//div[@id="news_body"]/p/text()').extract()

        item=CnblogNewsItem()
        item['title']=title
        item['postor']=postor
        item['pubtime']=pubtime
        item['content']=content

        yield item

pipelines.py

class CnblognewsPipeline(object):
    """部落格園新聞Item PipeLIne"""

    def __init__(self):
        self.f=open('cnblognews.json',mode='w')

    def process_item(self,item,spider):
        news=json.dumps(dict(item),ensure_ascii=False,indent=4).strip().encode('utf-8')
        self.f.write(news+',\n')

    def close_spider(self,spider):
        self.f.close()

settings.py

ITEM_PIPELINES = {
   'myscrapy.pipelines.CnblognewsPipeline': 1,
}

執行結果

爬蟲系列---Scrapy框架學習

產生 follow everyone 頁面 pos per iso select -s 項目的需求需要爬蟲某網的商品信息，自己通過Requests,BeautifulSoup等編寫了一個spider，把抓取的數據存到數據庫裏面。跑起來的感覺速度有點慢，尤其是進入詳情頁

Scrapy框架學習（一）Scrapy框架介紹

Scrapy框架的架構圖如上。 Scrapy中的資料流由引擎控制，資料流的過程如下： 1.Engine開啟一個網站，找到處理該網站的Sprider，並向該Sprider請求第一個要爬取得URL。 2.Engine從Sprider中獲取到第一個要爬的URL，並通過Scheduler以Requ

Scrapy框架學習（二）Scrapy入門

接下來以爬取quote.toscrape.com為例完成一遍Scrapy的抓取流程。首先建立一個Scrapy專案。開啟命令列，輸入以下命令： scrapy startproject projectname 即可在當前位置建立一個Scrapy專案。我們建立一個名為tutorial的專案： scrapy

scrapy框架學習，理解不深得到的問題，我遇到的 from avimageitems.items import AvimageItem ModuleNotFoundError: No module named 'scrapy name'

心情複雜呀，這個問題之前找不到解決的思路，原因是沒有人會像我這麼粗心的，沒有認真去看書就寫，不過我是真的沒注意到這個框架名的是什麼，現在才發現setting中的BOT_NAME的作用，不過我是在之前的課程裡瞭解到的

Python3 Scrapy框架學習一：爬取貓眼Top100榜

以下操作基於Windows平臺。開啟CMD命令提示框：輸入如下命令：開啟專案裡的items.py檔案，定義如下變數，用於儲存。 class MaoyanItem(scrapy.Item): # define the fields for your

Python3 Scrapy框架學習二：爬取豆瓣電影Top250

開啟專案裡的items.py檔案，定義如下變數， import scrapy from scrapy import Item,Field class DoubanItem(scrapy.Item): # define the fields for your it

Python3 Scrapy框架學習三：爬取煎蛋網加密妹子圖片(全爬)

以下操作基於Windows平臺。開啟CMD命令提示框：新建一個專案如下：開啟專案裡的setting檔案，新增如下程式碼 IMAGES_STORE = './XXOO' #在當前目錄下新建一個XXOO資料夾 MAX_PAGE = 40 #定義爬取的總得頁數

Python3 Scrapy框架學習四：爬取的資料存入MongoDB

1. 新建一個scrapy專案： 2.使用PyCharm開啟該專案 3.在settings.py檔案中新增如下程式碼： #模擬瀏覽器，應對反爬 USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK

Python3 Scrapy框架學習五：使用crawl模板爬取豆瓣Top250，並存入MySql、MongoDB

1.新建專案及使用crawl模板 2.頁面解析 rules = (Rule(LinkExtractor(allow=r'subject/\d+/',restrict_css = '.hd > a[class = ""]'), callback='parse_it

Python 爬蟲 (六) -- Scrapy 框架學習

本文希望達到以下目標: 簡要介紹Scarpy 閱讀官網入門文件並實現文件中的範例使用Scarpy優豆瓣爬蟲的抓取制定下一步學習目標初學Scrapy, 如有翻譯不當, 或者程式碼錯誤, 請指出, 非常感謝 1. Scrapy簡介 Scrapy是一個為了爬取網站資料，提

Scrapy框架學習

概述主要是為了練習使用CrawlSpider類的rules變數中定義多個Rule的用法，體會Scrapy框架的強大、靈活性。因此，對抓取到的內容只是儲存到JSON檔案中，沒有進行進一步的處理。原

【Python3 爬蟲學習筆記】Scrapy框架的使用 1

Scrapy功能非常強大，爬取效率高，相關擴充套件元件多，可配置和可擴充套件程度非常高，它幾乎可以應對所有發爬網站，是目前Python中使用最廣泛的爬蟲框架。 Scrapy框架介紹 Scrapy是一個基於Twisted的非同步處理框架，是純Python實現的爬蟲

《零基礎入門學習Python》第063講：論一隻爬蟲的自我修養11：Scrapy框架之初窺門徑

上一節課我們好不容易裝好了 Scrapy，今天我們就來學習如何用好它，有些同學可能會有些疑惑，既然我們懂得了Python編寫爬蟲的技巧，那要這個所謂的爬蟲框架又有什麼用呢？其實啊，你懂得Python寫爬蟲的程式碼，好比你懂武功，會打架，但行軍打仗你不行，畢竟敵人是千軍萬馬，縱使你再強，

python爬蟲學習筆記-scrapy框架之start_url

在使用命令列建立scrapy專案後，會發現在spider.py檔案內會生成這樣的程式碼： name = 'quotes' allowed_domains = ['quotes.toscrape.com'] start_urls = ['http://quotes.toscrape.com

大資料-爬蟲框架學習--scrapy

--上面就是scrapy最爽的地方，它同時啟動了7個執行緒同時對七篇文章的完整url進行了爬取，這效率想想也是醉了。最關鍵你無需在程式中去指定這些多執行緒的細節，完全有scrapy框架根據實際業務情況自動排程。{'postdate': [u'2017-04-13 22:13'], 'view': [u'15\

Scrapy框架的學習(9.Scrapy中的CrawlSpider類的作用以及使用，實現優化的翻頁爬蟲)

1.CrawlSpider類通過一些規則（rules），使對於連結（網頁）的爬取更具有通用性，換句話說，CrawlSpider爬蟲為通用性的爬蟲，而Spider爬蟲更像是為一些特

Scrapy框架的學習(8.scrapy中settings.py裡面配置說明以及怎樣設定配置或者引數以及怎樣使用)

1.settings.py裡面的引數說明每個引數其對應的官方得文件的網址 # -*- coding: utf-8 -*- # Scrapy settings for tencent project # # For simplicity, this

Scrapy框架的學習(7. 瞭解Scrapy中的debug資訊以及Scrapy shell的使用)

認識程式中的debug資訊 https://blog.csdn.net/wei18791957243/article/details/86157707 這個部落格裡寫了，怎麼關閉這些debug資訊因為在Scrapy中預設是開啟de

Scrapy框架的學習(6.item介紹以及items的使用（提前定義好欄位名）)

在Scrapy框架中的items.py的作用 1.可以預先定義好要爬取的欄位 items.py import scrapy class TencentItem(scrapy.Item): # define the f

Scrapy框架的學習(5.scarpy實現翻頁爬蟲，以及scrapy.Request的相關引數介紹)

1. 建立爬蟲專案： scrapy startporject tencent 然後進入到專案中： cd tencent 建立爬蟲：scrapy genspider tencent_spider

Scrapy框架學習

概述

原始碼

執行結果

相關推薦