Scrapy 抓取股票行情

阿新 • • 發佈：2018-10-10

安裝 Coding 環境 tps .org mat 等價 node als

安裝scrapy會出現錯誤，我們選擇anaconda3作為編譯環境，搜索scrapy安裝（有錯誤自查）

創建scrapy爬蟲項目：

　　調出cmd，到相應目錄：輸入：

scrapy startproject stockstar

技術分享圖片

放置spide代碼的目錄文件　　 spider（用於編寫爬蟲）

項目中的item文件　　　　　　items.py(用於保存所抓取的數據的容器，其存儲方式類似於Python的字典)

項目的中間件　　　　　　　 middlewares.py（提供一種簡便的機制，通過允許插入自定義代碼來拓展scrapy的功能）

項目的pipelines文件　　　　　pipelines.py(核心處理器)

項目的設置文件　　　　　　　settings.py

項目的配置文件　　　　　　 scrapy.cfg

技術分享圖片

創建項目後：在settings文件中有一句：

# Obey robots.txt rules
ROBOTSTXT_OBEY = True

有時候我們需要關閉：設為false

右擊文件夾，在彈出的快捷鍵中選擇：Mark Directory as --Sources Root,這樣使導入包的語法更簡潔

1.定義一個item容器：

在items.py中編寫：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items 

#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy
from scrapy.loader import ItemLoader
from scrapy.loader.processors import TakeFirst

class StockstarItemLoader(ItemLoader):
    #自定義itemloader,用於存儲爬蟲所抓取的字段內容
    default_output_processor = TakeFirst()

class StockstarItem(scrapy.Item):
     
# define the fields for your item here like:
    # name = scrapy.Field()
    code = scrapy.Field()               #股票代碼
    abbr = scrapy.Field()               #股票簡稱
    last_trade = scrapy.Field()         #最新價
    chg_ratio = scrapy.Field()          #漲跌幅
    chg_amt = scrapy.Field()            #漲跌額
    chg_ratio_5min = scrapy.Field()     #5分鐘漲幅
    volumn = scrapy.Field()             #成交量
    turn_over = scrapy.Field()          #成交額

settings.py加上：

from scrapy.exporters import JsonItemExporter
#默認顯示的中文是閱讀性較差的Unicode字符
#需定義子類顯示出原來的字符集（將父類的ensure——ascii屬性設置為False即可）
class CustomJsonLinesItemExporter(JsonItemExporter):
    def __init__(self,file,**kwargs):
        super(CustomJsonLinesItemExporter,self).__init__(file,ensure_ascii=False,**kwargs)
#啟用新定義的Exporter類
FEED_EXPORTERS = {
    ‘json‘:‘stockstar.settings.CustomJsonLinesItemExporter‘,
}
DOWNLOAD_DELAY = 0.25

cmd進入項目文件：

輸入：scrapy genspider stock quote.stockstar.com，生產spider代碼

技術分享圖片

stock.py

# -*- coding: utf-8 -*-
import scrapy
from items import StockstarItem,StockstarItemLoader

class StockSpider(scrapy.Spider):
    name = ‘stock‘  #定義爬蟲名
    allowed_domains = [‘quote.stockstar.com‘]#定義爬蟲域
    start_urls = [‘http://quote.stockstar.com/stock/ranklist_a_3_1_1.html‘]#定義爬蟲連接

    def parse(self, response):#撰寫爬蟲邏輯
        page = int(response.url.split("_")[-1].split(".")[0])#抓取頁碼
        item_nodes = response.css(‘#datalist tr‘)
        for item_node in item_nodes:
            #根據item文件所定義的字段內容，進行字段內容的抓取
            item_loader = StockstarItemLoader(item=StockstarItem(),selector=item_node)
            item_loader.add_css("code","td:nth-child(1) a::text")
            item_loader.add_css("abbr","td:nth-child(2) a::text")
            item_loader.add_css("last_trade","td:nth-child(3) span::text")
            item_loader.add_css("chg_ratio","td:nth-child(4) span::text")
            item_loader.add_css("chg_amt","td:nth-child(5) span::text")
            item_loader.add_css("chg_ratio_5min","td:nth-child(6) span::text")
            item_loader.add_css("volumn","td:nth-child(7)::text")
            item_loader.add_css("turn_over","td:nth-child(8)::text")
            stock_item = item_loader.load_item()
            yield stock_item
        if item_nodes:
            next_page = page+1
            next_url = response.url.replace("{0}.html".format(page),"{0}.html".format(next_page))
            yield  scrapy.Request(url=next_url,callback=self.parse)

在stockstar下添加一個main.py

from scrapy.cmdline import execute
execute(["scrapy","crawl","stock","-o","items.json"])
#等價於在cmd中輸入：scrapy crawl stock -o items.json

執行：

技術分享圖片

Scrapy 抓取股票行情

安裝 Coding 環境 tps .org mat 等價 node als 安裝scrapy會出現錯誤，我們選擇anaconda3作為編譯環境，搜索scrapy安裝（有錯誤自查）創建scrapy爬蟲項目：　　調出cmd，到相應目錄：輸入： scrapy startpr

一個站點的誕生02--用Scrapy抓取數據

項目 selector 默認安裝找不到 shang foo 術語替換產生假設想抓數據，就須要有爬蟲程序，業內叫crawler或者spider。有各種語言版本號的開源爬蟲。c++, Java, php，在github上搜一下，以"spider c++"為k

Scrapy抓取Quotes to Scrape

same iss ict -a json 一個個 doc common lang # 爬蟲主程序quotes.py # -*- coding: utf-8 -*- import scrapy from quotetutorial.items import QuoteIte

scrapy抓取免費代理IP

代理爬蟲 python scrapy 1、創建項目scrapy startproject getProxy2、創建spider文件，抓取www.proxy360.cn www.xicidaili.com兩個代理網站內容cd項目的spiders模塊下執行scrapy genspider pro

Scrapy抓取動態網頁

都是搜索華盛頓 etime 觀察 review llb 得到我們動態網頁指幾種可能： 1）需要用戶交互，如常見的登錄操作； 2）網頁通過JS/ AJAX動態生成，如一個html裏有<div id="test"></div>，通過JS生成&l

Scrapy抓取起點中文網排行榜

pro 起點 type [1] -m += 描述頁面名稱項目名稱：qidian 項目描述：利用scrapy抓取七點中文網的“完本榜”總榜的500本小說，抓取內容包括：小說名稱，作者，類別，然後保存為CSV文件目標URL：https://www.qidian.com/

scrapy抓取某些樣式的博客園博客信息

mongo from split yield 標簽 col chrome fin afa 測試過很多樣式的博客園，就發現長書這樣的也就是我的博客這樣的抓取不了，標簽不一樣。其他的只需要把bky.py下的user的值即‘username’改為要抓取的用戶的用戶名即可，如： u

python3 + scrapy 抓取boss直聘崗位

前言：本文為記錄工程實現過程，會引用其他文章，如果又不清晰的地方可以檢視原文章。本文主旨在於記錄，所以部分作者瞭解的部分可能不會介紹而直接操作，如果有疑問請留言或者直接使用搜索引擎。引用： windows安裝scrapy 建立第一個scrapy工程一、安裝scrapy 管理員模式開啟power

Scrapy入門例項(使用Scrapy抓取豆瓣電影top250榜單）

專案地址：https://github.com/yuanfuzhi/ScrapyDemo.git 一 Scrapy介紹與安裝 1， Scrapy介紹 Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中

使用Scrapy抓取數據

元素 www. ace 任務 onf 目錄 mod 模塊獲得轉載：http://blog.javachen.com/2014/05/24/using-scrapy-to-cralw-data.html Scrapy是Python開發的一個快速,高層次的屏幕抓取和web抓

scrapy——抓取知乎

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

scrapy抓取拉勾網職位信息（一）——scrapy初識及lagou爬蟲項目建立

報錯中間鍵方式 set 分享圖片生成 pytho 薪酬 color 本次以scrapy抓取拉勾網職位信息作為scrapy學習的一個實戰演練 python版本：3.7.1 框架：scrapy（pip直接安裝可能會報錯，如果是vc++環境不滿足，建議直接安裝一個visua

scrapy抓取拉勾網職位資訊（一）——scrapy初識及lagou爬蟲專案建立

本次以scrapy抓取拉勾網職位資訊作為scrapy學習的一個實戰演練 python版本：3.7.1 框架：scrapy（pip直接安裝可能會報錯，如果是vc++環境不滿足，建議直接安裝一個visual studio一勞永逸，如果報錯缺少前置依賴，就先安裝依賴）本篇

scrapy抓取拉勾網職位資訊（四）——對欄位進行提取

上一篇中已經分析了詳情頁的url規則，並且對items.py檔案進行了編寫，定義了我們需要提取的欄位，本篇將具體的items欄位提取出來這裡主要是涉及到選擇器的一些用法，如果不是很熟，可以參考：scrapy選擇器的使用依舊是在lagou_c.py檔案中編寫程式碼首先是匯入Lag

scrapy 抓取拉鉤 ajax

# -*- coding: utf-8 -*- import scrapy from LagouSpider.items import LagouspiderItem import json class LagouSpider(scrapy.Spider): na

爬蟲進階：Scrapy抓取boss直聘、拉勾心得經驗

關於使用Scrapy的體會，最明顯的感受就是這種模板化、工程化的腳手架體系，可以說是拿來即可開箱便用，大多僅需按一定的規則套路配置，剩下的就是專注於編寫跟爬蟲業務有關的程式碼。絕大多數的反反爬蟲策略，大多有以下幾種：忽略robots.txt協議新增隨機請求

Python抓取股票資料，如何用python程式設計賺取第一桶金？

Python開發的一個快速,高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試。 Scrapy吸引人的地方在於它是一個框架，任何人都可以根據需求方便的修改。它也提供了多種型別爬蟲的基類，如BaseSpid

scrapy抓取github使用者郵箱功能的實現

實現的流程大概是這樣： 1.訪問github每日精選專案 https://github.com/trending?since=daily 2.使用selenium或requests完成登入操作 3.檢視每個專案Star的使用者列表 4.遍歷所有使用者，訪問使用

用Scrapy抓取的中文字元匯出到csv中出現亂碼

背景按照這篇文章學些Scrapy框架，爬取豆瓣電影Top250的資訊，將資訊匯入到本地csv檔案時，由於電影名稱是中文，儲存時出現了亂碼。解決辦法在setting檔案中加入這樣一行語句： FEED_EXPORT_ENCODING = ‘utf-8-sig’ 儲存se

python網路爬蟲--抓取股票資訊到Mysql

1.建表mysql -u root -p 123456create database test default character set utf8;create table stocks --a股( code varchar(10) comment '程式碼', nam

Scrapy 抓取股票行情

相關推薦