Python網路爬蟲之股票資料Scrapy爬蟲例項介紹，實現與優化！（未成功生成要爬取的內容！）

阿新 • • 發佈：2018-11-25

結果TXT文本里面竟然沒有內容！cry~
在這裡插入圖片描述

編寫程式：
步驟：

 1. 建立工程和Spider模板 
 2. 編寫Spider 
 3. 編寫ITEM Pipelines

在這裡插入圖片描述
程式碼：成功建立

D:\>cd pycodes
    
   D:\pycodes>scrapy startproject BaiduStocks
    New Scrapy project 'BaiduStocks', using template directory 'c:\\users\\hwp\\appdata\\local\\programs\\python\\python37\\lib\\site-packages\\scrapy\\templates\\project', created in:
        D:\pycodes\BaiduStocks
    
    You can start your first spider with:
        cd BaiduStocks
        scrapy genspider example example.com
    
    D:\pycodes>

成功建立：
在這裡插入圖片描述
scrapy genspider stocks baidu.com程式碼：

D:\pycodes>dir
 驅動器 D 中的卷是 大寶寶
 卷的序列號是 6EE8-9B4D

 D:\pycodes 的目錄

2018/11/25  16:06    <DIR>          .
2018/11/25  16:06    <DIR>          ..
2018/11/25  16:06    <DIR>          BaiduStocks
2018/11/25  14:26    <DIR>          python123demo
               0 個檔案              0 位元組
               4 個目錄 21,907,013,632 可用位元組

D:\pycodes>cd BaiduStocks

D:\pycodes\BaiduStocks>scrapy genspider stocks baidu.com
Created spider 'stocks' using template 'basic' in module:
  BaiduStocks.spiders.stocks

D:\pycodes\BaiduStocks>

在這裡插入圖片描述
然後開啟.py檔案。

步驟二的程式碼：

# -*- coding: utf-8 -*-
import scrapy
import re

class StocksSpider(scrapy.Spider):
    name = 'stocks'
    #allowed_domains = ['baidu.com']
    start_urls = ['http://quote.eastmoney.com/stocklist.html']

    def parse(self, response):
        for href in responce.css('a::attr(href)').expect():
            try:
                stock = re.findall(r"[s][hz]\d{6}",href)[0]
                url = 'https://gupiao.baidu.com/stock/' + stock + 'html'
                yield scrapy.Request(url, callback=self.parse_stock)
            except:
                continue

    def paese_stock(self, response):
        infoDict = {}
        stockInfo = request.css('.stock-bets')
        name = stockInfo.css('.bets-name').extract()[0]
        keyList = stockInfo.css('dd').extract()
        for i in range(len(keyList)):
            key = re.findall(r'>.*</dt>',keyList[i])[0][1:-5]
            try:
                val = re.findall(r'\d+\.?.*</dd>',valueList[i])[0][0:-5]
            except:
                val = '--'
            infoDict[key]=val

        infoDict.update(
            {'股票名稱':re.findall('\s.*\(',name)[0].split()[0] + \re.findall('\>.*<', name)[0][1:-1]})
            yield infoDict
    
                
        pass

在這裡插入圖片描述
編寫這個檔案！

修改後程式碼：

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html


class BaidustocksPipeline(object):
    def process_item(self, item, spider):
        return item
class BaidustocksInfoPipeline(object):
    def open_spider(self, spider):
        self.f = open('BaidustockInfo.txt', 'w')

    def close_spider(self, spider):
        self.f.close()
        
    def process_item(self, item, spider):
        try:
            line = str(dict(item)) + '\n'
            self.f.write(line)
        except:
            pass
        return item

在這裡插入圖片描述
然後修改setting.py配置檔案。

修改圈起來的地方
修改之後：

功能：

從東方財富網獲得股票的列表！
針對股票列表生成百度連結。
然後爬取。
再提取關鍵資訊。
再後續處理！

CMD：
D:\pycodes\BaiduStocks>scrapy crawl stocks

OK！

D:\pycodes\BaiduStocks>scrapy genspider stocks baidu.com
Created spider 'stocks' using template 'basic' in module:
  BaiduStocks.spiders.stocks

D:\pycodes\BaiduStocks>scrapy crawl stocks
2018-11-25 16:51:08 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: BaiduStocks)
2018-11-25 16:51:08 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.19.0, Twisted 18.9.0, Python 3.7.1 (v3.7.1:260ec2c36a, Oct 20 2018, 14:57:15) [MSC v.1915 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.1.0j  20 Nov 2018), cryptography 2.4.2, Platform Windows-10-10.0.17134-SP0
2018-11-25 16:51:08 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'BaiduStocks', 'NEWSPIDER_MODULE': 'BaiduStocks.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['BaiduStocks.spiders']}
2018-11-25 16:51:08 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats']
2018-11-25 16:51:09 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-11-25 16:51:09 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-11-25 16:51:09 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2018-11-25 16:51:09 [scrapy.core.engine] INFO: Spider opened
2018-11-25 16:51:09 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-11-25 16:51:09 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-11-25 16:51:09 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://baidu.com/robots.txt> (referer: None)
2018-11-25 16:51:09 [scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt: <GET http://baidu.com/>
2018-11-25 16:51:09 [scrapy.core.engine] INFO: Closing spider (finished)
2018-11-25 16:51:09 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/exception_count': 1,
 'downloader/exception_type_count/scrapy.exceptions.IgnoreRequest': 1,
 'downloader/request_bytes': 218,
 'downloader/request_count': 1,
 'downloader/request_method_count/GET': 1,
 'downloader/response_bytes': 2680,
 'downloader/response_count': 1,
 'downloader/response_status_count/200': 1,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2018, 11, 25, 8, 51, 9, 738979),
 'log_count/DEBUG': 3,
 'log_count/INFO': 7,
 'response_received_count': 1,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2018, 11, 25, 8, 51, 9, 409917)}
2018-11-25 16:51:09 [scrapy.core.engine] INFO: Spider closed (finished)

D:\pycodes\BaiduStocks>

優化！
提高爬取速度！

改變併發數量來改變速度。變慢或者變快！

雖然有文字生成，但是文字是空空的！ cry！
在這裡插入圖片描述

原始碼：
在這裡插入圖片描述
stocks.py：

# -*- coding: utf-8 -*-
import scrapy
import re
 
 
class StocksSpider(scrapy.Spider):
    name = "stocks"
    start_urls = ['https://quote.eastmoney.com/stocklist.html']
 
    def parse(self, response):
        for href in response.css('a::attr(href)').extract():
            try:
                stock = re.findall(r"[s][hz]\d{6}", href)[0]
                url = 'https://gupiao.baidu.com/stock/' + stock + '.html'
                yield scrapy.Request(url, callback=self.parse_stock)
            except:
                continue
 
    def parse_stock(self, response):
        infoDict = {}
        stockInfo = response.css('.stock-bets')
        name = stockInfo.css('.bets-name').extract()[0]
        keyList = stockInfo.css('dt').extract()
        valueList = stockInfo.css('dd').extract()
        for i in range(len(keyList)):
            key = re.findall(r'>.*</dt>', keyList[i])[0][1:-5]
            try:
                val = re.findall(r'\d+\.?.*</dd>', valueList[i])[0][0:-5]
            except:
                val = '--'
            infoDict[key]=val
 
        infoDict.update(
            {'股票名稱': re.findall('\s.*\(',name)[0].split()[0] + \
             re.findall('\>.*\<', name)[0][1:-1]})
        yield infoDict

在這裡插入圖片描述
pipelines.py：

# -*- coding: utf-8 -*-
 
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
 
 
class BaidustocksPipeline(object):
    def process_item(self, item, spider):
        return item
 
class BaidustocksInfoPipeline(object):
    def open_spider(self, spider):
        self.f = open('BaiduStockInfo.txt', 'w')
 
    def close_spider(self, spider):
        self.f.close()
 
    def process_item(self, item, spider):
        try:
            line = str(dict(item)) + '\n'
            self.f.write(line)
        except:
            pass
        return item

settings.py檔案中被修改的區域：

# Configure item pipelines
# See https://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    'BaiduStocks.pipelines.BaidustocksInfoPipeline': 300,
}

在這裡插入圖片描述
課程地址：https://www.icourse163.org/learn/BIT-1001870001?tid=1003245012&from=study#/learn/content?type=detail&id=1004574454&cid=1005754082
MOOC課！

Python網路爬蟲之股票資料Scrapy爬蟲例項介紹，實現與優化！（未成功生成要爬取的內容！）

結果TXT文本里面竟然沒有內容！cry~ 編寫程式：步驟： 1. 建立工程和Spider模板 2. 編寫Spider 3. 編寫ITEM Pipelines 程式碼：成功建立 D:\>cd pycodes D:\pycodes>

Python網路爬蟲之requests庫Scrapy爬蟲比較

requests庫Scrapy爬蟲比較相同點：都可以進行頁面請求和爬取，Python爬蟲的兩個重要技術路線兩者可用性都好，文件豐富，入門簡單。兩者都沒有處理JS，提交表單，應對驗證碼等功能（可擴充套件）想爬取有驗證碼的，換需要學習別的庫知識。不同點： Scrapy,非同

Python網路爬蟲之製作股票資料定向爬蟲以及爬取的優化可以顯示進度條！

候選網站：新浪股票：http://finance.sina.com.cn/stock/ 百度股票：https://gupiao.baidu.com/stock/ 選取原則：無robots協議非js網頁資料在HTMLK頁面中的 F12，檢視原始

Python網路爬蟲與資訊提取-Day14-（例項）股票資料定向爬蟲

功能描述目標：獲取上交所和深交所所有股票的名稱和交易資訊股票資料是進行量化交易的基礎型資料，此爬蟲也能為量化交易提供獲得基礎資料的方法輸出：儲存到檔案中技術路線：requests‐bs4‐re 候選資料網站的選擇百度股票：https://gupiao.baidu

python網路爬蟲：股票資料定向爬取

步驟說明步驟1：從東方財富網獲取股票列表步驟2：逐一獲取股票程式碼，並增加到百度股票的連結中，最後對這些連結進行逐個的訪問獲得股票的資訊步驟3：將結果儲存到檔案程式碼實現爬取當天一天的股票資料（上海，深圳交易所的） import reques

Python爬蟲實戰：股票資料定向爬蟲

功能簡介目標：獲取上交所和深交所所有股票的名稱和交易資訊。輸出：儲存到檔案中。技術路線： requests—bs4–re 語言：python3.5 說明網站選擇原則：股票資訊靜態存在於html頁面中，非js程式碼生成，沒有Robbts

Python爬蟲股票資料定向爬蟲

import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url, code='utf-8'): try: r = reques

python爬蟲筆記（七）:實戰（三）股票資料定向爬蟲

目標分析及描述#CrawBaiduStocksA.py import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url): try:

【Python實戰】用Scrapyd把Scrapy爬蟲一步一步部署到騰訊雲

將我們的爬蟲部署到騰訊雲伺服器上面。廢話不多說，我們就來實戰操作吧。這裡選擇什麼雲服務都是可以的，阿里雲，AWS，騰訊雲，其他雲都是沒有問題的。部署方法基本一樣，這裡為了方便，所以筆者選擇了騰訊雲來做講解。既然我們選擇了騰訊雲，首先去騰訊雲的官網，註冊登入一下。點選複製https:

爬蟲之股票定向爬取

本次是股票定向爬取，從東方財富網上獲取所有股票程式碼，然後在百度股票網上開啟每個個股股票資訊，提取所要儲存的股票資訊。採取的技術路線是re+bs4+requests。 import requests from bs4 import BeautifulSoup import traceback

python3網路爬蟲第三章: Scrapy 爬蟲框架 (1)

1.認識目錄結構安裝略過,使用命令建立專案 scrapy startproject myfirstpjt 這裡面 scrapy.cfg 是爬蟲專案配置檔案,專案的同名子資料夾中,init.py 是初始化檔案,items.py 是爬蟲專案的資料容器檔案,piplines

python之股票資料分析

一、初識PandasPandas 是基於 NumPy 的一個非常好用的庫，它有兩種自己獨有的基本資料結構Series （一維）和 DataFrame（二維），它們讓資料操作更簡單了。雖然Pandas有著兩種資料結構，但它依然是 Python 的一個庫，所以，Python 中有

Python——網路爬蟲（爬取網頁圖片）

最近在學習 Python，然後就試著寫了一個簡單的Python小程式，爬取一個網頁的圖片，不得不說 Python 真的強大，以下是爬取 NEFU Online Judge 網站的程式碼。吐槽：其實

初試python爬蟲之：豆瓣電影爬蟲

因為課程需要，前兩天花了一天學習python並寫了一個豆瓣電影的爬蟲。課程要求是這樣的：爬取豆瓣網站上，電影排名在前50名的電影，包括電影名字，電影評分，電影簡介，爬下來的電影資料進行分類，按照不同分類儲存在資料庫/Excel中的不同表中。python的環境安裝配置，以及語法

python之簡單爬蟲（爬取豆瓣出版社）

ok，開始我們的實驗 1.開啟瀏覽器，輸入網址，右擊網頁，檢視網頁原始碼，這裡我用的是谷歌瀏覽器 2.看上圖我們發現許多出版社名稱，接下來我們查詢一個出版社名稱，例如重慶大學觀察下圖我們發現它們都在一個div標籤內，且class=”name” ,

python 爬蟲學習三（Scrapy 實戰，豆瓣爬取電影資訊）

利用Scrapy爬取豆瓣電影資訊主要列出Scrapy的三部分程式碼： spider.py檔案： # _*_ coding=utf-8 _*_ import scrapy from course.douban_items import DouBanItem from scra

Python資料分析之股票資料

最近股市比較火，我7月初上車了，現在已經下了。中間雖然吃了點肉，但下車的時候都虧進去了，最後連點湯都沒喝著。這篇文章我們就用python對股票資料做個簡單的分析。資料集是從1999年到2016年上海證券交易所的1095只股票。共1000個檔案。我們的分析思路大致如下：每年新發股票數目前市值最大的

python爬蟲之Beautiful Soup基礎知識+例項

#python爬蟲之Beautiful Soup基礎知識 >Beautiful Soup是一個可以從HTML或XML檔案中提取資料的python庫。它能通過你喜歡的轉換器實現慣用的文件導航，查詢，修改文件的方式。需要注意的是，Beautiful Soup已經自動將輸入文件轉換為Unicode編碼，輸出文

7-13爬蟲入門之BeautifulSoup對網頁爬取內容的解析

obj logs utf 進行 pan 審查 pri 全球網頁爬取通過beautifulsoup對json爬取的文件進行元素審查，獲取是否含有p標簽 # -*- coding:utf-8 -*- from lxml import html import request

python網路程式設計之互斥鎖

標籤（空格分隔）：互斥鎖程序之間的資料不共享，但是共享同一套檔案系統，所以訪問同一個檔案，或者同一個列印終端，是沒有問題的，而共享帶來的問題就是競爭，競爭帶來的結果就是錯亂，如下： #併發執行,效率高,但競爭同一列印終端,帶來了列印錯亂 from multiprocessing import Pr

Python網路爬蟲之股票資料Scrapy爬蟲例項介紹，實現與優化！（未成功生成要爬取的內容！）

相關推薦