教你用Python爬蟲股票評論，簡單分析股民使用者情緒

阿新 • • 發佈：2019-01-07

一、背景

股民是網路使用者的一大群體，他們的網路情緒在一定程度上反映了該股票的情況，也反映了股市市場的波動情況。作為一隻時間充裕的研究僧，我課餘時間準備寫個小程式碼get一下股民的評論資料，分析使用者情緒的走勢。程式碼還會修改，因為結果不準確，哈哈！

二、資料來源

本次專案不用於商用，資料來源於東方財富網，由於物理條件，我只獲取了一隻股票的部分評論，沒有爬取官方的帖子，都是獲取的散戶的評論。

三、資料獲取

Python是個好工具，這次我使用了selenium和PhantomJS組合進行爬取網頁資料，當然還是要分析網頁的dom結構拿到自己需要的資料。

爬蟲部分：

from selenium import webdriver  

import time  

import json  

import re    

# from HTMLParser import HTMLParser   

from myNLP import *  

# from lxml import html  

# import requests  

class Crawler:  

   url = ''  

   newurl = set()  

   headers = {}  

   cookies = {}  

   def __init__(self, stocknum, page):  

       self.url = 'http://guba.eastmoney.com/list,'+stocknum+',5_'+page+'.html'  

       cap = webdriver.DesiredCapabilities.PHANTOMJS  

       cap["phantomjs.page.settings.resourceTimeout"] = 1000  

       #cap["phantomjs.page.settings.loadImages"] = False  

       #cap["phantomjs.page.settings.localToRemoteUrlAccessEnabled"] = True  

       self.driver = webdriver.PhantomJS(desired_capabilities=cap)  

   def crawAllHtml(self,url):  

       self.driver.get(url)  

       time.sleep(2)  

#         htmlData = requests.get(url).content.decode('utf-8')  

#         domTree = html.fromstring(htmlData)  

#         return domTree  

   def getNewUrl(self,url):  

       self.newurl.add(url)  

   def filterHtmlTag(self, htmlStr):  

       self.htmlStr = htmlStr    

       #先過濾CDATA    

       re_cdata=re.compile('//<!CDATA

[>]∗//

>',re.I) #匹配CDATA    

       re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',re.I)#Script    

       re_style=re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',re.I)#style    

       re_br=re.compile('<br\s*?/?>')#處理換行    

       re_h=re.compile('</?\w+[^>]*>')#HTML標籤    

       re_comment=re.compile('<!--[^>]*-->')#HTML註釋    

       s=re_cdata.sub('',htmlStr)#去掉CDATA    

       s=re_script.sub('',s) #去掉SCRIPT    

       s=re_style.sub('',s)#去掉style    

       s=re_br.sub('\n',s)#將br轉換為換行    

       blank_line=re.compile('\n+')#去掉多餘的空行    

       s = blank_line.sub('\n',s)    

       s=re_h.sub('',s) #去掉HTML 標籤    

       s=re_comment.sub('',s)#去掉HTML註釋    

       #去掉多餘的空行    

       blank_line=re.compile('\n+')    

       s=blank_line.sub('\n',s)    

       return s  

   def getData(self):  

       comments = []  

       self.crawAllHtml(self.url)  

       postlist = self.driver.find_elements_by_xpath('//*[@id="articlelistnew"]/div')  

       for post in postlist:  

           href = post.find_elements_by_tag_name('span')[2].find_elements_by_tag_name('a')  

           if len(href):  

               self.getNewUrl(href[0].get_attribute('href'))  

#             if len(post.find_elements_by_xpath('./span[3]/a/@href')):  

#                 self.getNewUrl('http://guba.eastmoney.com'+post.find_elements_by_xpath('./span[3]/a/@href')[0])  

       for url in self.newurl:  

           self.crawAllHtml(url)  

           time = self.driver.find_elements_by_xpath('//*[@id="zwconttb"]/div[2]')  

           post = self.driver.find_elements_by_xpath('//*[@id="zwconbody"]/div')  

           age = self.driver.find_elements_by_xpath('//*[@id="zwconttbn"]/span/span[2]')  

           if len(post) and len(time) and len(age):  

               text = self.filterHtmlTag(post[0].text)  

               if len(text):  

                   tmp = myNLP(text)  

                   comments.append({'time':time[0].text,'content':tmp.prob, 'age':age[0].text})  

           commentlist = self.driver.find_elements_by_xpath('//*[@id="zwlist"]/div')    

           if len(commentlist):  

               for comment in commentlist:  

                   time = comment.find_elements_by_xpath('./div[3]/div[1]/div[2]')  

                   post = comment.find_elements_by_xpath('./div[3]/div[1]/div[3]')  

                   age = comment.find_elements_by_xpath('./div[3]/div[1]/div[1]/span[2]/span[2]')  

                   if len(post) and len(time) and len(age):  

                       text = self.filterHtmlTag(post[0].text)  

                       if len(text):  

                           tmp = myNLP(text)  

                           comments.append({'time':time[0].text,'content':tmp.prob, 'age':age[0].text})  

       return json.dumps(comments)

儲存部分：
這部分其實可以用資料庫來做，但是由於只是試水，就簡單用json檔案來存部分資料：

import io  

class File:  

   name = ''  

   type = ''  

   src = ''  

   file = ''  

   def __init__(self,name, type, src):  

       self.name = name  

       self.type = type  

       self.src = src    

       filename = self.src+self.name+'.'+self.type  

       self.file = io.open(filename,'w+', encoding = 'utf-8')  

   def inputData(self,data):  

       self.file.write(data.decode('utf-8'))  

       self.file.close()  

   def closeFile(self):  

       self.file.close()

測試用的local伺服器：

這裡只是為了要用瀏覽器瀏覽資料圖，由於需要讀取資料，js沒有許可權操作本地的檔案，只能利用一個簡單的伺服器來弄了：

import SimpleHTTPServer  
import SocketServer;  
PORT = 8000  
Handler = SimpleHTTPServer.SimpleHTTPRequestHandler  
httpd = SocketServer.TCPServer(("", PORT), Handler);  
httpd.serve_forever()

NLP部分：snowNLP這個包還是用來評價買賣東西的評論比較準確

不是專門研究自然語言的，直接使用他人的演算法庫。這個snowNLP可以建立一個訓練，有空自己來弄一個關於股票評論的。

#!/usr/bin/env python  
# -*- coding: UTF-8 -*-  
from snownlp import SnowNLP  
class myNLP:  
    prob = 0.5  
    def _init_(self, text):  
        self.prob = SnowNLP(text).sentiments

主排程：

# -*- coding: UTF-8 -*-  
''''' 
Created on 2017年5月17日 
@author: luhaiya 
@id: 2016110274 
@description: 
'''  
#http://data.eastmoney.com/stockcomment/  所有股票的列表資訊  
#http://guba.eastmoney.com/list,600000,5.html 某隻股票股民的帖子頁面  
#http://quote.eastmoney.com/sh600000.html?stype=stock 查詢某隻股票  
from Crawler import *  
from File import *  
import sys  
default_encoding = 'utf-8'  
if sys.getdefaultencoding() != default_encoding:  
    reload(sys)  
    sys.setdefaultencoding(default_encoding)  
             
def main():  
    stocknum = str(600000)  
    total = dict()  
    for i in range(1,10):  
        page = str(i)  
        crawler = Crawler(stocknum, page)  
        datalist = crawler.getData()  
        comments = File(stocknum+'_page_'+page,'json','./data/')  
        comments.inputData(datalist)  
        data = open('./data/'+stocknum+'_page_'+page+'.json','r').read()  
        jsonData = json.loads(data)  
        for detail in jsonData:  
            num = '1' if '年' not in detail['age'].encode('utf-8') else detail['age'].encode('utf-8').replace('年','')  
            num = float(num)  
            date = detail['time'][4:14].encode('utf-8')  
            total[date] = total[date] if date in total.keys() else {'num':0, 'content':0}  
            total[date]['num'] = total[date]['num'] + num if total[date]['num'] else num  
            total[date]['content'] = total[date]['content'] + detail['content']*num if total[date]['content'] else detail['content']*num  
    total = json.dumps(total)  
    totalfile = File(stocknum,'json','./data/')  
    totalfile.inputData(total)  
if __name__ == "__main__":  
    main()

四、前端資料展示

使用百度的echarts。使用者的情緒是使用當天所有評論的情緒值的加權平均，加權係數與使用者的股齡正相關。

<!DOCTYPE html>  
<html>  
<head>  
<meta charset="UTF-8">  
<title>分析圖表</title>  
<style>  
body{texr-align:center;}  
#mainContainer{width:100%;}  
#fileContainer{width:100%; text-align:center;}  
#picContainer{width: 800px;height:600px;margin:0 auto;}  
</style>  
</head>  
<body>  
<div id = 'mainContainer'>  
<div id = 'fileContainer'>這裡是資料夾列表</div>  
<div id = 'picContainer'></div>  
</div>  
<script src="http://apps.bdimg.com/libs/jquery/2.1.1/jquery.min.js"></script>   
<script src = "./echarts.js"></script>  
<script>  
main();  
function main(){  
    var stocknum = 600000;  
    getDate(stocknum);  
}  
function getDate(stocknum){  
    var src = "./data/"+stocknum+".json";  
    $.getJSON(src, function (res){  
        var date = [];  
        for(var key in res){  
            key = key.replace('-','/').replace('-','/');  
            date.push(key);  
        }  
        date.sort();  
        data = [];  
        for (var i = 0; i < date.length; i++) {  
            dat = date[i].replace('/','-').replace('/','-');  
            data.push(res[dat]['content']/res[dat]['num']);  
        }  
        drawPic(date,data);  
    })  
}  
function drawPic(date, data){  
    //initialize and setting options  
    var myChart = echarts.init(document.getElementById('picContainer'));  
    option = {  
        tooltip: {  
            trigger: 'axis',  
            position: function (pt) {  
                return [pt[0], '10%'];  
            }  
        },  
        title: {  
            left: 'center',  
            text: '股票情緒走向圖',  
        },  
        toolbox: {  
            feature: {  
                dataZoom: {  
                    yAxisIndex: 'none'  
                },  
                restore: {},  
                saveAsImage: {}  
            }  
        },  
        xAxis: {  
            type: 'category',  
            boundaryGap: false,  
            data: date  
        },  
        yAxis: {  
            type: 'value',  
            boundaryGap: [0, '100%']  
        },  
        dataZoom: [{  
            type: 'inside',  
            start: 0,  
            end: 10  
        }, {  
            start: 0,  
            end: 10,  
            handleIcon: 'M10.7,11.9v-1.3H9.3v1.3c-4.9,0.3-8.8,4.4-8.8,9.4c0,5,3.9,9.1,8.8,9.4v1.3h1.3v-1.3c4.9-0.3,8.8-4.4,8.8-9.4C19.5,16.3,15.6,12.2,10.7,11.9z M13.3,24.4H6.7V23h6.6V24.4z M13.3,19.6H6.7v-1.4h6.6V19.6z',  
            handleSize: '80%',  
            handleStyle: {  
                color: '#fff',  
                shadowBlur: 3,  
                shadowColor: 'rgba(0, 0, 0, 0.6)',  
                shadowOffsetX: 2,  
                shadowOffsetY: 2  
            }  
        }],  
        series: [  
            {  
                name:'stocknum',  
                type:'line',  
                smooth:true,  
                symbol: 'none',  
                sampling: 'average',  
                itemStyle: {  
                    normal: {  
                        color: 'rgb(255, 70, 131)'  
                    }  
                },  
                areaStyle: {  
                    normal: {  
                        color: new echarts.graphic.LinearGradient(0, 0, 0, 1, [{  
                            offset: 0,  
                            color: 'rgb(255, 158, 68)'  
                        }, {  
                            offset: 1,  
                            color: 'rgb(255, 70, 131)'  
                        }])  
                    }  
                },  
                data: data  
            }  
        ]  
    };  
    //draw pic  
    myChart.setOption(option);    
}  
</script>  
</body>  
</html>

1af8fcdd3ec01053c4edeba851751ca50257d643

圖1是我分析使用者情緒畫出的時間推進圖，理論上小於0.5表消極情緒，大於0.5表示積極情緒。圖2是實際股價的走勢。

教你用Python爬蟲股票評論，簡單分析股民使用者情緒

一、背景股民是網路使用者的一大群體，他們的網路情緒在一定程度上反映了該股票的情況，也反映了股市市場的波動情況。作為一隻時間充裕的研究僧，我課餘時間準備寫個小程式碼get一下股民的評論資料，分析使用者情緒的走勢。程式碼還會修改，因為結果不準確，哈哈！二、資料來源

【Python量化】手把手教你用python做股票分析入門

內容來自：微信公眾號：python金融量化關注可瞭解更多的金融與Python乾貨。目前，獲取股票資料的渠道有很多，而且基本上是免費的，比如，行情軟體有同花順、東方財富等，入口網站有新浪財經、騰訊財經、和訊網等。Python也有不少免費的開源api可以獲取交易行情資料，如pandas自

Python｜教你用 Python 來朗讀網頁，上班聽新聞就是爽！

是不是有的時候懶得自己看新聞？那麼不妨試試用 Python 來朗讀給你聽吧。網頁轉換成語音，步驟無外乎：學習Python中有不明白推薦加入交流群 &nbs

10行程式碼教你用Python掃描Excel表格，自動生成條形碼！

一、需求分析條形碼應用廣泛，尤其是人事、財務和庫管等等崗位，常需根據excel檔案成批生成條碼，如果是經常性天天做，用excel的自己控制元件還是很枯燥煩人的。當然在學習Python的道路上肯定會困難，沒有好的學習資料，怎麼去學習呢？學習Python

15分鐘，教你用Python爬網站資料，並用BI視覺化分析！

作為一名在資料行業打拼了兩年多的資料分析師，雖然目前收入還算ok，但每每想起房價，男兒三十還未立，內心就不免彷徨不已~ 兩年時間裡曾經換過一份工作，一直都是從事大資料相關的行業。目前是一家企業的BI工程師，主要工作就是給業務部門出報表和業務分析報告。回想自己過去的工作成績也還算是不錯的，多

爬蟲高玩教你用Python每秒鐘下載一張高清大圖，快不快？

on() print async tpc 多說 xxx ima 所有 mkdir 如果爬蟲需要展現速度，我覺得就是去下載圖片吧，原本是想選擇去煎蛋那裏下載圖片的，那裏的美女圖片都是高質量的，我稿子都是差不多寫好了的，無奈今天重新看下，妹子圖的入口給關了。至於

老司機程序員教你用Python獲取種子，源源不絕的那種！營養跟不上

想要方式種子 class 發現效果不兼容進行道理種子/DHT 通過磁力就可以獲取種子文件從而進行下載，這跟直接使用種子下載時一個道理的，只是少了從磁力到種子文件的一個過程而已。 peer: 一個 TCP 端口上監聽的客戶端/服

教你用 Python 多執行緒爬京東商城商品評論（代理ip請閱讀上一篇）

爬蟲永不停息最近改進上一篇的爬蟲，不爬豆瓣了，改爬一爬京東評論，先放幾張圖研究看看先。研究了一下，發現商品的id就是連結.html前面的數字。我們把它複製貼上下拉 1,對上一篇的代表進行修改和新增 class Spider(): def

教你用python爬取喜馬拉雅FM音訊，乾貨分享~

前前言喜馬拉雅已經更換標籤，我重新更新了下程式碼，文章暫時未改，因為思路還是如此，需要的可以掃一下文末公眾號二維碼（本人會在上面發表爬蟲以及java的文章還有送書等資源福利哦），也可以直接搜尋公眾號“ 猿獅的單身日常”，好了廣告結束... 前言之前寫過爬取圖片的一篇文章，這回來看看如

教你用Python訪問一零二四網站，拒絕伸手黨

學習Python中有不明白推薦加入交流裙

快回家過年了，還沒有找到物件嗎？教你用Python僅需三步，有老婆

快回家過年了,還沒有找到物件嗎？教你用Python僅需三步,找個老婆回家過年。怎麼做找小編。看下文。小夥伴們加油，新的一年快快樂樂，開開心心，寫程式碼沒有BUG。沒錯，這不是教你去爬幾張美照，而是很嚴肅認真正經的教你如何追女孩？喜歡上一個女孩，怎麼追到手當老婆？身為程式設計師，只

想學習爬蟲的小夥伴進來，看我獨特的風格分分鐘教你學python爬蟲

當年我在學習爬蟲的時候，看了很多大牛的回答！但是他們的回答都很像學霸講解題目，跳步無數，然後留下一句“不就是這樣推嘛”，讓一眾小白菜鳥一臉懵逼。。作為一個0起步（之前連python都不會），目前總算掌握基礎，開始向上進階的菜鳥，深知其中的不易，所以我會在這個回答裡，儘可能全面、細節地分享給大家

七夕快到了，教你用python去表白！

# -*- coding: utf-8 -*- import sys from PyQt5 import QtWidgets from PyQt5.QtGui import QFont,QIcon#QtWidgets不包含QFont必須呼叫QtGui from PyQt5 i

500行程式碼，教你用python寫個微信飛機大戰

這幾天在重溫微信小遊戲的飛機大戰，玩著玩著就在思考人生了，這飛機大戰怎麼就可以做的那麼好，操作簡單，簡單上手。幫助蹲廁族、YP族、飯圈女孩在無聊之餘可以有一樣東西讓他們振作起來！讓他們的左手 / 右手有節奏有韻律的朝著同一個方向來回移動起來！這是史詩級的發明，是濃墨重彩的一筆，是…… 在一陣抽搐後，我

機器學習決策樹ID3演算法，手把手教你用Python實現

本文始發於個人公眾號：**TechFlow**，原創不易，求個關注今天是機器學習專題的第21篇文章，我們一起來看一個新的模型——決策樹。決策樹的定義決策樹是我本人非常喜歡的機器學習模型，非常直觀容易理解，並且和資料結構的結合很緊密。我們學習的門檻也很低，相比於那些動輒一堆公式的模型來說，實在是簡單

神級程序員教你用Python實現簡單的導彈自動追蹤！此乃裝逼神技！

大致範圍發現完美容易 game 分析 iss 兩個由於待會要用pygame演示，他的坐標系是y軸向下，所以這裏我們也用y向下的坐標系。計算sina和cosa，正弦對比斜，余弦鄰比斜，斜邊可以利用兩點距離公式計算出，即：於是 AC的長度就是導彈的速度乘

資深程序員教你用Python如何調企業微信接口發送消息！叼的不行！

交互界面數據絕對路徑深入通過推薦 class mongod 圖片進入正題先來幾張好玩的圖片首先進入python交互界面，導入我自己寫的模塊，然後發一個測試消息，"Hello,小夥伴們好！"，然後看看企業號能否收到相應的消息。

從完全零基礎教你用Python開飯一款打飛機的遊戲！是個人就能學會

實現裁剪 -i ext 想象一點換圖結束離開默認圖片左上角為原點 (0,0)。進群：125240963 即可獲取數十套PDF！要源碼也可以私信哦！顯示窗口如果我們這樣設定，當我們運行的時候，窗口會一閃而過，並不會出現我們想象的畫面。因為

2018最新大神教你用Python玩轉數據視頻教程

data arr 學習者 ui組件 array 字符玩轉統計 afr 本課程共分為5個模塊(實際課時為8周)：Module 01: Python基礎本模塊主要討論Python的基本語言結構、數據類型、基本運算、條件和循環、函數和模塊等內容，用它們就可以寫一些有用的程序了

手把手教你用Python實踐深度學習|深度學習視頻教程

視頻 ref ati pan 人工神經網絡 com 深度學習 encoder auto 手把手教你用Python實踐深度學習網盤地址：https://pan.baidu.com/s/1mkoC9ELXDglvTNN_xPUWlQ 提取碼: zgpy備用地址（騰訊微雲）：ht

教你用Python爬蟲股票評論，簡單分析股民使用者情緒

一、背景

二、資料來源

三、資料獲取

爬蟲部分：

測試用的local伺服器：

NLP部分：snowNLP這個包還是用來評價買賣東西的評論比較準確

主排程：

四、前端資料展示

相關推薦