NLP中kaggle比賽例項《每日新聞對股票市場的預測》進階版

阿新 • • 發佈：2019-01-02

這篇比基礎版加了什麼呢？

基礎版是直接將文字放入TF-IDF,雖然簡單方便，但還是不夠嚴謹，可以對資料進行進一步處理，如先小寫化，將文字分成曉得tokens，接著刪減如the，a，that等停止詞，用正則化刪除數字。用這些手段將資料進行處理。

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
import  pandas as pd
import numpy as pd
from sklearn.svm import SVC
from sklearn.metrics import roc_auc_score
from  
datetime import date

#匯入資料
data = pd.read_csv('')
#將headlines合併起來，考慮所有的news
data['combined_news'] = data.filter(regex=('Top.*')).apply(lambda x:''.join(str(x.values)),axis = 1)
#分割測試/訓練集
train = data[data['Date']<'2015-01-01']
test = data[data['Date']>'2014-12-31']
#文字預處理
X_train = train['combined_news' 
].str.lower().str.replace('"','').str.replace("'",'').str.split()
X_test = test['combined_news'].str.lower().str.replace('"','').str.replace("'",'').str.split()
#刪減停止詞
from nltk.corpus import stopwords
stop = stopwords.words('english')
#刪除數字
import re
def hasNumbers(inputStrings):
    return bool(re.search(r'\d' 
,inputStrings))
#lemma
from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()
def check(word):
    #如果需要這個單詞，則True，如果需要去除，則False
if word in stop:
        return False
    elif hasNumbers(word):
        return False
    else:
        return True
#然後把整個流程放進我們的DF中進行處理
X_train = X_train.apply(lambda x:[wordnet_lemmatizer.lemmatize(item) for item in x if check(item)])
X_train = X_train.apply(lambda x:[wordnet_lemmatizer.lemmatize(item) for item in x if check(item)])
#因為外部庫，比如sklearn ，只支援string輸入，所以我們把調整後的list再變回string
X_train = X_train.apply(lambda x:''.join(x))
X_test = X_test.apply(lambda x:''.join(x))
#重新fit一遍我們的clf
feature_extraction = TfidfVectorizer(lowercase=False)
X_train =feature_extraction.fit_transform(X_train.values)
X_test =feature_extraction.fit_transform(X_test.values)
#訓練模型
clf = SVC(probability=True,kernel='rbf')
clf.fit(X_train,y_train)
predictions = clf.predict_proba(X_test)
print('ROC_AUC yieds'+str(roc_auc_score(y_test,predictions[:,1])))

NLP中kaggle比賽例項《每日新聞對股票市場的預測》進階版

這篇比基礎版加了什麼呢？基礎版是直接將文字放入TF-IDF,雖然簡單方便，但還是不夠嚴謹，可以對資料進行進一步處理，如先小寫化，將文字分成曉得tokens，接著刪減如the，a，that等停止詞，用正則

Kaggle比賽之『舊金山犯罪分類預測』 demo

日期格式建模舊金山 mon feature sklearn nor model sin import pandas as pd import numpy as np #用pandas載入csv訓練數據，並解析第一列為日期格式 train=pd.read_csv(‘.

DL之perceptron：利用perceptron感知機對股票實現預測

DL之perceptron：利用perceptron感知機對股票實現預測 import numpy as np import operator import os # create a dataset which contains 3 samples with 2 classes def

python---面向對象高級進階

刪除數據 name 兩個構造 hasattr def method res 錯誤類型靜態方法，調用靜態方法後，該方法將無法訪問類變量和實例變量 1 class Dog(object): 2 def __init__(self,name): 3

Python基礎-第七天-面向對象編程進階和Socket編程簡介

python本篇內容：1.面向對象編程進階-靜態方法2.面向對象編程進階-類方法3.面向對象編程進階-屬性方法4.面向對象編程進階-特殊成員（內置方法）5.面向對象編程進階-反射6.異常處理、斷言7.Socket編程簡介一、面向對象編程進階-靜態方法1.靜態方法的實現通過@staticmethod裝飾器可以把

面向對象的過程進階

name es5 cti 構造對象對象一行 struct type .proto //字面量的方式　　var obj = { 　　　　name : "beijing", 　　　　age : 12, 　　　　showName : function(

python面向對象基礎語言進階

python在此感謝前輩們的指導：http://python.jobbole.com/80955/ https://www.cnblogs.com/wupeiqi/p/4766801.htmlhttps://www.cnblogs.com/paomaliuju/p/5122761.html https://w

每日一題--5 awk進階

awk %s 變量 don i++ pre 每日效果判斷每周絕望原數據文件： id=aa&bb&type&name=cc bb&id=aa&name=cc&type id=aa&type&bb&n

Java經典例項：進階版堆疊實現，支援任何物件型別

支援任何物件型別，有更多的錯誤檢查。 package Stack; /** * Created by Frank */ public class MyStack<T> implements SimpleStack<T> { public stati

python面向對象編程進階

成員 ron down attr python property pri sel 類型 python面向對象編程進階一.isinstance(obj,cls)和issubclass(sub,super) isinstance(obj,cls)檢查是否obj是否是

【Linux】中預設文字編輯器 vim 的入門與進階

### Linux 基本操作 vim 篇 --- #### vim 簡介 ---- vim 是 Linux 上最基本的文字編輯工具，其地位像是 Windows 自帶的記事本工具，還要少數的 Linux 系統自帶 leafpad 編輯器，leafpad 的操作介面更像是 Win 的記事本，可以使用滑

使用vue中的axios後，對例項中的data進行賦值的問題

總結一下我遇到的一個糾結很久的問題。在專案中需要用到後臺的資料對前端渲染，使用到了vue整合的axios，使用vue中的鉤子函式在頁面元件掛載完成之後向後臺傳送一個get請求然後將返回後的資料賦值data（）中定義的屬性：執行後前端報錯：原因：在請求執行成功後執行

Python web模版Django-25　在Django中載入css例項　（基於23，對24的index.html進一步修改）

在前面Django-24的筆記中，對index.html用Django-bootstrap3進行了改造簡化，Django-bootstrap3中引用的css，js其實還是Bootstrap的CDN。CDN雖然方便，但以後帶來的問

（LeetCode每日一刷29）陣列中的K-diff數對

題目描述：給定一個整數陣列和一個整數 k, 你需要在數組裡找到不同的 k-diff 數對。這裡將 k-diff 數對定義為一個整數對 (i, j), 其中 i 和 j 都是陣列中的數字，且兩數之差的絕對值是&nbs

kaggle比賽相關準備內容（更新中）

1.需要一點ML演算法的基礎的。另外就是要會用程式語言和相應的第三方庫來實現演算法. 常用的有

對Yii2中 yiiwebUser的理解，和自建的appmodelsUser(基礎版)，frontendmodelsUser的應用原理

end his iat getter authent property 用戶id tails uniq yii\web\User 是一個統稱，為用戶，沒有具體實例，只能管理；此處以app\models\User為基準； app\models\User 是映射數據表us

CSS3中transition-duration參數對hover前後兩種過渡時間的影響

ext 微軟雅黑 pan con color :hover 元素樣式覆蓋 transition-duration這個參數是設置過渡時間的，將transition-duration放在哪個類中。那麽在這個類被啟用時就會依照transition-duration設定的時

python3 簡單實現從csv文件中讀取內容，並對內容進行分類統計

tmp spa writer ict 打開文件 while 類型 spl blog 新手python剛剛上路，在實際工作中遇到如題所示的問題，嘗試使用python3簡單實現如下，歡迎高手前來優化import csv #打開文件，用with打開可以不用去特意關閉file了

Greenplum中定義數據庫對象之創建與管理模式

定義數據多個 sql master help valid border man -m 創建與管理模式概述：DB內組織對象的一種邏輯結構。一個DB內能夠有多個模式。在未指定模式時默認放置在public中。能夠通過”\dn”方式查看數據庫中現有模式。

javascript中的循環引用對象處理

block pan script 需要恢復 clas 對象處理 ren nbsp 先說明一下什麽是循環引用對象： var a={"name":"zzz"}; var b={"name":"vvv"}; a.child=b; b.parent=a; 這裏的a和b

NLP中kaggle比賽例項《每日新聞對股票市場的預測》進階版

相關推薦