基於機器學習的NLP情感分析（二）---- 分類問題

阿新 • • 發佈：2019-01-02

基於機器學習的NLP情感分析（二）—- 分類問題

前文提到了如何把一個文字轉換為相應的詞向量，本文討論的是如何進行分類。

feature相關性

首先，需要看看我之前選出來的feature，是否能夠滿足需求。

Stary 2017-07-18 at 8.44.44 P

這裡其實有很多引數沒有顯示出來。從該圖來看，大部分的引數相關性是非常低的，這是一件非常好的事情，因為這說明選出來的引數具有更大表現力。但也發現有一些引數是重複的，這個比較尷尬。當然可以採用PCA過濾掉就好。

Stary 2017-07-18 at 8.45.58 P

從此圖來看，每一個引數都對sentiment有一定的影響，大部分都有比較強的相關性，這說明選出來的引數並不是隨便亂選的。

模型選擇

這裡我選擇了一些比較常見的演算法模型來進行訓練，並試圖去獲得相對較好的model。
這裡採用Kfold函式來迴圈測試模型，並且用f1 Score來選擇最合適的model。

SVC: 0.697422 (+/- 0.044767)
AdaBoostClassifier: 0.701619 (+/- 0.055826)
RandomForestClassifier: 0.728934 (+/- 0.043483)
RandomForestClassifier: 0.728934 (+/- 0.043483)
LinearSVC: 0.755798 (+/- 0.043480)
KNeighborsClassifier: 0.666486 (+/- 0.066893)
GaussianNB: 0.729580 (+/- 0.049237)
Perceptron: 0.728920 (+/- 0.034399)
SGDClassifier 
: 0.735260 (+/- 0.052218)
DecisionTreeClassifier: 0.693174 (+/- 0.053145)
LogisticRegression: 0.759676 (+/- 0.044828)

這裡我覺得LinearSVC相對比較好。

至此就沒有別的了。

基於機器學習的NLP情感分析（二）---- 分類問題

基於機器學習的NLP情感分析（二）—- 分類問題前文提到了如何把一個文字轉換為相應的詞向量，本文討論的是如何進行分類。 feature相關性首先，需要看看我之前選出來的feature，是否能夠滿足需求。這裡其實有很多引數沒有顯示出來

【NLP】基於機器學習角度談談CRF（三）

作者：白寧超 2016年8月3日08:39:14 【摘要】：條件隨機場用於序列標註，資料分割等自然語言處理中，表現出很好的效果。在中文分詞、中文人名識別和歧義消解等任務中都有應用。本文源於筆者做語句識別序列標註過程中，對條件隨機場的瞭解，逐步研究基於自然語言處理方面的應用。成文主要源於自然語言處理

機器學習--近鄰成分分析（NCA）算法和度量學習

學習 tar 本質技術結果 font ear art component 1、近鄰成分分析（NCA）算法以上內容轉載自：http://blog.csdn.net/chlele0105/article/details/13006443 2、度量學習在機器學習中，

輕松入門機器學習之概念總結（二）

消息目的作者固定 erp 效率 dev 常用度量歡迎大家前往雲加社區，獲取更多騰訊海量技術實踐幹貨哦~ 作者：許敏接上篇：機器學習概念總結筆記（一） 8）邏輯回歸 logistic回歸又稱logistic回歸分析，是一種廣義的線性回歸分析模型，常用於數據挖掘

機器學習算法整理（二）邏輯回歸 python實現

alt bubuko 邏輯 style res n) regress com png 邏輯回歸(Logistic regression) 機器學習算法整理（二）邏輯回歸 python實現

ng機器學習視頻筆記（二） ——梯度下降算法解釋以及求解θ

表示大於解釋圖片 bubuko eight 閾值自己極小值 ng機器學習視頻筆記（二） ——梯度下降算法解釋以及求解θ （轉載請附上本文鏈接——linhxx）一、解釋梯度算法梯度算法公式以及簡化的代價函數圖，如上圖所示。

機器學習之決策樹（二）

天氣次數 format 定義表示葉子節點 ast 代碼 wid 一、復習信息熵　　為了解決特征選擇問題，找出最優特征，先要介紹一些信息論裏面的概念。　　1、熵（entropy）　　　　　　　　python3代碼實現： def calcShannonEnt(

系統學習機器學習之特徵工程（二）--離散型特徵編碼方式：LabelEncoder、one-hot與啞變數*

轉自：https://www.cnblogs.com/lianyingteng/p/7792693.html 在機器學習問題中，我們通過訓練資料集學習得到的其實就是一組模型的引數，然後通過學習得到的引數確定模型的表示，最後用這個模型再去進行我們後續的預測分類等工作。在模型訓練過程中，我們會對訓練

機器學習之數學系列（二）邏輯迴歸反向傳播數學推導

一、簡介在深度學習領域，我們往往採用梯度下降(或上升)法來優化訓練函式模型，梯度下降法尤其是在優化凸函式上表現極佳。模型優化涉及到反向傳播過程，反向傳播過程需要先推匯出梯度計算公式然後利用機器進行代數運算。這篇博文的工作是詳細推導了邏輯迴歸反向傳播梯度計算公式(什麼是梯度？簡單來講

【機器學習】softmax迴歸（二）

通過上篇softmax迴歸已經知道大概了，但是有個缺點，現在來仔細看看 Softmax迴歸模型引數化的特點 Softmax 迴歸有一個不尋常的特點：它有一個“冗餘”的引數集。為了便於闡述這一特點，假設我們從引數向量中減去了向量，這時，每一個

基於深度學習的推薦系統（二）MLP based

在第二部分，我們總結MLP基礎上的推薦系統，我在這裡只截取了原文的一部分內容。這篇部落格中所使用的註解字元和參考文獻目錄可以在基於深度學習的推薦系統（一）Overview中找到。我們把這些工作分為如下幾部分：傳統推薦演算法的神經網路擴充套件許多現有的推薦模型

機器學習之聚類（二）

在機器學習和資料探勘中，我們經常需要知道個體間差異的大小，進而評價個體的相似性和類別。最常見的是資料分析中的相關分析，資料探勘中的分類和聚類演算法，如 K 最近鄰（KNN）和 K 均值（K-Means）等等。根據資料特性的不同，可以採用不同的度量方法

吳恩達老師機器學習筆記異常檢測（二）

明天就要開組會了，天天在辦公室划水都不知道講啥。。。今天開始異常檢測的學習，同樣程式碼比較簡單一點異常檢測的原理就是假設樣本的個特徵值都呈高斯分佈，選擇分佈較離散的樣本的作為異常值。這裡主要注意的是通過交叉驗證對閾值的選擇和F1score的應用。原始資料：

系統學習機器學習之線性判別式（二）

1. 原文： 2 問題引入假設有一個房屋銷售的資料如下：面積(m^2) 銷售價錢（萬元） 123 250 150 320 87 160 102 220 … … 這個表類似於北京5環左右的房屋價錢

機器學習的評價指標（二）-SSE、MSE、RMSE、MAE、R-Squared

迴歸評價指標SSE、MSE、RMSE、MAE、R-Squared 前言分類問題的評價指標上一篇文章已講述，那麼迴歸演算法的評價指標就是SSE、MSE，RMSE，MAE、R-Squared。下面一一介紹：一、SSE(和方差) 該統計引數計算的是擬合數據和原始資料對應

機器學習第九周（二）--構建異常檢測系統

異常檢測系統的開發與評估前面內容中，我們已經提到了使用實數評估法的重要性。這樣做的想法是，當你在用某個學習演算法來開發一個具體的機器學習應用時，你常常需要做出很多決定，比如說選擇用什麼樣的特徵等等。而如果你找到某種評估演算法的方式，比如直接返回

【機器學習】人像識別（二）——PCA降維

　　降維沒有什麼祕訣。我用了python裡sklearn.decomposition模組的IncrementalPCA。　　程式碼如下： X = np.array(dots) # do

機器學習與神經網路（二）：感知器的介紹和Python程式碼實現

前言：本篇博文主要介紹感知器的相關知識，採用理論+程式碼實踐的方式，進行感知器的學習。本文首先介紹感知器的模型，然後介紹感知器學習規則（Perceptron學習演算法），最後通過Python程式碼實現單層感知器，從而給讀者一個更加直觀的認識。 1.單層感知器模型單層感知器

神經網路之文字情感分析（二）

Projet 2 在Project 1 中，我們學習瞭如何處理和統計reviews 基於上一個Project”一個蘿蔔一個坑”的思想，我們將文字進行了數字化，使得文字可以作為輸入進行訓練在Project 2中我們將構建一個兩層的神經網路，並進行訓練

機器學習金典演算法（二）--梯度下降法（2）

機器學習金典演算法（二）–梯度下降法本人上篇博文梯度下降法（1）解釋了梯度下降法在機器學習中位置及思想，本文將繼續討論梯度下降法，梯度下降法存在的問題及改進思路，以及現有的幾種流行的變種梯度下降法。目錄

基於機器學習的NLP情感分析（二）---- 分類問題

基於機器學習的NLP情感分析（二）—- 分類問題

feature相關性

模型選擇

相關推薦