文字資料探勘-----詞向量

阿新 • • 發佈：2018-11-12

中文資料探勘的難點在於如何把文字變成計算機處理的向量，一個好的詞向量方法可以提升分類或者其他應用效果。我把自己接觸的詞向量技術總結一下，方便自己複習和其他感興趣的小夥伴交流學習。

使用結巴或者其他中文分詞工具分完詞後就需要生成詞向量了，方便後期的資料探勘工作的展開。

詞向量技術：我接觸的大致可以分成（1）基於統計的方法（2）基於圖的方法（3）基於主題模型的方法（4）基於深度學習的方法

（1）基於統計的方法：

相似度，卡方，互資訊(優點：可以得到對結果影響大的詞；缺點：計算量比較大，需要先驗知識，比如類別)

tf-idf (優點：簡單、效果不錯，可以得到每個詞的權重；缺點：沒考慮詞的順序，需要多篇語料才能得到比較好的詞)

n-gram (優點：2-gram以上考慮了詞順序，提升了效果；缺點：隨著n的增大，字典迅速擴大，而且訓練用的向量特別稀疏)

bag of words （one hot編碼，優點：簡單；缺點：沒有對詞進行過濾，導致詞比較多，進而影響字典的數量，而且沒有考慮詞頻，以及詞的順序）

（2）基於圖的方法：

textrank(優點：把網頁排名的演算法pagerrank進行變化，得到每個詞的重要性，可以針對一篇文章得到重要的詞語；缺點：計算複雜度比較高)

(3)基於主題模型的方法

LDA (使用了共現矩陣；缺點：沒有考慮詞序)

PLSA

SVD

(4)基於深度學習的方法：

word2vec(優點：考慮了詞的上下文資訊，通過神經網路的投影層得到詞向量，屬於有監督的學習方法，這裡的有監督的意思是把中間詞one-hot的編碼看成已知的向量進行訓練模型，如果考慮是否使用了文章的類別，是無監督的方法；缺點：計算量比較大，訓練時間比較久）

doc2vec()

fasttext(優點：優化了word2vec，使速度大範圍提升，不用生成詞向量了，直接用於分類等其他任務，屬於有監督的學習方法

)

實際應用中，可能是多種方法聯合使用，比如先用tf-idf進行一遍過濾，然後再使用其他方法處理。

先總結這麼多，後面有新的東西再加

文字資料探勘-----詞向量

中文資料探勘的難點在於如何把文字變成計算機處理的向量，一個好的詞向量方法可以提升分類或者其他應用效果。我把自己接觸的詞向量技術總結一下，方便自己複習和其他感興趣的小夥伴交流學習。使用結巴或者其他中文分詞工具分完詞後就需要生成詞向量了，方便後期的資料探勘工作的展開。 &nb

[跪求大神]大資料中的文字資料探勘問題，非結構化轉換問題

現有一個數據包，裡面有大量txt檔案，txt檔案裡儲存的是一家餐廳的基本資訊，以及客戶對其評價，包括的欄位如下： id：店鋪id name：店鋪名 name_all：店鋪全稱 star：平均評價分數 address：地址 tags：標籤 comment：一條評論 uid

基於SNS的文字資料探勘

今年上半年，我在人人網實習了一段時間，期間得到了很多寶貴的資料，並做了一些還算有意義的事情，在這裡和大家一塊兒分享。感謝人人網提供的資料與工作環境，感謝趙繼承博士、詹衛東老師的支援和建議。在這項工作中，我得到了很多與眾人交流的機會，特別感謝 OpenParty 、 TED

網際網路時代的社會語言學：基於SNS的文字資料探勘

python資料分析與挖掘學習筆記（3）_小說文字資料探勘part1

這一節主要是對小說文字資料的挖掘專案。文字挖掘的一個重要的應用是進行站點的個性化推薦。將使用者感興趣的資訊推送給對應的使用者，可以更好地發揮該資訊的價值。比如，我們常常會在瀏覽網頁的時候看到相關的廣告是我們感興趣的，新聞推送的是我們感興趣的文章，閱讀小說推薦的是我們想看的

python資料探勘實戰筆記——文字挖掘（4）：詞雲繪製

概念：詞雲：詞雲是指對文字中詞頻較高的分詞，給予視覺上的突出，形成“關鍵詞渲染”，從而過濾掉大量的文字資訊，使瀏覽者一眼掃過就可以領略文字的主旨。需要用到的包：wordcloud、matplotlib wordcloud包下載地址：http://www.l

資料探勘01---文字分析（jieba分詞和詞雲繪製）

一、定義：文字挖掘：從大量文字資料中抽取出有價值的知識，並且利用這些知識重新組織資訊的過程。二、語料庫（Corpus）語料庫是我們要分析的所有文件的集合。 import os import os.path filePaths = [] #定義一個數組變數 #再用

資料探勘文字分類（二）蒐集中文語料庫與ICTCLAS分詞

在上一篇部落格中簡單介紹了實驗環境和流程，這一篇我們繼續。第一步，下載搜狗中文語料庫。連結：http://www.sogou.com/labs/dl/c.html 我們下載

資料探勘基礎-2.中文分詞

一、中文分詞基礎 • 切開的開始位置對應位是1，否則對應位是0，來表示“有/意見/分歧”的bit內容是：11010，通過識別1後面幾個0，就可以知道有幾個字切在一塊。 • 還可以用一個分詞節點序列來表示切分方案，例如“有/意見/分歧”的分詞節點序列是{0,1,3,5}

python資料探勘實戰筆記——文字挖掘（1）：語料庫構建

什麼是文字挖掘？　　文字挖掘是抽取有效、新穎、有用、可理解的、散佈在文字檔案中的有價值知識，並且利用這些知識更好地組織資訊的過程。一、搭建語料庫語料庫：要進行文字分析的所有文件的集合。需要用到的模組：os、os.path、codecs、pandas 程

python資料探勘實戰筆記——文字分析（6）：關鍵詞提取

緊接上篇的文件，這節學習關鍵字的提取，關鍵詞——keyword，是人們快速瞭解文件內容，把握主題的重要內容。 #匯入需要的模組 import os import codecs import pandas import jieba import jieba.ana

Python資料探勘學習筆記（1）文字挖掘入門

一、準備階段：（1）開啟cmd，pip安裝jieba（pip install jieba）（2）開啟python安裝目錄的Lib->site-packages->jieba，開啟dict.txt，可以看到這是jieba模組的詞典：每

資料探勘十大演算法——支援向量機SVM（一）：線性支援向量機

首先感謝“劉建平pinard”的淵博知識以及文中詳細準確的推導！！！本文轉自“劉建平pinard”，原網址為：http://www.cnblogs.com/pinard/p/6097604.html。支援向量機原理SVM系列文章共分為5部分：（一）線性支援向量機

《Python資料分析與資料探勘實戰》第十五章學習——文字分析

本章主要實戰目的是對京東平臺上的熱水器評論進行文字挖掘分析，包括分析其使用者情感傾向、從評論文字中挖掘出該品牌熱水器的優點與不足和提煉不同品牌熱水器的賣點。本文主要包括以下幾個部分：評論資料抽取評論預處理模型準備模型構建總結評論資料抽

資料探勘十大演算法——支援向量機SVM（四）：SMO演算法原理

首先感謝“劉建平pinard”的淵博知識以及文中詳細準確的推導！！！支援向量機原理SVM系列文章共分為5部分：（一）線性支援向量機（二）線性支援向量機的軟間隔最大化模型（三）線性不可分支援向量機與核函式（四）SMO演算法原理（五）線性支援迴歸

資料探勘基礎-1.文字相似度

一、文字相似度相似度度量指的是計算個體間相似程度，一般使用距離來度量，相似度值越小，距離越大，相似度值越大，距離越小。在說明文字相似度概念和計算方式之前，先回顧下餘弦相似度。 1.餘弦相似度衡量文字相似度最常用的方法是使用餘弦相似度。 – 空間中，兩個向量夾角的

資料探勘十大演算法——支援向量機SVM（二）：線性支援向量機的軟間隔最大化模型

資料探勘——基於R文字情感分析（2）

姑且算是搞定了這個。最後使用的是在twitter中搜索。因為callback url的關係，之前一直無法直接搜尋twitter內容，今天直接把callback url刪除了就成功了。推薦兩個很好的

在R中使用支援向量機（SVM）進行資料探勘（上）

在R中，可以使用e1071軟體包所提供的各種函式來完成基於支援向量機的資料分析與挖掘任務。請在使用相關函式之前，安裝並正確引用e1071包。該包中最重要的一個函式就是用來建立支援向量機模型的svm()函

文字資料探勘-----詞向量

相關推薦