CountVectorizer，Tf-idfVectorizer和word2vec構建詞向量的區別

阿新 • • 發佈：2018-03-31

tor 兩種方法閾值出現使用方法詞典 idfv 情感

CountVectorizer和Tf-idfVectorizer構建詞向量都是通過構建字典的方式，比如在情感分析問題中，我需要把每一個句子（評論）轉化為詞向量，這兩種方法是如何構建的呢？拿CountVectorizer來說，首先構建出一個字典，字典包含了所有樣本出現的詞匯，每一個詞匯對應著它出現的順序和頻率。對於每一個句子來說，構建出來的詞向量的長度就是整個詞典的長度，詞向量的每一維上都代表這一維對應的單詞的頻率。同理，Tf-idf就是將頻率換成Tf權值。

CountVectorizer有幾個參數個人覺得比較重要：

max_df：可以設置為範圍在[0.0 1.0]的float，也可以設置為沒有範圍限制的int，默認為1.0。這個參數的作用是作為一個閾值，當構造語料庫的關鍵詞集的時候，如果某個詞的document frequence大於max_df，這個詞不會被當作關鍵詞。如果這個參數是float，則表示詞出現的次數與語料庫文檔數的百分比，如果是int，則表示詞出現的次數。如果參數中已經給定了vocabulary，則這個參數無效
min_df：類似於max_df，不同之處在於如果某個詞的document frequence小於min_df，則這個詞不會被當作關鍵詞
max_features：默認為None，可設為int，對所有關鍵詞的term frequency進行降序排序，只取前max_features個作為關鍵詞集

Tf-idfVectorizer也有上述參數，除此之外還有一個個人覺得能用得上的：

norm：默認為‘l2‘，可設為‘l1‘或None，計算得到tf-idf值後，如果norm=‘l2‘，則整行權值將歸一化，即整行權值向量為單位向量，如果norm=None，則不會進行歸一化。大多數情況下，使用歸一化是有必要的。（這裏的l1和l2的區別我目前也不太明白）

通過這些方法轉化的詞向量維度還是比較大的，而且是稀疏陣，為了避免過擬合等問題，所以在實際處理中需要降維處理。

word2vec的話比他們要復雜一些，是利用類似神經網絡進行訓練得到的詞向量，每一個單詞有對應的向量。一般如果像微博評論情感分析這種問題，在求評論向量的時候，可以直接對每一個詞向量求平均作為句子向量。至於word2vec實現不在這裏贅述。word2vec可以設置好詞向量維度，但是一般設在100維以上。如果樣本不算太大時，為了避免後續詞向量維度較大造成的訓練問題，可以將輸出維度設置為幾十維。

CountVectorizer，Tf-idfVectorizer和word2vec構建詞向量的區別

tor 兩種方法閾值出現使用方法詞典 idfv 情感 CountVectorizer和Tf-idfVectorizer構建詞向量都是通過構建字典的方式，比如在情感分析問題中，我需要把每一個句子（評論）轉化為詞向量，這兩種方法是如何構建的呢？拿CountVector

CountVectorizer，Tf-idfVectorizer和word2vec構建詞向量的區別

CountVectorizer，Tf-idfVectorizer和word2vec構建詞向量的區別

文本分布式表示（二）：用tensorflow和word2vec訓練詞向量

tf.add_to_collection，tf.get_collection和tf.add_n的用法

Java基礎14：離開IDE，使用java和javac構建項目

數據庫系列之mysql 自定義函數function，函數和存儲過程的區別

word2vec的詞向量&&神經網路的embedding層的關係

理解根目錄，getClass().getResourceAsStream和getClass().getClassLoader().getResourceAsStream的區別

在JavaScript中，++在前和++在後有什麼區別

關注數字期貨數字貨幣，區塊鏈和比特幣的區別，區塊鏈技術的本質是什麼？

建構函式，拷貝構造和賦值運算子‘=‘的區別

基於python的gensim word2vec訓練詞向量

文字深度表示模型——word2vec&doc2vec詞向量模型（轉）

[Algorithm & NLP] 文字深度表示模型——word2vec&doc2vec詞向量模型

分析資料，持續預測和累計預測資料的區別

網路程式設計中，同步傳輸和非同步傳輸有什麼區別

count(*)，count(1)和count(欄位)的區別

自然語言處理之word2vec原理詞向量生成

Windows下使用Word2vec繼續詞向量訓練

Windows下執行C語言版Word2Vec訓練詞向量

同樣是合併，git merge和git rebase有什麼區別？

CountVectorizer，Tf-idfVectorizer和word2vec構建詞向量的區別

相關推薦