文字表示模型中涉及的知識點整理(詞袋模型，TF-IDF，主題模型，詞嵌入模型)

阿新 • • 發佈：2019-01-11

1.詞袋模型（Bags of Words）

詞袋模型是最基礎的文字表示模型，就是把每一篇文章看成一袋子單詞，並忽略每個此出現的順序。具體就是將整段文字以詞為單位分開，每篇文章可以表示成一個長向量，向量中的每一維代表一個單詞，而該維對應的權重代表這個詞在文章中的重要程度。一般用TF-IDF計算權重,公式如下：

TF-IDF(t,d) = TF(t,d) x IDF(t)

其中TF(t,d)為單詞t在文件d中出現的頻率，IDF(t)為逆文件頻率，用來衡量單詞t對錶達語義所起的重要性，公式表示如下：

$IDF(t) = log\frac{m}{n + 1}$

其中，m為文章總數，n為包含單詞t的文章總數

對於上述公式直觀的解釋：如果一個單詞在很多文章中出現，那麼它有可能是一個比較通用的單詞，對於區分某篇文章的特殊語義的貢獻較小，因此對權重作一定的懲罰。

2.N-gram模型

應用詞袋模型將文章進行單詞級別的劃分有的時候未必是一種好的做法，例如：將general purpose intelligence(通用智慧)一詞，如果將general , purpose, intelligence這三個詞拆開，所表達的意思與三個詞連在一起時大相徑庭。通常，可以將n個連續出現的單詞( $n\leq N$ )組成的片語(N-gram)也作為一個單獨的特徵放到向量表示中去，構成N-gram模型。另外，同一個詞可能有多種詞性變化，但是卻有相似的含義。在實際應用中，，一般會對單詞進行詞幹抽取(Word Stemming)處理，即將不同詞性的單詞統一稱為同一詞幹的形式。

3.主題模型

主題模型用於從文字庫中發現有代表性的主題(得到每個主題上面詞的分佈特性)，並能夠計算出每篇文章的主題分佈。

(這一塊在後面概率圖模型中再總結)

4.詞嵌入與深度學習模型

谷歌2013年提出的Word2vec就是詞嵌入模型之一，詞嵌入時將詞向量化的模型的通稱，其核心思想是將每個詞對映成低維-K維空間(通常K=50~300)的一個稠密向量(Dense Vector)。K維空間的每一維都可以看作一個隱含的主題，只不過不像主題模型中的主題那樣直觀。

詞嵌入將每個詞對映成K維向量，每篇文件假設有N個詞，則這篇文件就可以用N x K的矩陣表示，但是這樣的表示太底層化。在實際的應用中，如果將這個矩陣作為原文字的表示特徵輸入到機器學習模型中，很難達到令人滿意的結果。因此需要在在次基礎上加工出更高層的特徵。

在傳統的淺層機器學習模型中，一個好的特徵工程往往可以帶來演算法效果的顯著提升，而深度學習模型則可以為我們提供一種自動化地進行特徵工程地方式，模型中地每個隱層都可以認為對應著不同抽象層次地特徵。從這個角度來講，深度學習模型打敗淺層模型也就順理成章了。卷積神經網路和迴圈神經網路地結構在文字表示中取得了很好地效果，主要由於它們能夠更好地對文字進行建模，抽取一些高層的語義特徵。與全連結網路相比，卷積神經網路和迴圈神經網路一方面很好地抓住了文字的特性，另一方面又減少了網路中待學習的引數，提高了訓練的速度，降低了過擬合的風險。

文字表示模型中涉及的知識點整理(詞袋模型，TF-IDF，主題模型，詞嵌入模型)

1.詞袋模型（Bags of Words）

2.N-gram模型

3.主題模型

4.詞嵌入與深度學習模型

機器學習筆記筆記之三——文字型別處理-詞袋法、TF-IDF理解

文字表示模型中涉及的知識點整理(詞袋模型，TF-IDF，主題模型，詞嵌入模型)

文字分析--關鍵詞獲取（jieba分詞器，TF-IDF模型）

backbone原始碼學習中的知識點整理（一）

自然語言處理之Bag-of-words，TF-IDF模型

文字情感分析(一)：基於詞袋模型(VSM和LSA)和n-gram的文字表示

簡練網軟考知識點整理-項目招標投標中的法律責任

整理c#學習中的知識點

簡練軟考知識點整理-智慧城市參考模型

Vue面試中，經常會被問到的面試題/Vue知識點整理

工作中涉及運維知識點的匯總

知識點整理2：Java記憶體模型

Java 知識點整理-10.Java集合框架去除ArrayList中重複字串、自定義物件棧和佇列泛型 JDK5新特性 asList() toArray(T[] a) ArrayList迴圈巢狀

Vue 面試中常問知識點整理

對文字抽取詞袋模型特徵

迴環檢測中的詞袋模型（bag of words）

文字相似度-詞袋模型

自然語言處理中的詞袋模型

自然語言處理(NLP) 三：詞袋模型 + 文字分類

典型的Top K演算法 _找出一個數組裡面前K個最大數_找出1億個浮點數中最大的10000個_一個文字檔案，找出前10個經常出現的詞，但這次檔案比較長，說是上億行或十億行，總之無法一次讀入記憶體.

文字表示模型中涉及的知識點整理(詞袋模型，TF-IDF，主題模型，詞嵌入模型)

1.詞袋模型（Bags of Words）

2.N-gram模型

3.主題模型

4.詞嵌入與深度學習模型

相關推薦