1. 程式人生 > >NLP-統計語言模型

NLP-統計語言模型

衡量 dot 形式 文檔 word2vec -i 其中 方式 rod

概念

  統計語言模型是描述自然語言內在規律的數學模型。廣泛應用於各種語言處理問題,如語音識別、機器翻譯、分詞、詞性標註等。統計模型就是用來計算一個句子的概率模型。

$n-gram$

  語言模型(language model)定義了自然語言中標記序列的概率分布。根據模型的設計,標記可以是詞、字符甚至是字節。標記總是離散的實體。最早成功的語言模型基於固定長度序列的標記模型,稱為$n-gram$。一個$n-gram$是一個包含$n$個標記的序列。

$n-gram$模型定義的條件概率

  給定前$n-1$個標記後的第$n$個標記的條件概率。
  $P\left ( x_{1} ,\cdots ,x_{T}\right )=P\left ( x_{1} ,\cdots ,x_{n-1}\right )\prod_{t=n}^{T}P\left ( x_{t}\mid x_{t-n+1},\cdots ,x_{t-1} \right )$

3.詞幹提取

  是指對一個單詞去掉後綴,還原為詞本身。

4.詞形還原

  是指同一單詞不同形式的識別,將單詞還原為標準形式。

5.詞袋模型

  用來將文本轉換成數值向量的表示形式。方式為將每個文檔構建一個特征向量,其中包含每個單詞在文檔中出現的次數。

6.TF-IDF

  TF-IDF=TF(詞頻)*IDF(逆文檔頻率)
  TF(Term Frequency):詞頻統計,對文章中詞語出現的頻率進行計數統計。
  $TF=\frac{當前文檔中單詞出現的次數}{當前文檔中包含的單詞總數}$

  大眾詞出現的次數多,也不應該認為是重要的,因為在其它文檔中出現的次數也多。為了更好的衡量大眾詞的價值,可用IDF來解決。


  IDF(Inverse Document Frequency):逆文檔頻率,指的是語料庫中文檔總數與語料庫中包含該詞的文檔數,二者比值的對數(log)。
  $IDF=log\left ( \frac{語料庫中文檔總數}{語料庫中包含該詞的文檔數+1} \right )$
舉個例子:
  昨夜 星辰 昨夜
  小馬過河
  昨夜房上看月亮
  明天又是另外一天了
  "昨夜"在第一個文檔中出現了2次,第一個文檔總共包含4個詞,總共存在4個文檔,故 $TF=\frac{2}{4}$ , $IDF=log\left ( \frac{4}{2+1} \right )$
  "昨夜"的TF-IDF值為:$0.5\times log\left ( 4/3 \right )$

7.Word2Vec

  Word2Vec:Word2Vec是Google在2013年提出的一個開源算法,使用神經網絡技術,可以將詞表轉化為向量表示。確切的說,就是將詞映射為n維空間向量,特征維度n視具體的情況與需求而定。
  計算文本相似度:可先將詞條轉化成向量,從而根據余弦相似度來計算文本之間的相似性。

NLP-統計語言模型