NLP-統計語言模型

阿新 • • 發佈：2019-05-12

衡量 dot 形式文檔 word2vec -i 其中方式 rod

概念

統計語言模型是描述自然語言內在規律的數學模型。廣泛應用於各種語言處理問題，如語音識別、機器翻譯、分詞、詞性標註等。統計模型就是用來計算一個句子的概率模型。

$n-gram$

語言模型（language model）定義了自然語言中標記序列的概率分布。根據模型的設計，標記可以是詞、字符甚至是字節。標記總是離散的實體。最早成功的語言模型基於固定長度序列的標記模型，稱為$n-gram$。一個$n-gram$是一個包含$n$個標記的序列。

$n-gram$模型定義的條件概率

給定前$n-1$個標記後的第$n$個標記的條件概率。
$P\left ( x_{1} ,\cdots ,x_{T}\right )=P\left ( x_{1} ,\cdots ,x_{n-1}\right )\prod_{t=n}^{T}P\left ( x_{t}\mid x_{t-n+1},\cdots ,x_{t-1} \right )$

3.詞幹提取

是指對一個單詞去掉後綴，還原為詞本身。

4.詞形還原

是指同一單詞不同形式的識別，將單詞還原為標準形式。

5.詞袋模型

用來將文本轉換成數值向量的表示形式。方式為將每個文檔構建一個特征向量，其中包含每個單詞在文檔中出現的次數。

6.TF-IDF

TF-IDF=TF(詞頻)*IDF(逆文檔頻率)
TF(Term Frequency):詞頻統計，對文章中詞語出現的頻率進行計數統計。
$TF=\frac{當前文檔中單詞出現的次數}{當前文檔中包含的單詞總數}$

大眾詞出現的次數多，也不應該認為是重要的，因為在其它文檔中出現的次數也多。為了更好的衡量大眾詞的價值，可用IDF來解決。

IDF(Inverse Document Frequency):逆文檔頻率，指的是語料庫中文檔總數與語料庫中包含該詞的文檔數，二者比值的對數（log）。
$IDF=log\left ( \frac{語料庫中文檔總數}{語料庫中包含該詞的文檔數+1} \right )$
舉個例子：
昨夜星辰昨夜風
小馬過河
昨夜房上看月亮
明天又是另外一天了
"昨夜"在第一個文檔中出現了2次，第一個文檔總共包含4個詞，總共存在4個文檔，故 $TF=\frac{2}{4}$ , $IDF=log\left ( \frac{4}{2+1} \right )$
"昨夜"的TF-IDF值為：$0.5\times log\left ( 4/3 \right )$

7.Word2Vec

Word2Vec:Word2Vec是Google在2013年提出的一個開源算法，使用神經網絡技術，可以將詞表轉化為向量表示。確切的說，就是將詞映射為n維空間向量，特征維度n視具體的情況與需求而定。
計算文本相似度：可先將詞條轉化成向量，從而根據余弦相似度來計算文本之間的相似性。

NLP-統計語言模型

衡量 dot 形式文檔 word2vec -i 其中方式 rod 概念統計語言模型是描述自然語言內在規律的數學模型。廣泛應用於各種語言處理問題，如語音識別、機器翻譯、分詞、詞性標註等。統計模型就是用來計算一個句子的概率模型。 $n-gram$

NLP-統計語言模型

概念

$n-gram$

$n-gram$模型定義的條件概率

3.詞幹提取

4.詞形還原

5.詞袋模型

6.TF-IDF

大眾詞出現的次數多，也不應該認為是重要的，因為在其它文檔中出現的次數也多。為了更好的衡量大眾詞的價值，可用IDF來解決。

7.Word2Vec

NLP-統計語言模型

NLP（三）_統計語言模型

讀《數學之美》第三章統計語言模型

統計語言模型

【NLP】語言模型和遷移學習

NLP中語言模型預訓練方法

N-gram統計語言模型(總結)

數學之美第3章統計語言模型

Statistical language model 統計語言模型

1《數學之美》第3章統計語言模型

NLP語言模型

[NLP自然語言處理]谷歌BERT模型深度解析

python 自然語言處理統計語言建模 - （n-gram模型）

基於NLP自然語言構建的文件自動分類系統(搜狐娛樂)—word2vec模型

Deep Learning in NLP （一）詞向量和語言模型

NLP︱LDA主題模型的應用難題、使用心得及從多元統計角度剖析

NLP之神經網路語言模型之超級無敵最佳資料

NLP學習筆記(1)-詞向量與語言模型

NLP預訓練語言模型

stanford nlp第四課“語言模型（Language Modeling）”

NLP-統計語言模型

概念

$n-gram$

$n-gram$模型定義的條件概率

3.詞幹提取

4.詞形還原

5.詞袋模型

6.TF-IDF

大眾詞出現的次數多，也不應該認為是重要的，因為在其它文檔中出現的次數也多。為了更好的衡量大眾詞的價值，可用IDF來解決。

7.Word2Vec

相關推薦