1. 程式人生 > >NLP語言模型

NLP語言模型

未在 搜索 概率 出現 基本思想 分布 不同 font 語言



語言模型:

I. 基本思想
區別於其他大多數檢索模型從查詢到文檔(即給定用戶查詢,如何找出相關的文檔),
語言模型由文檔到查詢,即為每個文檔建立不同的語言模型,判斷由文檔生成用戶查
詢的可能性有多大,然後按照這種生成概率由高到低排序,作為搜索結果。

II. 生成查詢概率
為每個文檔建立一個語言模型,語言模型代表了單詞(或單詞序列)在文檔中的分布情
況。針對查詢中的單詞,每個單詞都有一個抽取概率,將這些單詞的抽取概率相乘就是文
檔生成查詢的概率。

III. 存在問題

由於一個文檔文字內容有限,所以很多查詢詞都未在文中出現過,生成概率為0,會導致
查詢整體的生成概率為0,這被稱為語言模型的數據稀疏問題,是語言模型方法重點需要解決的問題。

IV. 解決方案

一般采用數據平滑方式解決數據稀疏問題。語言模型檢索方法則是為所有單詞引入一個背
景概率做數據平滑。

NLP語言模型