最近在看到自然語言處理中的條件隨機場模型時,發現了裡面涉及到了最大熵模型,這才知道最大熵模型自己還是一知半解,於是在知乎上查閱了很多資料,發現特別受用,飲水思源,我將自己整理的一些資料寫下來供大家參考

  1. 僅僅對輸入抽取特徵。即特徵函式為\mathbf{f}(\mathbf{x})
  2. 對輸入和輸出同時抽取特徵。即特徵函式為\mathbf{f}(\mathbf{x}, y)

 

 

 

沒錯,一般說的“特徵”都是指輸入的特徵,而最大熵模型中的“特徵”指的是輸入和輸出共同的特徵。
最大熵模型中的每個特徵會有一個權重,你可以把它理解成這個特徵所描述的輸入和輸出有多麼傾向於同時出現。

可以以多類logistic regression為例,來感受一下兩種視角的不同。
在一般的視角下,每條輸入資料會被表示成一個n維向量,可以看成n個特徵。而模型中每一類都有n個權重,與n個特徵相乘後求和再經過softmax的結果,代表這條輸入資料被分到這一類的概率。
在最大熵模型的視角下,每條輸入的n個“特徵”與k個類別共同組成了nk個特徵,模型中有nk個權重,與特徵一一對應。每個類別會觸發nk個特徵中的n個,這n個特徵的加權和經過softmax,代表輸入被分到各類的概率