1. 程式人生 > >Fisher 線性分類器(1)----Fisher準則函式

Fisher 線性分類器(1)----Fisher準則函式

Fisher 線性分類器由R.A.Fisher在1936年提出,至今都有很大的研究意義,下面介紹Fisher分類器的Fisher準則函式

Fisher準則函式

在模式識別的分類演算法中,大概可以分為兩類,一種是基於貝葉斯理論的分類器,該型別分類器也稱為引數判別方法,根據是基於貝葉斯理論的分類器必須根據所提供的樣本資料求出先驗概率和類概率密度函式的型別和引數;另一種是非引數判別方法,它傾向於由所提供樣本資料直接求出在某一準則函式下的最優引數,這種方法必須由分類器設計者首先確定準則函式,並根據樣本資料和該函式最優的原理求出函式的引數。基於貝葉斯理論的分類器對於設計者來說比較死板和原則,它必須知道類概率密度函式和先驗概率才能估算出判別函式,但是實際上樣本資料的類概率密度函式的型別和引數都是不知道的,這給引數判別方法帶來了麻煩;而非引數方法的優點在於,當設計者設計好準則函式之後,便可用樣本資料優化分類器引數,難點在於準則函式的設計,因此,兩種方法各有千秋,互為補充!

設樣本d維特徵空間中描述,則兩類別問題中線性判別函式的一般形式可表示成

,其中WT表示垂直於超平面的法向量,在二維的情況下,便是判別直線的法向量,W0稱為閾權值,它只決定超平面在空間上的上下或者左右平移的位置。

在使用線性分類器時,樣本的分類由其判別函式值決定,而每個樣本的判別函式值是其各分量的線性加權和再加上一閾值w0。如果我們只考慮各分量的線性加權和,則它是各樣本向量與向量W的向量點積。如果向量W的幅度為單位長度,則線性加權和又可看作各樣本向量在向量W上的投影。顯然樣本集中向量投影的分佈情況與所選擇的W向量有關。如下圖:

圖1

紅色跟藍色分別為兩類樣本,顯然,從分類的角度來看,W1要比W2要好,因此,Fisher準則函式的基本思路是

向量W的方向選擇應能使兩類樣本投影的均值之差儘可能大些,而使類內樣本的離散程度儘可能小

為了給出Fisher準則函式的數學定義,我們必須定義一些基本參量,如下:

1 樣本在d維特徵空間的一些描述量。

  (1) 各類樣本均值向量mi

(2) 樣本類內離散度矩陣Si與總類內離散度矩陣Sw

註釋:類內離散矩陣Si在形式上與協方差矩陣很相似,但協方差矩陣是一種期望值,而類內離散矩陣只是表示有限個樣本在空間分佈的離散程度

2 在一維Y空間

  (1) 各類樣本均值

      (2) 樣本類內離散度總類內離散度

在定義了上述一系列描述量後,可以用這些量給出Fisher準則的函式形式。根據Fisher選擇投影方向W的原則,即使原樣本向量在該方向上的投影能兼顧類間分佈儘可能分開,類內樣本投影儘可能密集的要求,用以評價投影方向W的函式為:

顯然,準則函式的函式值跟總類內離散度成反比,跟樣本差值的均方成正比,也就說,兩類樣本的均值相差越大,函式值越大,反之,則越小,類內離散度越小,函式值越大,反之則越小。同一類的樣本,離散度應該要小。