1. 程式人生 > >應用統計學與R語言實現學習筆記(十一)——判別分析

應用統計學與R語言實現學習筆記(十一)——判別分析

Chapter 11 Discriminant Analysis

筆者最近任務繁重,斷更了一頓時間,最近會開始慢慢把這個系列寫完。本篇是第十一章,內容是判別分析。

1 判別分析應用

判別分析(Discriminant Analysis)——判別分析的目的是對已知分類的資料建立由數值指標構成的分類規則,然後把這樣的規則應用到未知分類的樣本中去分類,以識別未知樣本所屬的類別。判別分析是多元資料分析的重要方法之一。通常解決被解釋變數是非數值變數,解釋變數是數值變數的情形。
事實上地學領域應用判別分析最多的是在哪裡呢?其實是遙感影像的地物分類,通常遙感導論中無論Erdas或者ENVI在做完監督分類之後,其實就是用標註的樣本去訓練判別函式,然後用判別函式完成整幅影像的判別分析,就可以分出不同的地物型別,這種方法就是我們最普遍使用的極大似然法。而這裡的被解釋變數就是地物型別,解釋變數(多元)就是遙感影像不同波段的DN值,或者是輻射率。

  • 聚類分析和判別分析差異
    在聚類分析中,人們一般事先並不知道應該分成幾類及哪幾類,全根據資料確定。
    在判別分析中,至少有一個已經明確知道類別的“訓練樣本”,並利用該樣本來建立判別準則,並通過預測變數來為未知類別的觀測值進行判別。
    通常實際問題中,可以先聚類以得知型別,再進行判別。
    用機器學習的話來說,聚類分析是非監督學習,判別分析屬於監督學習。

判別分析的資料結構

individuals X 1   X 2     X l     X p   Y
1 28 1.0   114
 
0.15 1
2 29 2.0   117   0.20 1
               
i x i1   x i2     x il     x ip   2
               
47 15 8   64   0.51 2
48 16 7.5   65   0.50 3
       
 
     
n x n1   x n2     x nl     x np   3

對比聚類分析的資料結構,事實上就是多了最後一列的Y。

  • 個體由X 1 ,X 2 ,,X p  變數描述。
  • 有分類變數Y 明確對個體分類。
  • 問題:建立YX 1 ,X 2 ,,X p  變數間關係的函式。根據函式將新個體進行分類。

誤判率
誤判率的高低有下面兩個因素決定:

  • 主觀因素:分界線的位置要正確。
  • 客觀因素:均值,方差——通過選擇指標來控制:一般來說,維度高一點,可以使解析度高一些,但在許多情況下,指標太多,不僅不能提高解析度,還增加計算量(需要豐富的實際經驗和試算);在做判別分析前,要做假設檢驗。在兩個總體的均值有顯著差異的情況下,再做判別分析。

判別分析的假設

  • 每一個判別變數(解釋變數)不能是其他判別變數的線性組合——不符合該假設的話,無法估計判別函式,變數間高度相關或一變數與其他變數的線性組合高度相關時,引數估計的標準誤差將很大。
  • 判別變數之間具有多元正態分佈——可精確的計算顯著性檢驗值和歸屬概率。
  • 如要採用線性判別函式,還要求各組協方差距陣相等——線性判別函式使用起來最方便、在實際中使用最廣。

2 判別分析方法

2.1 距離判別法

兩總體情況
假設有兩個總體G 1  G 2  ,如果能夠定義點x到它們的距離d(x,G 1  )和d(x,G 2  ),則可用如下規則進行判別:

  • 如果d(x,G 1  ) < d(x,G 2  )則xG 1  
  • 如果d(x,G 2  ) < d(x,G 1  )則xG 2  
  • 如果d(x,G 1  ) = d(x,G 2  )則待判。

距離常選用馬氏距離——假設μ 1 ,μ 2 ,Σ 1 ,Σ 2  分別為G 1