1. 程式人生 > >非度量方法(判定樹和熵)

非度量方法(判定樹和熵)

首先,來看下什麼叫有度量方法。如下:

生活中,有些事物可以用數字去衡量或者代為表示,用於比較同性質的量,這叫度量方法。

    可是,對於整體來講。不能用量化表示這個整體,比如2兩的蘋果,它並不等於蘋果。所以呢,只能用非度量方法-語義(文字或符號)表示。而對於語義,判定樹是一個很好的模型去給它和其他型別標記分類。判定樹相容數字和文字選擇方式。

 熵的定義:表示不純度,即混沌程度。對於分類來講就是資料的不確定在哪個類別所佔比。

舉例:H=\tiny \sum_{j}^{}p(i)log2(pi)

  • 假如一組資料有k類資訊,那麼每一個資訊所佔的比例就是pipi。比如鳶尾花資料包含三種鳶尾花的資料,那麼每種鳶尾花所佔的比例就是1313,那麼p1p1、p2p2、p3p3就分別為1313。
  • 因為pipi只可能是小於1的,所以log(pi)log(pi)始終是負數。所以需要在公式最前面加負號,讓整個熵的值大於0。

我們來舉幾個例子看一下,首先用水果的例子,三種水果各佔1/3、1/3、1/3:

{1/3,1/3,1/3}

那麼代入資訊熵的公式可得:

H=−1/3log(1/3)−1/3log(1/3)−1/3log(1/3)=1.0986

再來看一個例子:

{ 1/10,2/10,7/10}

代入公式可得:

H=−1/10log(1/10)−2/10log(2/10)−7/10log(7/10)=0.8018

從上面兩個例子可以看出,第二個例子的資訊熵比一個例子的小,那麼意味著第二個示例的資料不確定性要低於第一個示例的資料。其實從資料中也能看出,其中有一類資訊佔全部資訊的7/10,所以大多資料是能確定在某一類中的,故而不確定性低。而第一個示例中每類資訊都佔了全部資訊的1/3,所以資料不能很明確的確定是哪類,故而不確定性高。

再來看一個極端的例子,{1,0,0},將其代入資訊熵公式後得到的值是0。因為整個資料中就一種型別的資料,所以不確定性更小,即資訊熵達到了0。