1. 程式人生 > >機器學習-8(單調函式)

機器學習-8(單調函式)

這裡為什麼講單調函式呢?因為我們馬上要去學習決策樹演算法了。如果直接就去講該演算法,我估計很多新手會蒙圈,所以我們先在這裡補習一下數學知識

 

單調函式的定義還是很簡單的,x1>x2,如果在一個區間內都保持f(x1)>f(x2)或者f(x1)<f(x2),那我們就說在此區間他是屬於單調函數了

現在我們繼續延伸知識,講講決策樹吧,我就按照我的理解來通俗的說了。決策樹就是不停的按照他的特徵值來分類,讓每個樣例都歸屬到屬於它的子集裡面去

用偽函式test表示就是

a = '所有樣本'

def test():

  for i in a:

     if  i 存在這個特徵:

        去除該樣本

        return i

     else:

          test()

  這是不是很想我們以前學的遞迴分類。。。。。。。。。。。。。

當然,這裡的存在這個特徵,肯定是一堆特徵了。我們需要的是在這一堆特徵裡面去尋找我們需要的熵

什麼是熵?

通常,一個信源傳送出什麼符號是不確定的,衡量它可以根據其出現的概率來度量。概率大,出現機會多,不確定性小;反之就大。

OK,來看看這個函式吧 y=logx,我就不畫圖了,很明顯,底數大於1,是嚴格增函式,底數小於1,是嚴格減函式

那麼,我們繼續來解釋熵是什麼吧,熵表示的就是不穩定性,在計算機裡面,就要牽扯到二進位制了,牽扯到位元,也就是我們所謂的0 1 10 11 100 101.。。。。。。。。。。。。。。。。。

舉個例子吧,現在舉行男足世界盃,決賽是中國隊對巴西隊(額。。。我只是無聊的YY了下而已)

中國隊奪冠概率,額。。。。就當百分之1吧,巴西隊奪冠概率百分之99

那麼,巴西隊如果奪冠,從周圍的事務來看,首先,騰訊新聞,今日頭條的相關資訊數量假設產生100條出來

精彩的來了!中國隊奪冠!資訊爆炸了!100萬條資訊產生了,在中國,在歐洲,在非洲,在南美洲。。。。在我的計算機裡我要去表示這麼多資訊,我需要更多的碼特才行啊!

這就是熵的意義,它表示的就是資訊的不穩定性

H(x)=-(0.99*log0.99+0.01+0.01*log0.01)   我需要計算機了,最後結果是:(-0.0043211)+(-0.02)=0.0243

OK,大家也看到了,這比賽沒啥懸念。。。。。。GG!